大漢和辭典 変換表 2月25日 報告

久々に、現状の版を公開します。8面は、8-357E (01968-0) まで終わりました。

変更点


えむけい さんの調査を、TSVに反映させました。

9-3A38 U+2B0A9 50468-0 #⿱⺮賦
9-274D 48663-0 #「⿰齒朶」Ext-Dから追加予定、類似字形U+2A609


見つからない字など


8-2B61 01001-0 #⿰亻閃
8-306C 01480-0 Unicodeに発見できず「⿱⿻臼⿱一八」

8-306Cは、似たような字は U+20514 として見つけましたが、包括の範囲内とは思えなかったので。
もう一つ似た字に U+2051C を見つけましたが、これは8-3073が対応するようです。


微妙なもの


字形がだいぶ違うけど、包括できるかもしれない組み合わせ。

8-2C54 U+2036E 01081-0 #字形が違う 「壬」ではなく「´士」
8-2D41 U+348E 01156-0 #字形が違う「⿰亻⿱夭韭」

実際、これらはどうでしょう?


Unihanがおかしいもの


8-302C U+204DB 01416-0

Unihan.txtだと、U+4EBDが01416-0だとしているのですが、これは何かの間違いでしょうか?
もっと字形が近いと思われる U+204DB としておきましたが…


微妙だけど包括の範囲内


S.1.5で包括の範囲内と明示されていたりするもの。一応備忘録として

8-2E73 U+34A1 01300-0 #⿲亻䍃系


成果物


本日の版です。

最新版のTSVファイル
ver H21/02/25

プロジェクトのページ
http://www.mirai-ii.co.jp/data/moro/

2009/02/25(水)23:44 |Comments(4) |Trackback(0)

製造開発 | ソフトウェア開発 | コンピュータ | [編集]

▲ページトップ

コメント

8-306C
U+2F812にU+2051Cと見分けのつかない字があったのでCNSの実装を調べてみたところ、なんとCNS11643ではU+2051C(T6-353E)を8-306Cの字形で実装しているようです。
http://www.cns11643.gov.tw/AIDB/query_general_view.do?page=6&code=353e
http://www.cns11643.gov.tw/AIDB/query_general_view.do?page=6&code=3d3c
すると8-306CをU+2051C、8-3073をU+2F812にマップするのがいいのでしょうか。
しかしUnihanではU+2051Cを康煕字典128ページの16番目の文字だとも言っています。
http://kangxizidian.com/kangxi/0128.gif
これは明らかに8-3073のことです。
はっきり言ってU+2F812が互換漢字になっているのがバグだとしか思えないのですが、とりあえず
8-306C U+2051C U+20514 01480-0
8-3073 U+2F812 U+2051C 01487-0
とするのはいかがでしょうか。
UCSも大漢和も康煕字典の文字は基本的に康煕字典通りの順番で並べているので、該当する位置にある漢字は多少形が違っていても同じ字である可能性が高いのですが、もっと形の近い字が別の場所にあるというのは私も作業中に頻繁に遭遇していて、マッピングに悩んでいます。

8-2C54 康煕字典の字形を見ると「ノ」が縦棒の左に出るかどうか微妙な字形をしているので、まあ8-2C54とU+2036Eのどちらもアリなんじゃないでしょうか。
http://kangxizidian.com/kangxi/0116.gif
私はこういう場合、康煕字典の字形を参照したという意味でコメントに「KX0116.050」と入れています。

8-2D41 これはU+348EのT欄を見れば自明です。ところでUCS的にはG欄とT欄は対等なはずですが、これを「字形が違う」と表現するのは適切なのでしょうか。GB18030と比べてるなら「字形が違う」でいいかもしれませんが…。

8-302C 入部の文字なのに人部にマップされているところからしておかしいですね。私もU+204DBのほうが適切だと思います。
2009/02/26(木)11:32 |えむけい | URL |編集
▲ページトップ

コメントも入れておいたほうがいいかも。
8-306C U+2051C U+20514 01480-0 #T6-353E
8-3073 U+2F812 U+2051C 01487-0 #T6-3D3C
2009/02/26(木)12:13 |えむけい | URL |編集
▲ページトップ

「字形が違う」は、unicode.orgのchartsのPDFなどを基準に書いているので、確かに不適切な表現なのかもしれません。

字形が微妙なものはコメントを残しておけば分かると思うので、「字形が違う」という記述は削除することにします。
2009/02/26(木)16:45 |miraicorp | URL |編集
▲ページトップ

8-306C(01480-0)と8-3073(01487-0)の説明を図書館で調べてきました。
01480-0が「與(9-30212)の古字。〔字彙補〕(01480-0)、古文與字、見漢周景碑。」
01487-0が「坤(3-4969)古字。〔集韻〕坤、古作(01487-0)」
でした。康煕字典の説明と突き合わせると、明らかに
U+20514=KX0128.080=01480-0
U+2051C=KX0128.160=01487-0
です。一方は與の異体字、もう一方は坤の異体字で全くの別字なので、01480-0にU+2051Cを当てるのは不適切なようです。
では01480-0の「⿱由六」とは似ても似つかない字形がどこから来たのかですが、ぶっちゃけ大漢和の誤翻刻だと思います。
http://archive.wul.waseda.ac.jp/kosho/ho04/ho04_01330/ho04_01330_0002/ho04_01330_0002_p0126.jpg
これは康煕字典殿版(大漢和が編集作業の過程で参照したとされる版)のスキャン画像です。「由」の上の横棒に汚れが付いていて、これをウロコと誤認すれば二画に分かれているように見えます。また「六」の頭の点がかすれて消えかけています。両方合わせれば大漢和の01480-0のような字形になるでしょう。「註詳臼部六画」とあるので、そっちを見ると「⿱由六」であることが明確にわかります。
http://archive.wul.waseda.ac.jp/kosho/ho04/ho04_01330/ho04_01330_0009/ho04_01330_0009_p0296.jpg
2009/04/05(日)21:29 |えむけい | URL |編集
▲ページトップ

コメントの投稿

βリリース前の準備など ホーム メイリオ
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

09 | 2017/10 | 11
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31 - - - -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR