大漢和辭典 変換表 3月26日 報告

TSVの融合


えむけいさん作業分を融合しました。
これにて、TRONコード8面・9面とUnicodeの変換表の最初の版が完成しました。

今後、チェックを進めながらVSを付ける作業を進めていきたいと思います。

メモ


融合中、ワーニングが発生した、旧TSVの行の引用

まだ手を付けていないところ。

基本的には順不同です。書かれているUnicodeの符号位置は、Unihanによるものです。

ここに引用したものは、間違っているという意味ではなくて、現在のTSVとUnihanで、何らかの不一致が存在していることを表わします。



8-3F66 U+537F 02877-0


8-452E U+544A 03381-0
8-452F U+ 03381-1


8-5B56 U+58A8 05469-0

8-5B6A U+58C4 05489-0


8-5D47 U+58ED 05641-0

8-5D58 U+58FA 05657-0
8-5D5D U+58F7 05662-0


8-602D U+594A 05897-0

8-6031 U+594B 05901-0

8-6039 U+594C 05909-0

8-6C23 U+5B73 07011-0

8-7123 U+5C12 07477-0

8-725A U+5C37 07624-0

------------------


8-55B2 U+7CE3 27119-0

8-55F8 U+7CF3 27190-0

8-56DE U+7D4B 27289-0

8-57B6 U+7E66 27375-0
8-58C2 U+7DD0 27512-0

8-59EE U+7DEE 27680-0

8-5E80 U+7F53 28201-0

8-5EF1 U+7F6F 28313-0

8-5F99 U+7F7C 28352-0

8-5FF8 U+7F95 28449-0
8-66E5 U+80AD 29305-0
8-68BB U+811F 29512-0


8-68D6 U+ 29539-0
8-68D7 U+8131 29539-1

8-6DD4 U+81FB 30165-0

8-6DE6 U+8200 30183-0

8-71B9 U+8279 30639-0

8-739D U+830D 30853-0

8-74AE U+9039 30991-0

8-7682 U+8353 31192-0

8-76B5 U+8400 31243-0
8-76B6 U+8401 31244-0

8-7A80 U+84D7 31689-0

8-7AA5 U+84F1 31727-0

8-7AB3 U+8532 31741-0

8-81A7 U+862D 32477-0
8-81A8 U+ 32477-1
8-81A9 U+ 32477-2

8-81E6 U+8637 32538-0

8-82A7 U+8641 32601-0

8-83D4 U+8667 32770-0

8-85A1 U+86CA 32972-0

8-85EE U+8688 33049-0

8-8693 U+8746 33084-0

8-879A U+8744 33217-0

8-8ABD U+87F0 33631-0

8-8AF0 U+8801 33682-0

8-8EB4 U+8873 34125-0

8-8F8D U+88A3 34211-0

8-8FE4 U+88C0 34297-0

8-95B7 U+8B64 35006-0

8-96F4 U+89FC 35193-0

8-9A95 U+8AB4 35595-0

8-9AF2 U+8AB0 35686-0

8-9B93 U+8AE3 35714-0

8-9E9F U+8B82 36095-0

8-9FEA U+8C50 36296-0

8-9FF2 U+8C51 36304-0

8-A094 U+8C55 36337-0

8-A2D6 U+8D1D 36656-0

8-A3DA U+8CD6 36786-0

8-A49F U+8E6B 36852-0

8-A6C6 U+8D93 37142-0

8-A9CD U+8DBC 37527-0

8-B0C0 U+7F84 38394-0

8-B7F3 U+9094 39276-0

8-B9D8 U+9109 39498-0
8-B9D9 U+ 39498-1

8-B9DC U+90F9 39501-0

8-BBA4 U+9138 39697-0

8-BED1 U+25E44 40118-0

8-C0D6 U+928F 40373-0
8-C5DF U+9459 41008-0

8-D18E U+8608 42429-0

8-D8CA U+9819 43366-0

8-D990 U+981A 43434-0

8-D9E4 U+983B 43519-0

8-DAAF U+9854 43591-0
8-DAB0 U+ 43591-1

8-E1C9 U+9962 44488-0

8-EBE2 U+9B3D 45764-0

8-ECC1 U+9D36 45857-0
8-ECC3 U+9D37 45859-0

8-EDBC U+9B62 45977-0

8-F3DD U+9D0B 46765-0

8-F5C6 U+9D67 46995-0

8-F6E3 U+9EEC 47149-0

8-F784 U+9EF1 47180-0

8-FBBB U+9EA9 47739-0


------------------

8-7C6D U+5DC0 08581-0

8-7D72 U+5DDF 08679-0

8-8154 U+5E2E 08928-0

8-8277 U+5E5A 09057-0

8-8624 U+5EB0 09349-0

8-8E52 U+5F9A 10143-0



8-9C5D U+61F6 11455-0


8-A05D U+626E 11829-0


8-AD26 U+6511 12981-0


------------------

8-AF29 U+654B 13172-0
8-B126 U+657B 13355-0
8-B379 U+65BB 13626-0

8-B838 U+6669 14030-0

8-BC49 U+6729 14415-0

8-BE36 U+67F9 14582-0


8-C363 U+6942 15094-0

8-C773 U+6A28 15483-0

8-CB43 U+85F2 15811-0

8-D424 U+6BB6 16622-0

8-D42B U+6BAA 16629-0


8-D434 U+6BBA 16638-0

8-D855 U+6C18 17046-0

8-D92F U+6C46 17100-0

8-D975 U+6C77 17170-0

8-DC3F U+6C67 17400-0

8-E034 U+6E1A 17758-0

8-E360 U+6EF1 18078-0

8-EB7E U+7070 18859-0

8-EE66 U+7123 19115-0

8-EF28 U+7139 19148-0

8-F16B U+71C5 19399-0

8-FD38 U+7347 20477-0

8-2297 U+7361 20695-0

8-2487 U+736A 20929-0

8-25E5 U+7476 21149-0

8-2687 U+7479 21181-0

8-2BBF U+7570 21866-0

8-2CB6 U+7589 21982-0

8-2EBC U+7611 22240-0

8-3187 U+765D 22565-0

8-32D8 U+76A1 22771-0

8-3499 U+76C7 22960-0

8-3AD7 U+77C9 23778-0
8-3AD8 U+77CA 23779-0



TSVのチェック


8-5480 から 8-55FD まで終わりました。


チェック、IVS化 完了範囲
8-2121~8-397E / 00001-0…02342-0
8-3CF6~8-55FD / 24062-0…26943-0
9-2121~9-353A / 48056-0…49964-0
9-353B~9-3D6E / 50001-0…50804-0

今後のチェック範囲
8-3A21~8-3CF5 / 02343-0…24061-0
8-5680~8-FDFD / 27196-0…48055-0 ←現在作業中


IVSまわり


8-54FA


8-54FA U+7CD2 U+2F966 27065-0

U+7CD2のIVSがありました。

どうやら、草冠が厂に接触するか否か、の違いのようですね。

大漢和が手元にないので康煕字典で調べてみました。中央付近です。
http://kangxizidian.com/kangxi/0911.gif
接触しているように見えます。

暫定的に、次のようにしておきました。

8-54FA U+2F966 U+7CD2 U+E0100 27065-0 #KX0911.330

IVSが第二候補になるのはこれが初です。
図書館に行く余裕が出来たら、大漢和で確認したいとは思っていますが。



成果物


本日の版です。

最新版のTSVファイル
ver H21/03/26

プロジェクトのページ
http://www.mirai-ii.co.jp/data/moro/

2009/03/26(木)17:16 |Comments(3) |Trackback(0)

製造開発 | ソフトウェア開発 | コンピュータ | [編集]

▲ページトップ

コメント

Unihanと不一致があった部分について、こちらの間違いと思われる部分などを修正しました。
http://charset.info/tron8-20090327.txt
変更点のみの差分も用意しました。
http://charset.info/tron8-20090327.diff

上記ファイルには含まれていませんが、修訂版と修訂第2版で検字番号の付け替えがあったと思われる部分を発見しました。
8-602D U+594A 05897-0
8-6031 U+594B 05901-0
8-6039 U+594C 05909-0
U+594Aは修訂版では05897-0にあったためUnihanもその割り当てを反映しているのですが、修訂第2版でU+594Aを大部六画へ移動したため番号が05909-0に変更となり、それに伴って修訂版で05898-0 .. 05909-0にあった文字の番号も修訂第2版では1つずつずれて05897-0 .. 05908-0へ変わったようです。
8-602D U+215FD 05897-0
8-6031 U+21604 05901-0
8-6039 U+594A 05909-0
ふつうこういう場合は05897-0を欠番にして05909-1を追加することで番号がずれないようにするのですが、ここだけなぜか番号の付け替えで処理したようなのです。

その他TSVにいくつか間違いを発見しました。
8-4EB8 U+7BC0 U+E0102 26243-0
タブ文字が1個余計に入っています。
32629-0 32477-2 #移動
32629-0の移動先は32477-1です。32477-2ではありません。32477-1から32477-2への移動も確かにありましたが、1つの文字が32629-0 → 32477-1 → 32477-2と移動を繰り返したのではなく、32477-1に元々あった文字が32477-2へ移動し、空きになった32477-1へ32629-0の文字が移動しています。
2009/03/27(金)03:22 |えむけい | URL |編集
▲ページトップ

台湾が互換漢字を入れた目的はそんな微妙な違いではなく、丆と厂を区別するためです(U+7CD2のT欄参照)。
ところで上下の接触ばかり気にしているようですが、U+2F966は米の左右の払いが十と離れている(ホ型になっている)のは気になりませんか? U+7CD2のT欄も離れているので、その区別が目的でもないですけど。
2009/03/27(金)09:54 |えむけい | URL |編集
▲ページトップ

・8-54FA
結局、草冠は厂と接触していませんでした。

ただいずれにしても細かく差を見すぎな気がしますけど。U+7B08は国語審議会が余計なことをしてくれたせいで
http://www.jsa.or.jp/stdz/instac/committe/JCS/Jcsnnp-2/JCSNNP-2-02.PDF#page=9
(しかもやった人の意図とは正反対に解釈されて)分離された例で、むしろ例外と見るべきだと思います。
U+7C36はIVSが付いていないと⿱竹禄のような字形で実装されても文句は言えないわけで(実際G欄はそういう実装になってますし)、私だったら迷わずIVSを付けると思います。
そもそもAdobe Japan1は微細な字形デザインの違いの実装をすべて義務づけているわけではありません。小塚明朝は仕様書でリファレンスに使われる都合上すべてを実装していますが、Adobe Japan1-5の実装であるヒラギノではCID3645とCID14018の点は竹冠の足の左側(内側)にありますし、CID18312の左払いの付け根は完全に接続されていますし、CID6031の韭と戈は接触していますし、CID7967とCID20263に違いはありません。
http://www.screen.co.jp/ga_product/sento/pro/pdf/HiraginoProKanjiG_050201.pdf
2009/03/28(土)00:43 |えむけい | URL |編集
▲ページトップ

コメントの投稿

大漢和辭典 変換表 3月28日 報告 ホーム 大漢和辭典 変換表 3月24日 報告
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

10 | 2017/11 | 12
- - - 1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 - -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR