大漢和辭典 変換表 3月7日 報告

前回からの変更点


9-3043


CNSの単独ソース、CNSには両方の自体が掲示されている、以上が判明したので、以下のようにUnicodeと対応させておきます。

9-3043 U+26328 49502-0 #コの有無


8-395E


えむけいさんのコメントを、書き足しておきました

8-395E U+2083B 02310-0 #康煕字典補遺の類似字形U+20840


8-396F


U+52B2を第二候補に追加しました。

8-396F U+2084D U+52B2 02327-0


U+31xx


U+31xx(BOPOMOFO)に似た字形があったら、そちらも候補に入れていましたが、これを辞めてみました。
多分、漢和辞典なのだから漢字なんだと思うので、注音字母とかを候補にするのは違うんじゃないかなぁと思い始めた。
一応、コメントには残してあります。

結果として、8-2125 は、Unicodeの候補が無くなりました。

8-2125 00005-0 #Unicodeに発見できず U+311C


U+2E80~の部首や、U+2F00~U+2FD5の康煕部首はどうするべきかは、検討の余地がありそうですが。



TSVのチェック


8-3CF6 から 8-43FD まで終わりました。

8-4390


8-4390 U+256E4 24824-0

頁の上にヒがあるのが気になりました。
Unihanだと、

U+9834 kMorohashi 24824

で、書体的にはU+9834で問題なさそうな気がします。
異体字セレクタもありましたので、以下のようにしました。

8-4390 U+9834 U+E0100 24824-0


U+79BC


また、Unihanにバグを見つけました。

U+79BC kMorohashi 24889

24889-0 は、TRONコードでは 8-43D2 が対応しますが、どうみても字形が違う。
U+79BCをISOを確認すると、ソースが簡体/繁体で共に同字形で、8-43D4 (24891-0) と一致しました。

つまり

誤 U+79BC kMorohashi 24889
正 U+79BC kMorohashi 24891

と思われます。


異体字セレクタ


8-3FCE、8-3FCF


8-3FCE U+78CC 24396-0 #⿰石眞
8-3FCF U+78CC 24397-0 #⿰石真

異体字セレクタがありましたので、以下のようにしました。

8-3FCE U+78CC U+E0100 24396-0 #⿰石眞
8-3FCF U+78CC U+FAAB 24397-0 #⿰石真

真の方はISVがありませんが、そのうち付くでしょう。互換文字があったので追加しておきました。


その他ISV


ちょっと長くなりますが、単純な変換です。

8-3EE0 U+FA4B U+7891 24289-0 #⿰石⿸⿻白丿十
8-3FAE U+7891 24364-1 #⿰石⿸⿳丿田丿十
         ↓
8-3EE0 U+7891 U+E0100 U+FA4B 24289-0 #⿰石⿸⿻白丿十
8-3FAE U+7891 U+E0101 24364-1 #⿰石⿸⿳丿田丿十


8-41B8 U+FA18 U+793C 24626-0 #示
8-41B9 U+793C 24626-1 #礻
         ↓
8-41B8 U+793C U+E0101 U+FA18 24626-0 #示
8-41B9 U+793C U+E0100 24626-1 #礻


8-41BE U+FA4C U+793E 24631-0
8-41BF U+793E 24631-1
         ↓
8-41BE U+793E U+E0101 U+FA4C 24631-0
8-41BF U+793E U+E0100 24631-1


8-41C8 U+FA4E U+7948 24640-0
8-41C9 U+7948 24640-1
         ↓
8-41C8 U+7948 U+E0100 U+FA4E 24640-0
8-41C9 U+7948 U+E0101 24640-1


8-41CA U+FA4D U+7949 24641-0
8-41CB U+7949 24641-1
         ↓
8-41CA U+7949 U+E0101 U+FA4D 24641-0
8-41CB U+7949 U+E0100 24641-1


8-41D6 U+FA4F U+7950 24652-0
8-41D7 U+7950 24652-1
         ↓
8-41D6 U+7950 U+E0100 U+FA4F 24652-0
8-41D7 U+7950 U+E0101 24652-1


8-41E3 U+FA50 U+7956 24664-0
8-41E4 U+7956 24664-1
         ↓
8-41E3 U+7956 U+E0101 U+FA50 24664-0
8-41E4 U+7956 U+E0100 24664-1


8-41EC U+FA51 U+795D 24672-0
8-41ED U+795D 24672-1
         ↓
8-41EC U+795D U+E0100 U+FA51 24672-0
8-41ED U+795D U+E0101 24672-1


8-41EE U+FA19 U+795E 24673-0
8-41EF U+795E 24673-1
         ↓
8-41EE U+795E U+E0100 U+FA19 24673-0
8-41EF U+795E U+E0101 24673-1


8-4281 U+FA1A U+7965 24689-0
8-4282 U+7965 24689-1
         ↓
8-4281 U+7965 U+E0100 U+FA1A 24689-0
8-4282 U+7965 U+E0101 24689-1


8-42D0 U+FA52 U+798D 24766-0
8-42D1 U+798D 24766-1
         ↓
8-42D0 U+798D U+E0100 U+FA52 24766-0
8-42D1 U+798D U+E0101 24766-1


8-42D2 U+FA53 U+798E 24767-0
8-42D3 U+798E 24767-1
         ↓
8-42D2 U+798E U+E0101 U+FA53 24767-0
8-42D3 U+798E U+E0100 24767-1


8-42D4 U+FA1B U+798F 24768-0
8-42D5 U+798F 24768-1
         ↓
8-42D4 U+798F U+E0101 U+FA1B 24768-0
8-42D5 U+798F U+E0100 24768-1


成果物


本日の版です。

最新版のTSVファイル
ver H21/03/07

プロジェクトのページ
http://www.mirai-ii.co.jp/data/moro/

2009/03/07(土)17:19 |Comments(1) |Trackback(0)

製造開発 | ソフトウェア開発 | コンピュータ | [編集]

▲ページトップ

コメント

・U+31xx
注音字母を候補に入れるのはカタカナを候補に入れるようなものなので、削除したのは妥当だと思います。
・8-4390
> 頁の上にヒがあるのが気になりました。
刀では?
U+7028とU+702Cが原規格分離なので統合できそうな気がしなくもないのですが、どう見てもU+9834のほうが適切なので変更には異議ありません。
・その他ISV
互換漢字が第一候補になっているものはJIS X 0213のマッピングを意識していたのですが、やはり IVS (ISVじゃないです)を優先したほうがいいでしょうか。
2種類の字形がある場合に片方は異体字セレクタ付きで出てくるのにもう片方が互換漢字になるのはおかしすぎるので、異体字セレクタを付けるならそちらを優先にしたほうが確かに良さそうではあります。
2009/03/10(火)00:12 |えむけい | URL |編集
▲ページトップ

コメントの投稿

CJK統合漢字とURO ホーム 変換処理まわり
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

07 | 2017/08 | 09
- - 1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31 - -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR