スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

--/--/--(--)--:--

スポンサー広告 | | | [編集]

▲ページトップ

大漢和辭典 変換表 3月28日 報告

前回からの変更点



3月26日報告への、えむけいさんのコメントを反映しました。

8-5B6A


8-5B6A U+21428 U+58C4 05489-0 #J欄のみU+21428と同じ字形

Adobe-Japan1だと、J欄の書体でU+58C4 U+E0100になっていることが判明しました。
こんな感じでよいのでしょうか?

8-5B6A U+58C4 U+E0100 U+21428 05489-0 #J欄のみU+21428と同じ字形

予のマと下半分が接触しているか否か、という微妙な違いがあるのですが


8-C363


8-C363 U+6942 U+2F8E8 15094-0 #⿰木査

これも同様。木と且の接触の差はとりあえず無視した。

8-C363 U+6942 U+E0100 U+2F8E8 15094-0 #⿰木査


8-D8CA


8-D8CA U+29460 U+9819 #U+9819のJ欄はU+29460と同じ

これも、U+9819はJ欄のみ字形が違いますが、Adobe-Japan1だとJ欄の書体なので

8-D8CA U+9819 U+E0100 U+29460 43366-0 #U+9819のJ欄はU+29460と同じ


8-2CB6


8-2CB6 U+24D01 U+7589 21982-0 #U+7589のJ欄はU+24D01と同じ

ISOの例示字体だと宀の点の角度が大陸風でしたが、Adobe-Japan1は日本の書体でした。

8-2CB6 U+7589 U+E0100 U+24D01 21982-0 #U+7589のJ欄はU+24D01と同じ


8-2CB6


8-66E5 U+80AD 29305-0

U+2F8D6は、U+80ADのT欄の月の形が違うことから用意されたものと思いますが、他の欄とU+2F8D6はほぼ一致しているので、第二候補に残してみました。

8-66E5 U+80AD U+E0100 U+2F8D6 29305-0


8-8693


8-8693 U+45B9 33084-0 #⿰虫 GB18030およびSimSunの実装は⿰虫⿱⻀干

ISOのT欄を見ると、TRONの書体と一致していました。
U+8746としているのは、Unihanのバグだろうと考えられます。

8-8693 U+45B9 33084-0 #⿰虫⿱⻀干


8-A6C6


8-A6C6 U+27EDE 37142-0 #KX1217.240はU+8D93ではなくU+27EDEであるべき

これも、Unihanへの突っ込みリストに加えておきます。



その他



書き換えた部分を列挙します。VSがあるものは付けました。

8-452E U+543F U+E0100 03381-0
8-452F U+544A U+E0100 03381-1
8-D424 U+6BB6 16622-0 #K欄の書体
8-DC3F U+6C67 U+E0100 U+2F8FE 17400-0
8-EB7E U+7070 U+E0100 U+2F835 18859-0
8-2687 U+7479 21181-0
8-58C2 U+42E3 27512-0 #⿰⿱亠母糸 KX0926.040
8-5F99 U+7F7C 28352-0 #康煕字典の類似字形U+26302
8-66E5 U+80AD U+E0100 29305-0
8-68BB U+811F 29512-0
8-68D6 U+812B U+E0100 29539-0
8-68D7 U+8131 U+E0100 29539-1
8-6DD4 U+81FB U+E0100 30165-0
8-6DE6 U+8200 U+E0101 U+2695D 30183-0
8-739D U+830D 30853-0
8-7682 U+8353 U+2F9A0 31192-0
8-7AA5 U+84F1 U+2F9A8 31727-0 #⺿
8-7AB3 U+8532 31741-0 #⺿、康煕字典の類似字形U+26E05
8-83D4 U+8667 U+E0100 U+2F9B5 32770-0 #⿰雐亐
8-85EE U+8688 U+E0100 U+2F9B8 33049-0
8-8ABD U+87F0 33631-0 #康煕字典の類似字形U+2745B
8-8AF0 U+8801 U+E0100 U+2F9C1 33682-0
8-A3DA U+8CD6 U+E0100 36786-0 #康煕字典の類似字形U+8CD2
8-A9CD U+8DBC U+E0100 U+2F9DB 37527-0
8-B7F3 U+2866C U+9094 39276-0
8-BED1 U+25E44 40118-0 #康煕字典の類似字形U+28910
8-C0D6 40373-0 #類似字形U+928F
8-C5DF U+9459 U+E0100 41008-0 #康煕字典の類似字形U+28BBA
8-D990 U+981A 43434-0 #s/又/ヌ/ 類似字形U+2948D
8-DAAF U+984F U+E0100 43591-0
8-DAB0 U+9854 U+E0100 43591-1
8-EBE2 U+9B3D U+E0100 45764-0
8-FBBB U+9EA9 U+E0100 47739-0


指摘箇所対応


えむけいさんの調査結果をTSVに反映しました。

3月19日報告へのコメント


3月19日報告への、えむけいさんの調査結果を反映

調査結果から、コメントを加えておきました。

8-51BA U+7C3F 26623-0 #甫 点は竹冠の足の下
8-51EC U+7C4A U+E0100 26671-0 # KX0903.040 諸橋でも確認
8-5287 U+7C51 U+E0100 U+25D89 26697-0 #良 上は横棒、下は丶 KX0903.280 諸橋でも確認

諸橋で確認って表現が、適切なのかどうか良く分かりませんが。


調査結果から、ISVが決定したもの。

8-51BB U+7C3F U+E0100 26623-1 #⿺⿻一由丶 点は竹冠の足の右側(外側)

TRONの字体が違う件については、TRONの方に何かコメントを入れた方がよいのでしょうか。

3月26日報告への、えむけいさんのコメントも反映し、以下は微妙に字体が違っていますがVSを付けておきました。

8-51A3 U+7C36 U+E0100 26600-0 #氺 右の払いは、縦棒に接触しない


3月24日報告へのコメント


3月24日報告への、えむけいさんの調査結果反映

調査結果から、ISVが決定したもの。

8-52D0 U+7C64 U+E0100 26769-0 #韭は戈に接触しない 諸橋で確認

ちなみに康煕だと接触してるように見える
http://kangxizidian.com/kangxi/0905.gif
右下の方


3月26日報告へのコメント


3月26日報告への、えむけいさんの調査結果反映

ISVを第一候補としておきました。

8-54FA U+7CD2 U+E0100 U+2F966 27065-0 #KX0911.330 草冠と厂は接触しない



TSVのチェック


8-5680 から 8-56FD まで終わりました。

チェック、IVS化 完了範囲
8-2121~8-397E / 00001-0…02342-0
8-3CF6~8-56FD / 24062-0…27321-0
9-2121~9-353A / 48056-0…49964-0
9-353B~9-3D6E / 50001-0…50804-0

今後のチェック範囲
8-3A21~8-3CF5 / 02343-0…24061-0
8-5780~8-FDFD / 27322-0…48055-0


成果物


本日の版です。

最新版のTSVファイル
ver H21/03/28

プロジェクトのページ
http://www.mirai-ii.co.jp/data/moro/

2009/03/28(土)13:03 |Comments(2) |Trackback(0)

製造開発 | ソフトウェア開発 | コンピュータ | [編集]

▲ページトップ

コメント

康煕字典の文字は大漢和にも収録されている(ことになっている)という事実と、kIRGKangXiフィールドを利用して校正を行ってみました(補遺と備考についてはデータを自作)。ver H21/03/28に直接当てられるパッチの形になっています。
http://charset.info/kx/moro2ucs.diff
大漢和と康煕ではずいぶん字形が違っていて、UCSでは分離されているものもたくさんあるようです。また大漢和には収録されていないものもかなりありました(ほとんどはGTに入っていました)。
以前おっしゃっていたBMP外の文字がうまく扱えないショボいエディタというのはWZのことでしょうか? 私が今使っているversion 6.0.21では問題ないようですが…。
> TRONの字体が違う件については、TRONの方に何かコメントを入れた方がよいのでしょうか。
微妙な違いはともかく、誰がどう見ても完璧にバグっているというものも4つほど見つけているので(TSVにコメントを入れてあります)、そのうち報告するつもりでした。
2009/04/05(日)20:52 |えむけい | URL |編集
▲ページトップ

パッチを反映させました。

現在使っているエディタは、WZ 5.02Eですね。

WZ6は、どうも気に入らないので、今のところ使う予定がありません。WZ7待ちかも。
2009/04/16(木)20:53 |miraicorp | URL |編集
▲ページトップ

コメントの投稿

gTef 0.02 beta 公開のお知らせ ホーム 大漢和辭典 変換表 3月26日 報告
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

06 | 2017/07 | 08
- - - - - - 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 - - - - -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。