大漢和辭典 変換表 3月1日 報告

前回更新部分の再更新


大漢和辭典 変換表 2月25日 報告に関する件

8-306Cと8-3073


とりあえず、ご指摘の通りにしてみました。

8-306C U+2051C U+20514 01480-0 #T6-353E 「⿱⿻臼⿱一八」
8-3073 U+2F812 U+2051C 01487-0 #T6-3D3C


8-2C54と8-2D41


両方問題ないと判断されたので、コメントだけ直しておきます。

8-2C54 U+2036E 01081-0 #KX0216.140 「壬」ではなく、「土」の上に「´」
8-2D41 U+348E 01156-0 #「⿰亻⿱夭非」左下の点ははねる



今回の主な作業


・8面の対応の追加継続
・第一項目にTRONコードを書き足す作業

基本が大漢和の検字番号になっているファイルなので、TRONコードをどんどん書き足しております。
途中、目印を付けながら大漢和との対応を確認しております。
このなかで、Unihanに幾つかのバグを見つけています。

初版公開から1ヶ月で、概ね9%程度が処理されたようです。先は遠いらしい。



微妙なもの


8-3657


8-3657 U+20727 U+20730 02023-0

U+20727とU+20730は、なぜ包括されていないのか分からない微妙な字形差です。
8-3657は、どちらかというとU+20727かな、ということで、そちらを優先してみました。

一応、Unihanから抜き出してみました。

U+20727 kHanYu 10338.110
U+20727 kIRGHanyuDaZidian 10338.110
U+20727 kIRGKangXi 0140.291
U+20727 kIRG_GSource HZ
U+20727 kRSKangXi 18.7
U+20727 kRSUnicode 18.7

U+20730 kIRGKangXi 0140.291
U+20730 kIRG_TSource 6-3549
U+20730 kRSKangXi 18.7
U+20730 kRSUnicode 18.7

康煕字典には両方無いらしいが、同じ仮想位置を指している。
みたところ原規格分離でもなさそうだし、何なのだろうか。


8-3753と8-3754


割の[丰]の何本が斜線か、という字形差。
TRONでは、8-3753は三本とも斜線、8-3754は全て真っ直ぐ。
MS明朝ではU+5272は8-3754と同じ字形。
U+5272の互換文字U+2F822は、上の一本だけ斜線

8-3753 U+5272 U+E0102 U+2F822 02112-0
8-3754 U+5272 U+E0101 02112-1

とりあえず妥協して、8-3753の第二候補にU+2F822を割り当てた。

この記述は後で機械処理するのが難しそう。どうしたもんだろう。


8-375E


U20000.pdfだと、左下が夂だった。
8-375Eは、夕だった。
康煕字典を調べたら、足して二で割ったような字形、カタカナのタ(ちょっとはみ出す)みたいな字だった。
http://kangxizidian.com/kangxi/0142.gif
一番左の方、上から三番目

8-375E U+20785 02121-0 #KX0142.440 左下は夂ではなく夕 康煕ではタ



重複文字


重複は、あとでプログラムを書いて総点検しますが、たまたま見つけたものは、あらかじめ対応をしておきます。

8-243F


8-243F U+2015E 00314-0 #「⿱丶一」ではなく亠、夕ではなくタ
8-3423 U+2015E 01783-0 00314-0 #重複

00314-0(亠部)と01783-0(几部)は重複しているようです。
Unicodeの符号位置から考えて、00314-0(亠部)側が優先されそうなので、01783-0(几部)を重複の扱いとします。


8-376A


8-2B22 U+202F4 00938-0
8-376A U+202F4 02134-0 00938-0 #重複

00938-0(人部)と02134-0(刀部)は重複しているようです。
Unicodeの符号位置から考えて、00938-0(人部)側が優先されそうなので、02134-0(刀部)を重複の扱いとします。




Uhihanのバグ


結構バグありますね、これ。バグじゃなくて大漢和の版の差による違いかも知れませんが。
一応見つけたものをメモしておきます。
これって、どこに報告したらいいのだろう。放置するのは良くないと思うのだけど。

誤 U+53C4 kMorohashi 03089
正 U+53C4 kMorohashi 03099

誤 U+5676 kMorohashi 04426
正 U+5676 kMorohashi 04421



成果物


本日の版です。

最新版のTSVファイル
ver H21/03/01

プロジェクトのページ
http://www.mirai-ii.co.jp/data/moro/

2009/03/01(日)19:42 |Comments(2) |Trackback(0)

製造開発 | ソフトウェア開発 | コンピュータ | [編集]

▲ページトップ

コメント

・8-3657
おそらく元はどちらもKX1587.380だったのに、漢語大辞典とCNSに別々に取り込まれた後、UCSが両者をソースにして取り込んだらあら不思議、分離されてしまったのだと思います。以前お話しした9-2C4Cなんかと同じパターンですね。今後もたくさん出てくると思います。
Unihanでは、康煕字典の備考や補遺の文字は実際のページ数ではなく本編に編入されたと仮定したときの仮想位置になっていて、G-sourceもKXではなく(たいてい)HZになっているようです。
・8-3753と8-3754
U+5272のT欄も上の一本だけ斜線です。違いは丰の下が突き出ているかどうかです。したがってU+2F822をマップするなら、現状通り8-3753のほうが適切でしょう。
・8-375E
こちらの作業中には、康煕字典ではタで、T-sourceとG-sourceでは夕と夂に分離されてしまったと思われるものも出てきました…。
以前引用した
http://homepage3.nifty.com/shikeda/moro.html
で「コード化の際に字体・字形に恣意が加わることは不可避」と言ってるのはこういうことなんだなあと思いました。
・Uhihanのバグ
誤りの報告は以下のフォームからできます。
http://www.unicode.org/reporting.html
以前、kIRG_KSourceの誤りを直してもらったことがあります(normativeなフィールドなのにいいのか? と逆に心配になりましたが)。大漢和のマッピングが完成したらいっそ誤りの修正に限定せずに取り込んでもらいたいですね。
2009/03/02(月)10:22 |えむけい | URL |編集
▲ページトップ

> 以前お話しした9-2C4Cなんかと同じパターンですね。今後もたくさん出てくると思います。
なるほど。
Unicodeで明らかに重複してそうな文字は、別にまとめて資料化したいと思います。
きっと何かの役に立つでしょう。


> ・Uhihanのバグ
> 誤りの報告は以下のフォームからできます。

ある程度たまったら、まとめて投げようと思います。
この表が出来たら、これをunicode.orgに送りつけてもいいですね、ほんと。
2009/03/02(月)22:52 |miraicorp | URL |編集
▲ページトップ

コメントの投稿

デイゴという国字 ホーム βリリース前の準備など
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

09 | 2017/10 | 11
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31 - - - -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR