大漢和辭典 変換表 3月4日 報告

附番


TRONコードを手作業で振っていましたが、だんだんばからしくなってきたので、機械的に振るべくプログラムを書いてみた。
処理そのものは難なくできたものの、途中の欠番が予想以上に多く、作業そのものがかなり難儀しましたが、何とか終了しました。

欠番の行には、従来通りメモを付けてあります。別の番号に移動したとされる文字については、その辺の情報も従来通り入れてあります。


融合


えむけいさん 8面後半完成の件

作業早っ!!!

附番したTSVに、えむけいさんの分を融合しました。

範囲
8-BC2D
8-3CF6 ... 8-FDFD

まずは融合しただけで、中身の正当性は確認しておりません。
Unihanとの不一致は多数確認されておりますが、これからチェックしていきたいと思います。
また、異体字セレクタについても、私がチェックがてら付け加えていきたいと思います。


9-3043は、今回は未着手です。



微妙なもの


後は自分の作業。今のところ、8-397E まで終わっています。

8-395E


8-395E U+2083B 02310-0

これは「反力」という字ですが、反が繞となっており、はらいが力の下に達しています。

反力なら U+2083B かなと思うのですが、歹が繞になったような字が U+20840 にありました。さて、どちらを選ぶべきなのでしょうか。

反と歹なら見た目から反かなとおもって、一応そのように書いておきましたが。


康煕は双方とも無し、T-SourceはU+2083Bと同じ字形です。
http://www.cns11643.gov.tw/AIDB/query_general_view.do?page=5&code=2232
U+20840の初出は「漢語大字典」なる辞書だそうです。

以下、Unihan

U+2083B kIRGKangXi 0146.241
U+2083B kIRG_TSource 5-2232
U+2083B kRSKangXi 19.4
U+2083B kRSUnicode 19.4

U+20840 kHanYu 10367.040
U+20840 kIRGHanyuDaZidian 10367.040
U+20840 kIRGKangXi 0146.241
U+20840 kIRG_GSource HZ
U+20840 kRSKangXi 19.4
U+20840 kRSUnicode 19.4


8-396F


8-396F U+2084D 02327-0

Unihanだと
U+52B2 kMorohashi 02327
とあるのですが、どう見ても字形が違う
字形は、Ext-BのU+2084Dの方と一致する。

Unihanが、Ext-Bに対応しきれていないのでしょうか。
一応これは、Unihanの不適切箇所として記録しておきます。


成果物


本日の版です。

最新版のTSVファイル
ver H21/03/04

プロジェクトのページ
http://www.mirai-ii.co.jp/data/moro/

2009/03/04(水)15:06 |Comments(1) |Trackback(0)

製造開発 | ソフトウェア開発 | コンピュータ | [編集]

▲ページトップ

コメント

・8-395E
漢語大字典は康煕字典の文字をすべて含んでいるそうなので、HZ(漢語大字典)の単独ソースということになっている漢字は、実際には康煕字典の補遺や備考が出典である可能性が高いです(もちろん漢語大字典が独自に収録した文字もありますが)。U+20840の場合はKX1546.440でしょう。
大漢和も康煕字典の文字をすべて含んでいることになっていますが、何らかの理由で誤りと判断した康煕字典の字形を修正したことにより(あるいは単に翻刻の誤りにより)康煕字典とは微妙に字形が異なっている場合が多々あるようです。この字の場合、屋根が左に突き出しているところを無視すれば確かに「反」のように見えます。
これに対して漢語大字典は、新字形に統一していることを除けばかなり忠実に康煕字典通りの字形を収録しています。新字形については以下の記事をご覧ください。
http://ja.wikipedia.org/wiki/%E6%96%B0%E5%AD%97%E5%BD%A2
UCSは原則として新字形と旧字形の違いを統合しています。日本の基準ではどうみてもデザインの違いと思えないようなものが統合されている場合、たいてい新字形と旧字形の違いです。
CNS11643は、大漢和の重複文字をそのまま重複して収録しているなどの状況証拠から、大漢和を参照していることが強く推測されています。
http://www.jaet.gr.jp/archives/journal/jj02.pdf#page=137
このため収録字形も大漢和寄りである場合が多いようです。
以上の理由により、HZ(またはKX)単独ソースの文字があって、その近くに字形の似たCNS単独ソースの字がある場合、もとは同じ康煕字典の文字だった可能性が極めて高いのです。
もっとも統合できるかどうかについては自信がないので(そもそも統合できないと判断されたから分離してUCSに収録されたのでしょうし)、コメントに「康煕字典補遺の類似字形U+20840」と書いておくのはいかがでしょうか。私の8面後半作業分についてはそうなっています。
・8-396F
U+5F84やU+830Eを見る限り、𢀖は圣と統合されているはずなので、逆に重複収録の疑いもあります。第一候補は字形優先のU+2084Dでいいと思いますが、U+52B2も第二候補に残してはいかがでしょうか。
2009/03/04(水)23:29 |えむけい | URL |編集
▲ページトップ

コメントの投稿

TRONコード8面9面と大漢和検字番号 ホーム Unicodeの重複文字
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

09 | 2017/10 | 11
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31 - - - -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR