諸橋大漢和とUnicodeの変換表 試案

要件


作成するにあたり、次の要件とします。

・unicode.orgと同様のタブ区切りファイル(TSV)
・コメントはUTF-8で記述 (ファイルにBOMは付けない)
・諸橋大漢和→Unicodeと、Unicode→諸橋大漢和の双方が、可能なようにする
・将来のGT書体等への対応もにらむ
・諸橋大漢和の版による差異を、何かしらの方法で吸収可能なようにする
・諸橋では別字扱いでもUnicodeでは包括されている字があるので、それも念頭に置く



重複などへの対応


諸橋大漢和の文字には既に幾つかの重複が確認されております。
まだ字数は判明していませんが、数十字程度と、少なからずあるようです。

また、諸橋では之繞の1点2点や、草冠の3画4画で別字扱いになっていたりしますが、Unicodeでは包括されています。この字はかなり多く、数百字規模になる。


そこで代表字(ここでは親字と呼ぶことにする)を一つ決め、Unicode→諸橋大漢和では親字へリンクするようにせねばなりません。
どれを親字にするべきかは別途検討が必要ですが、いずれにせよ、その字に対する親字の番号情報が必要になります。



TSV構造


重複等諸問題へも追々対応していくということで、TSVの項目は、以下のようにします。

(1) TRONコード (必須)
(2) UCS 第一候補 (必須)
(3) UCS 第二候補
(4) 諸橋大漢和 検字番号(その文字)
(5) 諸橋大漢和 検字番号(重複や移動等がある場合、親字の検字番号)
(6) コメント等

作成段階では、(1)と(2)のみが必須で、(3)以降は全てオプションとする
(3)は基本的には使わないので、メモ代わりに用いる。

・(1)や(4)が正しく並んでいるかどうかは、TSV完成後にプログラムを書いて検査します。
・(2)が重複していないかどうかを、TSV完成後にプログラムを書いて検査します。
・(5)がある場合、その行の(2)と、(5)で指定された行の(2)が一致する必要があるので、TSV完成後にプログラムを書いて検査します。
・作成段階で重複が判明した場合でかつ諸橋大漢和 検字番号が分からないときは、コメントとしてTRONコードを書いておく (後で人力により処理)


諸橋大漢和 検字番号は、この番号経由でGT書体との交換も可能とする予定(Unicodeに無い文字でも扱えるように)。

原則として「修訂第二版」で作成する。
修訂版などとの差異を内部処理する時は、別の変換リスト等を用いることで対応できると思われる。
参考資料
http://hp.vector.co.jp/authors/VA000964/html/daikanwa.htm



処理系における、変換処理方法の案


■前提


・UCS側は32ビットで仕方ないとしても、諸橋大漢和の番号は16ビットで扱いたい
・従ってTRONコードだと不利なので、一旦16ビットの「別の数値」に変換する
・TRONコードでは'や''付きが連続して格納されるため、コードから単純計算で得られる番号と諸橋大漢和検字番号とが一致しておらず、汎用性が低い
・「別の数値」は、諸橋大漢和検字番号と互換のあるものを使いたい


■第8面・第9面→Unicode


(1)TRONコードから単純計算で得られるシリアル値を求める
(2)シリアル値からテーブル等により内部番号に変換する
(3)内部番号→Unicode の変換表を参照する


■Unicode→第8面・第9面


(1)Unicode→内部番号の変換表を参照する
(2)内部番号からテーブル等によりシリアル値に変換する
(3)シリアル値をTRONコードに変換する


■内部番号の案


(1) 本巻の番号の最後49964が更に増えることは無いだろう
(2) 但し安全のため、番号は詰めず、若干の余裕を持たせる
(3) 本巻のダッシュ付き番号は、増える可能性がある
(4) 補巻の番号も増えるかも知れない
(5) 補巻にもダッシュ付き番号が登場する可能性はある
(6) 補巻が一万字に迫る可能性はあるが、ダッシュが万になることは無いだろう
(7) この条件下、拡張性を持たせつつ、誰が見ても納得する附番方法を採用する

結果、次のようになりました。

・1~49964:   検字番号1~49964
・50001~50804: 補巻 1~804
・60001~60514: ダッシュ付き番号 1~514

ダッシュ付き番号は、登場順に1から附番する。
将来、補巻にダッシュ付き番号が出てきたら、60000台を使う(例 61001~)

〓〓〓〓〓と体系が違っていますが、上に書いた条件を満たすことに加え、安全のために、このようになりました。
〓〓〓〓〓の番号体系は、そもそも補巻に対応していませんが、こちらは最初から補巻に対応するよう設計するものとします。
また〓〓〓〓〓は独自の文字を拡張していますが、こちらは大漢和収載文字のみを扱います。


現状


・320までを処理しました。
・検字番号と、それに対応するBMP内のCJK統合文字の番号は、Unihanから求めた。
・重複については、Unihanにあるもののみ。かつ、320までで判明したもののみ。
・Unihanにあった文字も、本当に正しいかどうかはチェックしています。

http://www.mirai-ii.co.jp/data/moro/moro2ucs.h210202.01.tsv

プロジェクトのページも作ってみました
http://www.mirai-ii.co.jp/data/moro/


今後方針


・細かな字形の差異は、メモとして残しておきます。
・字形が僅かに違っていても、UCS的に包括の範囲内と判断しうるものは、そのUCS番号を第一候補として記載します。
・もしCJK統合漢字で字形が異なり、かつCJK互換漢字に一致する字形があった場合は、第一候補をCJK互換漢字、第二候補をCJK統合漢字とします (※これは要検討)

・参加人数に応じて、おおざっぱに範囲を分割し、その中で各自が作業を進めます。
・定期的にWebで公開するなり、メールで送り合うなりし、成果物を一ヶ所に集めます。
・融合は手作業
・ファイルを置くWebサーバは、弊社のものが提供可能です
・当面は修正BSDライセンスとし、最終的には参加メンバー全員の協議により民主的にライセンスを決定します(可能な限り自由度が高いものを選定)

2009/02/02(月)16:14 |Comments(3) |Trackback(0)

製造開発 | プログラミング | コンピュータ | [編集]

▲ページトップ

コメント

そもそもTRONコード8~9面とUCSの対応を並べただけのものが、「情報の選択又は体系的な構成」に著作権を認めるに足るだけの創作性を持っているかどうか怪しいと思うのですが、万が一何らかの権利が発生するとしてもそれは放棄しますので、ライセンスは残りの協力者で話し合って決めてください。
なお、著作権が発生する場合、著作者の名前を偽ることは著作権法121条により私の権利行使の意思にかかわりなく告発が可能なようですのでその点だけご注意ください。
2009/02/03(火)09:37 |えむけい | URL |編集
▲ページトップ

ひとまず9面が完成したので(最初のほうは精度が低いので後で見直す予定)、8面の真ん中当たりから手を付け始めました。
http://charset.info/tron8.txt
2009/02/09(月)00:46 |えむけい | URL |編集
▲ページトップ

早速、9面をこちらで作ったTSVに融合してみました。
2009/02/10(火)00:00 |miraicorp | URL |編集
▲ページトップ

コメントの投稿

TRONコード関係 ホーム 常用漢字 191字追加、5字削除
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

09 | 2017/10 | 11
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31 - - - -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR