諸橋大漢和辞典などとUnicodeの変換表

はじめに


TRONコードへの対応についての続きです。

今回は、ボランティアの募集をしたいと考えておりますので、よろしくお願いします。



TRONコードに対応する以上は、第2面・第3面にある「GT書体」や、第8面・第9面にある「諸橋大漢和辞典」に対応し、変換表を用意することで、相互の変換を実現させたい。

危険な橋を渡るならば、第11面から第14面にあった〓〓〓〓〓(危険なので伏せ字)のうち、諸橋大漢和辞典部分のみに対応することもありかと思う。


そんなわけで、自由に使える諸橋大漢和収録文字およびGT書体とUnicodeの変換表を作成したいと考えています。

まずは、「諸橋大漢和 検字番号←→UCS」の変換表 を作りたいと考えております。



既にある表について


検索して幾つか既存のものがありそうでしたが、「自由に使えるもの」は無いようです。

漢字データベースプロジェクト

ここに、「目的の物ずばり」がありますが、残念ながらGPLなので、これは自由に使えません。
商用ソフトウェアであるこの製品では、この情報を使うことはできません。とても残念です。



国立情報学研究所(NII)のものは、以下の但し書きがあります。
「本表の使用は,目録所在情報サービス参加機関の図書館システム支援に限定します。」

残念ながら、当実装で使うことは出来ないようです。


その他、それらしいページを幾つか見つけましたが、変換表は既に残っていないようでした。


そこで


そこで、新規に作ることにしました。

これを著している時点で、130字くらい終わりました。
一日80字として、5万字あって、一人でやって、毎日やって、2年少々掛かるようです。
無理だと思います。

GT書体も同様にやりたいですが、これも一人ではとても無理でしょうね。



もし協力者が一定数以上集まったら、この成果物は「修正BSDライセンス」か、または潔く「著作権放棄(PDS)」として作って公開しようと考えています。
これなら、誰でも安心して自由に使うことができます。
そして、当実装はそれを使わせてもらおうと考えています。

諸橋大漢和だけでも5万字ほどありますが、これを500番や1000番程度ごとに区切って、順に割り振るようなスタイルを想定しています。


興味のある方は、コメントないしメールフォームにてご連絡下さい。

10人いれば、平均80字/日としても、2ヶ月少々で終わる計算になるのです。



想定仕様


あまり多くを求めると作るのが大変なので、情報は必要最小限、検字番号とUCSだけとします。

具体的には「大漢和辞典修訂二版」の大漢和検字番号の本巻1~49964と補巻1~804と、他の符号とのTSV(タブ区切りファイル)を作ります。

検字番号には、ダッシュ付き、ダブルダッシュ付きがありますので、これは枝番で表わすことにします。

(1) 本巻の番号はゼロパディングして5桁とし、枝番はダッシュの数一桁とする。
(2) 空き番は、検字番号-0 とタブのみを記載し、UCS欄は空とする (行を飛ばさない)
(3) 補巻の番号は、A9999-9形式とする。今後補巻が増えて4桁になっても対応可能


サンプルとして、現状のものの先頭30行を引用

00001-0 U+4E00 #8-2121
00002-0 U+4E01
00003-0 U+4E02 U+310E
00004-0 U+20000 U+311B
00005-0 U+311C
00006-0 U+4E03
00007-0 U+4E04
00008-0 U+4E05 U+3112
00009-0 U+20001
00010-0 U+4E07
00011-0 U+4E08
00012-0 U+4E09
00013-0 U+4E0A
00014-0 U+4E0B
00015-0 U+4E0C
00016-0 U+20003
00017-0 U+20004 #8-2131
00018-0 U+20005 U+0311E
00019-0 U+4E0D
00020-0 U+4E0E
00021-0 U+4E0F
00022-0 U+4E10
00023-0 U+4E11
00024-0 U+20007
00025-0 U+20008
00026-0 U+2000B
00027-0 U+20009
00028-0 U+4E12
00029-0 U+4E14
00030-0 U+4E15

項目1 検字番号
項目2 UCS第一候補
項目3 UCS第二候補
項目4以降 未定義

コメントは、項目4以降で、# から書き始める

なお、「8-2121」などは、TRONコードにおける符号位置のメモ



作成方法


ここまで書いておいて何ですが、諸橋大漢和は持っていません。

持っている人は、それを使うと良いと思いますが、参加したい人に購入を求めるのは酷。高いし。

そこで、方法は次のようにします。

(1) TRON文字収録センター-コードページを、順番に見る
(2) Unicodeに同じ字形の文字を見つける

この方法で行きましょう。これならお金もあまり掛からない。


Unicodeでの同定方法は、以下のようにします。

(1) 文字コード表(自分は特注品を使用)で「MS明朝」を使用してCJK統合漢字を表示
(2) Ext-A、Ext-B、CJK互換漢字等は、unicode.orgにあるchartのPDFを開く
(3) この状態で、同じ文字を探す!

以上であります。

とても体育会系です。全てが力業。とにかく勢いです。

2009/01/30(金)19:37 |Comments(3) |Trackback(0)

製造開発 | プログラミング | コンピュータ | [編集]

▲ページトップ

コメント

協力したいと思います。メールでの連絡が必要でしたらMail欄に記入したアドレスまでお送りください。
2009/01/30(金)21:23 |えむけい | URL |編集
▲ページトップ

〓〓〓〓〓のライセンス改訂はそもそも超漢字2←→3間のコンバータ作成を阻止するために行われたようなものですから、やはり関わり合いにならないのが身のためでしょう(身にしみてご存じだとは思いますが)。
2009/01/30(金)21:26 |えむけい | URL |編集
▲ページトップ

とりあえずTRONコード9面から80字分作ってみました。
http://charset.info/tron9.txt
URO, Ext.A, Ext.Bを一度に参照できて便利なので、部首画数索引を使っています。
http://www.unicode.org/versions/Unicode5.0.0/FullRSIndex.pdf
2009/01/30(金)22:45 |えむけい | URL |編集
▲ページトップ

コメントの投稿

諸橋大漢和の番号変換表 ホーム TRONコードへの対応について
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

03 | 2017/04 | 05
- - - - - - 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 - - - - - -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR