大漢和辭典 変換表 2月11日 報告

今日は変換表への追加はしておらず、Unicode化するに際し、いかにして「包括しないか」の方法を検討してみました。


異体字セレクタについての検討


個人的には、異体字などは一つに包括した方が処理しやすくて良いとは思うのですが、そこは「TRONコード」でありますから、その思想は尊重してあげたい。

そんなわけなので、如何ともしがたい場合、異体字セレクタを使うしかないかな、という結論。
異体字セレクタを使った定義は、http://www.unicode.org/ivd/にあります。
簡単な説明は、異体字セレクタ - 通信用語の基礎知識にあります。

「一」も、異体字セレクタの環境では U+4E00 U+E0100 という2バイトで表現されますが、そのくらい徹底していた方が、個人的にはよいと思う。


昨日出た問題の対応を以下に。いますぐ全部を解決させることは出来ませんが、方針だけ。

9-2947と9-2948


いずれも、U+9F9Cへ包括可能と確認しました。
が、ラウンドトリップの可能性も残したい。

9-2947はAdobe-Japan1にあり、U+9F9C U+E0100 として定義されています。
9-2948はAdobe-Japan1には無いらしく、U+9F9C には記載がありません。多分「Japan」ではないのでしょう。

両方が明確になったら、異体字セレクタを付加しましょう。

今は異体字セレクタは使わないということで、メモを残すべく以下のように修正しました。

9-2947 U+9F9C 48847-0 #U+9F9C U+E0100
9-2948 U+9F9C 48848-0 #U+9F9C U+E01xx(現在定義なし)


9-2361


U+2A4FBへ包括可能と確認しました。

U+2A4FB はフォントによって字形が違いすぎて不気味なので、これもメモに残しておきます。
ただ、Adobe-Japan1には無いらしく、PDFに記載がありません。

9-2361 U+2A4FB 48307-0 #U+2A4FB U+E01xx(現在定義なし)


9-274D


これも、U+2A609に包括する方向で、次のようにしました。

9-274D U+2A609 48663-0 #「⿰齒朶」U+2A609 U+E01xx(現在定義なし)


異体字セレクタ対応時の書式


TSVとしてタブで区切られるうち、Unicode領域は二つあります。
第一候補、第二候補共に書式は同じで、次のようにする

U+xxxx(SPACE)U+E01xx

漢数字「一」なら、次のようになる。

8-2121<TAB>U+4E00<SP>U+E0100<TAB><TAB>00001-0

約5万字、後から付けるのがいいのか、今から対応始めたほうがいいのか、悩ましいところですね。
出来るだけ作業は簡単に済ませたいのだけども。


成果物


本日の版です。

最新版のTSVファイル
ver H21/02/11

プロジェクトのページ
http://www.mirai-ii.co.jp/data/moro/

2009/02/11(水)19:31 |Comments(0) |Trackback(0)

製造開発 | ソフトウェア開発 | コンピュータ | [編集]

▲ページトップ

コメント

コメントの投稿

大漢和辭典 変換表 2月12日 報告 ホーム 大漢和辭典 変換表 2月10日 報告
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

03 | 2017/04 | 05
- - - - - - 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 - - - - - -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR