新しい異体字セレクターの素案

異体字セレクターの現状


異体字セレクターの現状の仕様、IVD/IVC/IVSは、面倒ごとから逃げた、とても残念な仕様です。
常識的に考えて同じ字が、IVCが違うというだけで異なる異体字セレクターを付けられてしまう。とても残念なことです。

Adobe-Japan-1だけの頃は、それでもまだ何とかなった。
しかしここに、汎用電子が混ざり込み、いよいよ実用にならなくなってしまったわけです。
今後さらにIVCが増えれば、益々カオスになり、実用から程遠いことになるでしょう。


同じ字に違うVSがあってはいけない理由


これは、レビュー時に弊社がまとめてクレームを付けたことですが、同じ字に、同じ機構の中で別の番号が付くようだと、一つの文字を表わすのに、複数の方法にばらけてしまう。

例としては適切ではないかもしれませんが、朝鮮語の文字コードKS X 1001は同じ漢字文字に複数の符号位置があるわけですが、当然、利用がばらけてしまう。
これと同様のことが、異体字セレクターでも起きてしまった。

この場合、一つの文字が複数の表記になりうるため、検索の処理が困難になる。コピペ等をした場合含め、一つの文書内に意図せずして複数の表記方法が混在することもある。

お世辞にも処理しやすい機構でないにも関わらず、それをもってしても意図した機能を実現できないのであれば、何のためにあるのか。もはやIVC登録者の自己満足以外の何者でもないものになってしまう。


枝番


様々な異体字を統合して一つのコードポイントを与えるというのは、方針としては正しい。
検索するにせよ何にせよ、僅かな字形の差異だけで母体となる文字の文字コードが変わるのは、望ましいこととは言えない。
統合するのは良いとして、それを枝番を付けて分離する仕様がなければならないわけですが、現状はそれが無いわけです。

異体字セレクターにそれを期待したわけですが、結果として残念なことになりました。



どうしたら良いのか?


IVD/IVC/IVSを、今すぐ廃止することは難しい。
無い方がよいとは思いますが。

そこで、IVCにある字も無い字もふくめて、統合的に異体字を識別する、新たな異体字セレクターを作ろうと考えました。

AJ-1、汎用電子の異体字セレクターはそのまま、更に別の異体字セレクターでそれらを包括的に扱える、そのようなものを目指しましょう。

仕様については、あくまで民主的に決定する方針としたい。
成果物は、そもそも著作権の対象とは考えられないので、パブリックドメイン(CC0)にしたいと考えますが、最終的にはUnicodeのライセンスに合わせることになるでしょう。


当面の目標


AJ-1と汎用電子のVSが登録された字について、同じと思われる字は一つにまとめ、新異体字セレクターを附番していきます。

原則として、新異体字セレクター0番は、日本でよく使う字形を採用しましょう。現時点の異体字セレクターは、よく使うものが必ずしもU+E0100にあるわけではなく、あまり規格として美しくない。

符号位置は、U+E0200からU+E02FFの256字を想定し、将来的にこの符号位置を新異体字セレクターのために確保することを目指します。

それまでは、外字領域のU+FF200からU+FF2FFを暫定的に使うものとします。文字数が同じなので、仮実装から正式実装に変える時に置換が楽に済みます。


成果物のフォーマットについては未定ですが、TSVで良いでしょうか?

いまunicode.orgが配っている、IVD_Sequences.txt は、セミコロン区切りファイルです。

例)
4E00 E0100; Adobe-Japan1; CID+1200

これを包括するため、書式を変えてタブ区切りにし、この各行をTSVの各フィールドにすると、処理が楽かも知れないと考えています。

例えば、U+4E3B 主 があります。

4E3B E0100; Adobe-Japan1; CID+2323
4E3B E0101; Adobe-Japan1; CID+13812
4E3B E0102; Hanyo-Denshi; JA2871
4E3B E0103; Hanyo-Denshi; JTAD1E

しかし、
4E3B E0100 == 4E3B E0102
なのは明らかです。
4E3B E0101と4E3B E0103は微妙に差異があるので、これは議論を持つ必要がありそうですが。

そこで、このような場合、次のような仕様にする(E0101とE0103が違うという結論に至った場合)。

4E3B FF200(TAB)4E3B E0100; Adobe-Japan1; CID+2323(TAB)4E3B E0102; Hanyo-Denshi; JA2871
4E3B FF201(TAB)4E3B E0101; Adobe-Japan1; CID+13812
4E3B FF202(TAB)4E3B E0103; Hanyo-Denshi; JTAD1E

一つ目のフィールドは新IVS、二つ目以降は、それに対応する文字の情報とする。
まずは、二つ目以降のフィールドは、IVD_Sequences.txtを機械的に組み替えたものとする。

著作権的にまずいというのであれば、最悪
4E3B FF200(TAB)4E3B E0100(TAB)4E3B E0102
4E3B FF201(TAB)4E3B E0101
4E3B FF202(TAB)4E3B E0103
でも良いでしょう。IVD_Sequences.txtを併用すれば、CIDやソースも分かる。

なお、現状のIVSの振り方がおかしい(ベースとなる文字の選定がおかしい)ものも散々指摘されているところなので、それらについても民主的に意見を募り、最終的な仕様としてまとめていきたい。

想定する処理方法


例えば諸橋→異体字セレクターの変換表を作る場合、新たに作られるTSVのファイルを併用することで、次のような変換表を作り出すことができます。

・諸橋 ←→ 「新」異体字セレクターの変換表
・「新」異体字セレクター ←→ AJ1 IVCの変換表
・「新」異体字セレクター ←→ 汎用電子 IVCの変換表

もちろん、「新」異体字セレクターのみを使ってもよいし、その方が望ましいと思いますが、既存の処理系との互換を図る必要もある。
そこで、新と従来への変換表を用意し、間接的に変換できるようにします。
これはとてもスマートな方法であり、これを使えば、AJ1 IVC ←→ 汎用電子 IVC の変換なども簡単にできるようになります。


ご意見募集中


少なくとも年内に、まず暫定的なTSVファイルを作り、世に問う予定です。

その後のレビューなども皆様にお願いすることになりますが、それまでにも、この字は同じ、この字は似てるけど違う、といったご意見を宜しくお願いします。
またこの仕様策定そのものについてのご意見なども、待望しております。
この記事にコメントやトラックバックでもよいですし、ツイッターに@付きで投げて貰っても構いません。

2010/11/23(火)23:58 |Comments(0) |Trackback(0)

製造開発 | ソフトウェア開発 | コンピュータ | [編集]

▲ページトップ

コメント

コメントの投稿

新しい異体字セレクターの素案2 ホーム 11/18のツイートまとめ
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

08 | 2017/09 | 10
- - - - - 1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR