78/83/90/97JISの IVS対応 変換表完成

変換表


78JIS、83JIS、90/97JISのIVS対応変換表ですが、暫定版が完成しました。

完全手作業(目作業?)によるものなので、ミスも混ざっているものと思われますが、一応ものが出来てきましたので、処理系に組み込んでいこうと考えております。
この変換表が導入された版については、先に書いたとおり、来年を予定しています。

JIS X 0208の変換表に関しては目途が立ちましたので、こちらでの参加者の募集については打ち切らせて頂きますが、他のCJKV文字集合で協力してくださる方は引き続き募集を致しております。


差異はそれぞれの版でかなりの数ありましたが、どの程度差異があるのかは、これから処理系用の構造体を作っていく過程でリストアップしていきたいと考えております。


実装計画


JIS→Unicode JIS側は90/97JISで実装
Unicode→JIS JIS側は90/97JISで実装

差分構造体案


構造体は4フィールド
JISコード、78JIS Unicode、83JIS Unicode、90/97JIS Unicode
将来的には更に追加もありうる。

JIS→Unicodeの場合、Unicode→JISの場合、共に、78/83ではまず差分構造体を見て、無ければメインの変換表を参照する。

見込まれること


JIS→Unicodeは、現状1文字あたりWORD(16ビット)だが、これがDWORD(32ビット)になるため、表サイズが倍になる。VS以外は全てBMP内で収まるが、VSを格納する分のビットを保持するため、32ビット化せざるをえない。

Unicode→JISの場合、表自体は従来と同じだが、IVSの処理は32ビット化されたJIS→Unicodeの変換表を頭から検索する方法とするので、速度が落ちると見込まれる。IVSを使わなければ速度や動作は従来通り。

JIS X 0213


JIS X 0213の変換処理もJIS X 0208の変換表に依存しているので、いずれはJIS X 0213:2000、JIS X 0213:2004、のIVS対応変換表を作り、差分構造体に追加する必要がある。
その際、メインの変換表をJIS X 0213にして、0208の変換は全て差分表経由という実装も有り得る。
それまでは、JIS X 0208の変換表からVSを削って出力する処理とする。


使い道


JIS→大漢和、大漢和→JISの各変換が、正確になると見込まれます。今後対応していきたいと考えているGT書体などでも同様の良い結果となることでしょう。

例えば、大漢和→ISO-2022-JPで出力する際、78にあって83以降に無い文字は、78用のエスケープシーケンスで出力するようなことも可能になります。森鷗外の「鷗」などですね。
IVSを無視して83以降に包括して出力することも、今まで通り可能なように実装します。

このほか、CJKでIVS対応が網羅されるようになれば、例えばJISとCNS間の変換なども、IVS経由で今以上に正確に出来るようになると見込まれます。


←前

2009/12/25(金)15:41 |Comments(0) |Trackback(0)

製造開発 | ソフトウェア開発 | コンピュータ | [編集]

▲ページトップ

コメント

コメントの投稿

明けましておめでとうございます ホーム 新常用漢字表問題の解決私案
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

03 | 2017/04 | 05
- - - - - - 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 - - - - - -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR