Unicodeのバージョン

Unicodeの、バージョンごとの文字集合の差異について、対応処理を書き始めました。

とりあえずは、1.0/1.1/2.0以降で最も違う、ハングルの領域の交換処理を書いた。
1.0/1.1→2.0と、2.0→1.0/1.1のテーブルをそれぞれ用意して置き換えるだけのお手軽処理ですが、一応動いているようです。


今把握している、Unicodeのバージョン(文字集合として見た場合)

Unicode 1.0
Unicode 1.1
Unicode 2.0
Unicode 2.1
Unicode 3.0
Unicode 3.1
Unicode 3.2
Unicode 4.0
Unicode 4.1
Unicode 5.0
Unicode 5.1
Unicode 5.2

基本的には、変換表は最新のバージョンで作り、各領域とバージョンを照らし合わせる表を別途作成する方法を検討中

構造体で
開始コードポイント, 終了コードポイント, 最古のバージョンID
を延々と書いていって、当該文字のバージョンIDを確認し、入力または出力に使う版より新しい版にしか無い文字である場合、それは無効(U+FFFD)とする。

この表は多分手作業以外に作る方法が無さそうだから、のんびりやっていこうと思います。

2008/12/28(日)18:18 |Comments(4) |Trackback(0)

製造開発 | プログラミング | コンピュータ | [編集]

▲ページトップ

コメント

> この表は多分手作業以外に作る方法が無さそうだから、
Unicode 1.1以降については、どのコードポイントがどのバージョンで追加されたかはDerivedAge.txtに網羅されています。
http://www.unicode.org/Public/UNIDATA/DerivedAge.txt
Unicode 1.0はそもそもUnicode 1.1以降の下位互換になっていないので、別に表が必要だと思います。
2009/01/06(火)13:06 |えむけい | URL |編集
▲ページトップ

コメントありがとうございます。
今日、手作業で表を作ってしまいました。

1.0と1.1は仕様的には似たようなものだと思っていましたが、大幅に違うところがあるんでしょうか。
2009/01/07(水)21:32 |miraicorp | URL |編集
▲ページトップ

たとえばUnicode 1.0には「仝」が非漢字として存在していましたが、1.0.1で漢字部に移動してもともと「仝」があった位置はJISマークになったそうです。
http://slashdot.jp/~alp/journal/359354
というように、コードポイントの割り当てからして違いがあったようです。
現在入手できるUnicode 1.0関連の資料でもっとも公式に近そうなものは
http://www.unicode.org/Public/TEXT/
とか
http://www.unicode.org/Public/reconstructed/
あたりにあります。
2009/01/08(木)00:22 |えむけい | URL |編集
▲ページトップ

ありがとうございます

これから1.0や1.0.1について調査していきたいと思います。
2009/01/08(木)09:54 |miraicorp | URL |編集
▲ページトップ

コメントの投稿

ISO/IEC 2022 ホーム 朝鮮語の処理
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

03 | 2017/04 | 05
- - - - - - 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 - - - - - -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR