続・Unicodeのバージョン
「Unicodeのバージョン」の続きです。
実際に、実装をしてみました。
今回対応した、文字集合として見た場合の、Unicodeのバージョン一覧です
Unicode 1.0
Unicode 1.1
Unicode 2.0
Unicode 2.1
Unicode 3.0
Unicode 3.1
Unicode 3.2
Unicode 4.0
Unicode 4.1
Unicode 5.0
Unicode 5.1
Unicode 5.2 (ドラフト2仕様)
実際の構造体の形式は「Unicodeの各バージョンに対応開始」にある通りで、始まり、終わり、対応するバージョン、という3項目の構造体の配列です。
各範囲ごとに、上にあるいずれかのバージョン情報を書き連ねています。
unicode.orgにある1.1以降のUnicodeData*.txtファイルを11個同時に開いて、丁寧に違いを見ながらリストを作るという超ローテク作業です。
まる二日で完成しましたが、思ったより早く済んで良かったです。
1.0の仕様書がないので1.1との明確な差が分かりませんでしたが、ネット上の他の情報をかいつまんでおきました。
さて、このUnicode側の文字番号は2.0以降の仕様準拠ですが、1.0/1.1と2.0以降はハングルの仕様に差があるため、これは先日作った入れ換え処理を用いました。概ね期待通りの動作をしているようです。
実際の指定方法ですが、コマンドラインツールの場合は、「UTF-16/UNICODE1.1」とか「UTF-8/UNICODE 4.1」のように、CES/CCSの形式で指定するのが標準的な書式となります。
charset名にあるような「unicode-2-0-utf-8」といったCESとCCSが融合したような書式も、いずれ対応します。
実際に、実装をしてみました。
今回対応した、文字集合として見た場合の、Unicodeのバージョン一覧です
Unicode 1.0
Unicode 1.1
Unicode 2.0
Unicode 2.1
Unicode 3.0
Unicode 3.1
Unicode 3.2
Unicode 4.0
Unicode 4.1
Unicode 5.0
Unicode 5.1
Unicode 5.2 (ドラフト2仕様)
実際の構造体の形式は「Unicodeの各バージョンに対応開始」にある通りで、始まり、終わり、対応するバージョン、という3項目の構造体の配列です。
各範囲ごとに、上にあるいずれかのバージョン情報を書き連ねています。
unicode.orgにある1.1以降のUnicodeData*.txtファイルを11個同時に開いて、丁寧に違いを見ながらリストを作るという超ローテク作業です。
まる二日で完成しましたが、思ったより早く済んで良かったです。
1.0の仕様書がないので1.1との明確な差が分かりませんでしたが、ネット上の他の情報をかいつまんでおきました。
さて、このUnicode側の文字番号は2.0以降の仕様準拠ですが、1.0/1.1と2.0以降はハングルの仕様に差があるため、これは先日作った入れ換え処理を用いました。概ね期待通りの動作をしているようです。
実際の指定方法ですが、コマンドラインツールの場合は、「UTF-16/UNICODE1.1」とか「UTF-8/UNICODE 4.1」のように、CES/CCSの形式で指定するのが標準的な書式となります。
charset名にあるような「unicode-2-0-utf-8」といったCESとCCSが融合したような書式も、いずれ対応します。
2009/01/07(水)21:48 |Comments(0) |Trackback(0) |製造開発 | [編集]

