Unicode 1.0とUnicode 1.1の仕様について
えむけいさんからの情報により、Unicode 1.0.0とUnicode 1.0.1の仕様を入手できました。
ありがとうございます。
お礼として世に貢献すべく、目視にてチェックしてみました。
チェック漏れはあるかもしれませんが、判明した点を、以下に記します。
今回たれ込まれた情報、http://slashdot.jp/~alp/journal/359354によると、Unicode 1.0.0には「仝」としてU+3004とU+4EDDの二つがあり、Unicode 1.0.1でErrataとしてU+3004が削除され代わりにJISマークが入った、とされておりました。
今回実際に調査したところ、これは事実とは異なっておりました。
Unicode 1.0.0も、Unicode 1.0.1も、U+3004は「仝」です。
U+3004が旧JISマークになったのは、Unicode 1.1からでした。
また、この旧JISマークも突如追加された訳ではなく、Unicode 1.0.1まではU+32FFに存在していた文字でした。
このU+32FFを削除し、U+3004に移動した、というのが真相です。
Unicode 1.0は二冊構成で、Volume 1がLatin部、Volume 2が漢字部となっており、さらに漢字部にて1.0.1への更新が行なわれています。
Unicode 1.0.1では、次の仕様変更が行なわれています。
このほか、Unicode 1.0.0ではBOMに使われるU+FEFFが「BYTE ORDER MARK」というそのままの名前だったものが、Unicode 1.0.1では「ZERO WIDTH NO-BREAK SPACE」という名前に変更されていました。
最初に普及が始まったUnicodeが、Unicode 1.1だと思います。
当時、日本からはケチョンケチョンに言われていたのを思い出します。
Unicode 1.0→Unicode 1.1でも、非互換の仕様変更が幾つかありました。
U+1000〜U+104Cにあったチベット文字が全部削除されていたり、U+03xxの「NON-SPACING」(文字送りをしない)文字が、「COMBINING」(結合)文字に変更となったり、していました。
符号位置は同じまま、名前が変わり、どうやら趣旨(機能?)も変更されているようです。
この「NON-SPACING」(文字送りをしない)と「COMBINING」(結合)の両者が「同一の文字」と見なせるのかどうかは、議論の対象であろうかと思います。
Unicode 1.0とUnicode 1.1についてを説明する原稿が概ね出来ています。
近日中にこれを公開していきたいと考えております。
ありがとうございます。
お礼として世に貢献すべく、目視にてチェックしてみました。
チェック漏れはあるかもしれませんが、判明した点を、以下に記します。
「仝」と「〄」について
今回たれ込まれた情報、http://slashdot.jp/~alp/journal/359354によると、Unicode 1.0.0には「仝」としてU+3004とU+4EDDの二つがあり、Unicode 1.0.1でErrataとしてU+3004が削除され代わりにJISマークが入った、とされておりました。
今回実際に調査したところ、これは事実とは異なっておりました。
Unicode 1.0.0も、Unicode 1.0.1も、U+3004は「仝」です。
U+3004が旧JISマークになったのは、Unicode 1.1からでした。
また、この旧JISマークも突如追加された訳ではなく、Unicode 1.0.1まではU+32FFに存在していた文字でした。
このU+32FFを削除し、U+3004に移動した、というのが真相です。
1.0.0→1.0.1
Unicode 1.0は二冊構成で、Volume 1がLatin部、Volume 2が漢字部となっており、さらに漢字部にて1.0.1への更新が行なわれています。
Unicode 1.0.1では、次の仕様変更が行なわれています。
- CJK統合漢字の追加 (U+4E00〜U+9FA5)
- ユーザー定義外字の符号位置変更 (U+E800〜U+FDFF→U+E000〜U+F7FF)
- CJK互換漢字の追加 (U+F900〜U+FA2D)
このほか、Unicode 1.0.0ではBOMに使われるU+FEFFが「BYTE ORDER MARK」というそのままの名前だったものが、Unicode 1.0.1では「ZERO WIDTH NO-BREAK SPACE」という名前に変更されていました。
1.0.1→1.1
最初に普及が始まったUnicodeが、Unicode 1.1だと思います。
当時、日本からはケチョンケチョンに言われていたのを思い出します。
Unicode 1.0→Unicode 1.1でも、非互換の仕様変更が幾つかありました。
U+1000〜U+104Cにあったチベット文字が全部削除されていたり、U+03xxの「NON-SPACING」(文字送りをしない)文字が、「COMBINING」(結合)文字に変更となったり、していました。
符号位置は同じまま、名前が変わり、どうやら趣旨(機能?)も変更されているようです。
この「NON-SPACING」(文字送りをしない)と「COMBINING」(結合)の両者が「同一の文字」と見なせるのかどうかは、議論の対象であろうかと思います。
原稿
Unicode 1.0とUnicode 1.1についてを説明する原稿が概ね出来ています。
近日中にこれを公開していきたいと考えております。
コメント
コメントの投稿
トラックバック
http://miraicorp.blog90.fc2.com/tb.php/94-a434f6a2
この記事にトラックバックする(FC2ブログユーザー)
この記事にトラックバックする(FC2ブログユーザー)



