Unicode 1.0とUnicode 1.1の仕様について

えむけいさんからの情報により、Unicode 1.0.0とUnicode 1.0.1の仕様を入手できました。
ありがとうございます。

お礼として世に貢献すべく、目視にてチェックしてみました。
チェック漏れはあるかもしれませんが、判明した点を、以下に記します。


「仝」と「〄」について


今回たれ込まれた情報、http://slashdot.jp/~alp/journal/359354によると、Unicode 1.0.0には「仝」としてU+3004とU+4EDDの二つがあり、Unicode 1.0.1でErrataとしてU+3004が削除され代わりにJISマークが入った、とされておりました。

今回実際に調査したところ、これは事実とは異なっておりました。

Unicode 1.0.0も、Unicode 1.0.1も、U+3004は「仝」です。
U+3004が旧JISマークになったのは、Unicode 1.1からでした。

また、この旧JISマークも突如追加された訳ではなく、Unicode 1.0.1まではU+32FFに存在していた文字でした。
このU+32FFを削除し、U+3004に移動した、というのが真相です。


1.0.0→1.0.1


Unicode 1.0は二冊構成で、Volume 1がLatin部、Volume 2が漢字部となっており、さらに漢字部にて1.0.1への更新が行なわれています。

Unicode 1.0.1では、次の仕様変更が行なわれています。

  • CJK統合漢字の追加 (U+4E00〜U+9FA5)

  • ユーザー定義外字の符号位置変更 (U+E800〜U+FDFF→U+E000〜U+F7FF)

  • CJK互換漢字の追加 (U+F900〜U+FA2D)



このほか、Unicode 1.0.0ではBOMに使われるU+FEFFが「BYTE ORDER MARK」というそのままの名前だったものが、Unicode 1.0.1では「ZERO WIDTH NO-BREAK SPACE」という名前に変更されていました。



1.0.1→1.1


最初に普及が始まったUnicodeが、Unicode 1.1だと思います。
当時、日本からはケチョンケチョンに言われていたのを思い出します。


Unicode 1.0→Unicode 1.1でも、非互換の仕様変更が幾つかありました。

U+1000〜U+104Cにあったチベット文字が全部削除されていたり、U+03xxの「NON-SPACING」(文字送りをしない)文字が、「COMBINING」(結合)文字に変更となったり、していました。

符号位置は同じまま、名前が変わり、どうやら趣旨(機能?)も変更されているようです。
この「NON-SPACING」(文字送りをしない)と「COMBINING」(結合)の両者が「同一の文字」と見なせるのかどうかは、議論の対象であろうかと思います。


原稿


Unicode 1.0とUnicode 1.1についてを説明する原稿が概ね出来ています。
近日中にこれを公開していきたいと考えております。


コメント
コメントの投稿


管理者にだけ表示を許可する

トラックバック
http://miraicorp.blog90.fc2.com/tb.php/94-a434f6a2
この記事にトラックバックする(FC2ブログユーザー)