スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

--/--/--(--)--:--

スポンサー広告 | | | [編集]

▲ページトップ

UTF-1

勢い余って、UTF-1の入出力も実装してしまいました。
またしても、実用性の無い符号の対応が増えてしまいました。
しかし、これはとても簡単だった。

仕様


ISO/IEC 10646-1:1993 附属書Gに存在していた仕様でしたが、次のISO/IEC 10646からは削除された可哀想な符号です。

ASCIIの上位互換で、次のような範囲を使います。

複数バイト文字
1バイト目 0xa0-0xff
2バイト目 0x21-0x7e、0xa0-0xff

このため、ASCIIと完全な上位互換性があると判断されます。
また、ISO/IEC 2022とも共存可能です。

この符号はISO-IR178として登録されています。中に仕様が書かれています。

特徴


ISO/IEC 10646の全範囲0から0x7fffffffまでを表現できます。

・1バイト文字、2バイト文字、3バイト文字、5バイト文字があり、4バイト文字がありません。
・Unicodeの範囲内(0からU+10FFFF)なら、3バイト以内で済みます。UTF-8より短く済みます。

一見良さそうですが、致命的欠陥があります。

・2バイト目に / や \ を含むため、ファイル名、パス名に使用できません。

これが致命的欠陥ですね。

恐らく、このあたりの問題が嫌われて普及することなく規格から抹消されたのだと思われます。


実装


手動で utf-1 と指定すると、動作します。
また、ISO/IEC 2022のエスケープシーケンス ESC 2/5 4/2 で、UTF-1 に移行するように処理を追加しました。
UTF-1 から、ESC 2/5 4/0 で元に戻ることができます。

対応したgTefは、近日中にβ公開します。

2009/08/26(水)15:53 |Comments(0) |Trackback(0)

文字 | ソフトウェア開発 | コンピュータ | [編集]

▲ページトップ

コメント

コメントの投稿

PC-9801文字 ホーム UTF-7
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

05 | 2017/06 | 07
- - - - 1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。