ISO-8859

ISO/IEC 8859への対応を開始した。

今まで、これら符号はISO/IEC 2022的なエスケープシーケンスを併用するものと考えていたが、どうもそうではないらしい。
試験に使っている全てのWebブラウザは、これら符号に切り替えるエスケープシーケンスに対応していなかった。
つまり、日本人がシフトJISを使うような感覚で、0x00~0xffがごく自然に使われている、ということになる。

確かに、古い実装を見たら、エスケープは吐いていなかった。どこかで勘違いと変な期待が混じり込んだのであろう。


それは良いとして、ではCES/CCSで分離していた管理を、どうしよう、ということになった。
実質的にCESとCCSが分離していない符号系である以上、CES/CCSを明確に分離するこの実装で、どう管理するかが課題だった。
結果として、ISO-8859-1というCESで、ISO-8859-1というCCSを符号化する、というような扱いにせざるを得ないな、という結論に至った。

従って、ISO-8859-? に、一つずつCES-IDと、CCS-IDを附番する方向で作業。
ISO-8859-1から9まではISO/IEC 2022のシーケンスがあるので、この派生という形でCCS-IDを振る方向とする。それ以外は今後検討。

また、基本的にCES-IDは言語ごとに番号が付くようになっているが、ISO-8859-1みたいのは多言語なので、これはラテン語の派生ということで言語コードLAから番号を付けることにした。
結果、ラテン系言語対応ということで、ISO-8859-1と、その派生符号Windows-1252の入出力に対応。

更に、ラテン系以外ということで、キリル文字のロシア語用符号とし、まずはISO-8859-5の入出力に対応した。
キリル文字は、専用のDLLを作って、そちらに処理を置いた。
ウクライナ語も対応予定で、これはロシア語と同じDLLで処理する予定。


今後も、アラビア語とかヘブライ語とかは、随時専用のDLLを作っていく予定である。
ただ、私はどちらの言語も知らないので、今のままだと現地人が満足するレベルには実装できないかもしれない。特にアラビア語処理。

ちなみに、以前の実装はベトナム語の処理が組めずに崩壊を遂げていたりする。
今後どうなるのであろうか。


なお、ISO/IEC 2022符号の対応の一つとして、エスケープ混じりの入力には今後、対応する予定である。
ただISO/IEC 2022対応としても、エスケープ混じりの文を吐き出す機能が必要なのかどうか、謎となった。吐いても対応する実装が殆どないわけである。

2008/12/02(火)22:22 |Comments(0) |Trackback(0)

製造開発 | プログラミング | コンピュータ | [編集]

▲ページトップ

コメント

コメントの投稿

マニュアルの整備 ホーム UTF-32
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

09 | 2017/10 | 11
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31 - - - -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR