ISCII91

インドの文字コード ISCII91 に対応しました。

この文字コードは、コード処理、連結処理、表示処理といった各処理を階層に分けることで、インドにある10の言語に一つの文字コードで対応する仕様となっています。

音素を符号化し、これを連結して一文字を表わすようになっています。このため、合字が多数あるインド系言語でも、94文字集合でこれを処理することができます。

あらかじめどの言語の処理なのかを処理系で事前に打ち合わせる方式に加えて、文字列中で言語を選択するためのシーケンスも用意されています。ATR(0xef) と継続の1バイトで言語を指定します。
これによって、インドの10種類の言語を網羅します。

但し、現在のインドでは、UTF-8が主流のようです。
とはいえ、Unicodeにあるこれら言語も、基本はISCII91であり、その仕様に準じて実装されています。
対応する10種類の言語のうち、Unicodeではベンガル語とアッサム語が統合されており、都合9種類の文字が、ISCII91の配列に従って登録されています。

ISCII91の処理系は見たことがありませんが、Unicodeの配列はISCII91準拠なので資料を見なくても実装可能なので、今回は各言語ごとに、Unicode 5.2までにある全ての文字を割り付けるように実装してあります。

規格上は、アルファベットでの表示も想定されているようですが、今回は実装していません。
出力はともかく、それを入力する場合の処理方法(ラウンドトリップ(往復変換)対応)が定義されていないので実装できません。

さらに規格上は、ATR(0xef) + 0x71…0x76 で各種アラビア文字やペルシャ文字も扱えることになっていますが、これも仕様が定かではないので実装していません。



また規格上は、EXT(0xF0) と継続の1バイトでヴェーダ文字を扱うことが可能なようですが、仕様が定かではないので実装していません。
仕様書のAnnex-Gに書かれているらしいのですが、ネットにあるPDFは、残念ながらAnnex-Fまでで切れています。
なお、ヴェーダ文字そのものについては、Unicode 5.2.0から追加されていますので、ISCII91側の仕様さえ判明すれば、実装可能かと思います。

2009/10/08(木)18:14 |Comments(5) |Trackback(0)

製造開発 | ソフトウェア開発 | コンピュータ | [編集]

▲ページトップ

コメント

> 仕様書のAnnex-Gに書かれているらしいのですが、ネットにあるPDFは、残念ながらAnnex-Fまでで切れています。

真面目に言っているのか判りませんが、ちゃんとこのPDFに、「本ファイルはあくまで参考であり、標準として参照してはならない。本ファイルの利用者は利用期間中に、正規版を購入しなければならない」と書かれているのは読めていますか?

ちなみにインドはISOのmember bodyですので、「外国規格だから国内に販売窓口はない」などという言い訳は通用しませんよ。念のため。
2009/10/09(金)00:32 |足で稼がないゆとりさん | URL |編集
▲ページトップ

コメントありがとうございます。
たまたま見つけたこのPDFは、そういうものでしたか。よく読んでおりませんでした。

ISCII91でのヴェーダ文字等の処理の需要が出てきたときに購入し正式な仕様の実装を検討したいと思います。
2009/10/09(金)09:44 |miraicorp | URL |編集
▲ページトップ

通りすがりです。
ベンガル語の資料作っていて、Unicodeのベンガル語をよく利用しています。
バングラデシュではいまだにUnicodeよりANSIで英文字に専用フォントを割り当てたものが
Bijoy規格と呼ばれて使われています。
コンバータはあるのですが、性能が良くなかったりします。
2009/10/13(火)23:18 |あだち | URL |編集
▲ページトップ

Bijoy規格ですか。
これから調査して、変換処理を作ってみたいと思います。

もし差し支えなければ、変換元と理想的な変換結果のそれぞれの文書ファイルなどを資料として頂けると幸いです。

2009/10/14(水)10:40 |miraicorp | URL |編集
▲ページトップ

ベンガル語の処理については、項目を独立させました。

http://miraicorp.blog90.fc2.com/blog-entry-276.html
2009/10/14(水)18:38 |miraicorp | URL |編集
▲ページトップ

コメントの投稿

中文処理 ホーム CP932
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

09 | 2017/10 | 11
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31 - - - -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR