ベトナム語

旧iTecでは充分な実装が出来なかったベトナム語について、かなりの水準までを実装してみました。

現在、実装されている符号。

・Windows-1258
・IBM-1129 (CP1129)
・IBM-1163 (CP1163、ユーロ記号)

・TCVN-5712:1993 VN-1

・VISCII 1.0
・VISCII 1.1 (RFC 1456)
・VIQR (RFC 1456)
・VPS
・VNI

VNIについては公的資料が存在しないようですが、旧iTecの頃に画面や文書ファイルをくれた方がおり、その情報を再度検証し、iTecとは異なる方向性で再度実装し、無事に成功しました。
個人情報保護云々のため、既にどなたから頂いたかは情報がないのですが、ありがたいことです。

長い時の中で技術革新が起こり、実装が可能となったのです。
Unicodeの拡張とか、新発想による再設計の結果とか、中の人の成長とか。


そもそも、VNIはベトナム語ではどう考えても使わない文字が色々と使えるらしい。しかも、その文字はUnicodeにすらない。

0x59 0xc9 という見た目は普通そうな符号で、Y(' なんてどう考えても使わない文字が出て来る。
Unicodeには無いから、内部では二重の連結、つまりU+0059 U+0306 U+0301というUnicodeで3文字分という、驚異的に扱いにくい状態で扱っています。

しかも処理を実装しながら気付きましたが、現実のベトナムのソフトは、最短の符号ではなく、なぜか冗長なものを出したりもするようで、何というかそのコンセプトが良く分からない。

例えば、e^~ は 0x65 0xe3 で、これが最短で、納得できる。
しかし、e^. は何故か 0x65 0xe2 0xef となる。

中の事情は知りませんが、個人的な予想では、0x65 0xe4 という最短の符号があるはずなんです。
まぁ、これで出力して使えないと困るので、ベトナムのソフトの通りに吐くように作りました。

結果、VNI→MIXTURE→VNIで、もらった参考ファイルと完全に一致し、さらにUnicodeとして出力(VNI→UTF-16など)しても何の違和感もない実装が完成しました。


ベトナム語に興味のある方、メールないしコメントでご連絡下さい。

2008/12/07(日)23:18 |Comments(0) |Trackback(0)

製造開発 | プログラミング | コンピュータ | [編集]

▲ページトップ

コメント

コメントの投稿

DLLクラスとwchar_t ホーム DLLごとにフォルダ分離
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

09 | 2017/10 | 11
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31 - - - -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR