ベンガル語の処理

インドに接する国バングラデシュ人民共和国の国語、ベンガル語の処理について。

Bijoy


インドでは古くはISCII91で文字を処理し、この符号でベンガル文字も扱うことができました。
この仕様に準じて、Unicodeにはベンガル文字が収録されています。

ただバングラデシュではUnicodeはあまり普及しておらず、Bijoyというソフトが普及しているとのことなので、この仕様に対応しようと試みております。

ただ、問題は二点あります。

一つ目は、現在gTef DLLに添付しているツールは、GUI版もコマンドライン版も普通のテクストファイル用で、Wordファイルには対応していません。
Wordファイルの読み書きをするツールを作る計画はありますが、人的資源の関係から当分は難しい。
そのため、当分は、普通の .TXT 拡張子のファイルを扱うこととします。

二つ目は、弊社にベンガル語が分かる人がいないことです。
ですので皆様にご協力をお願いすることになります。
きっとよい処理を作りますので、よろしくお願いします。


文字集合


文字コードにして、0x20から0xffまでの文字をベンガル文字に置き換えて処理しているようです。

フリーソフトとして配布されていたベンガル語用フォントをありがたく頂いて参りましたので、そのうち丸文字で読みやすかったフォントを特注の文字コード表ソフトで表示させ、キャプチャしてみました(クリックで拡大します)。

バングラデシュ

画面の読み取り方は何となく分かると思いますが、カーソルがある場所が001-0つまり、0x0010 を意味しています。

0x80から0x9fで、四角が表示されているところは、文字が定義されていないことを意味します。空白になっているところも同様です。


調査した現状の結果


(この部分は、随時更新されます)


0x20から0x7f


0x20から0x7fまでについては、Unicodeの文字との対応をほぼ確認しました。
不明な文字や、確認が必要だった文字は、以下の通りです。

① 0x5cの縦棒二本 0x5c

② 0x7cの縦棒一本 0x7c

 ①は、デヴァナガリのDOUBLE DANDA U+0965
 ②も、デヴァナガリのDANDA U+0964

 情報によると、インド系言語では、この二つの記号はデヴァナガリ文字のものと共用とのことでした。情報ありがとうございました。



③ 0x5e 0xa1 0xa6 0x5e
 この文字は、Unicodeのベンガル文字ブロック内に一致するものがありませんでした。
 また、同じと思われる文字が三つもあります。


④ 0x79 0x7a 0x7e 0x79

 この文字は VOWEL SIGN U だと思われますが、同じ文字が三つもあります。
 フォントによっては、三種類でそれぞれ、表示位置が微妙に違うようです。
 どのように使い分けるのでしょうか。



0x80から0xff


0x80から0xffの範囲については、ほぼ全て分かりません。
ベンガル文字には二種類の文字があるとのことですが、それらの文字が含まれているのかも知れません。
また、いわゆるリガチャー(合字)などが含まれているようですが、ベンガル文字を解さないため、判断できないでおります。

当面の目標は、Unicodeで、どのようにしてこれらの文字を表現するか、といったあたりかと思います。

かろうじて分かっているのは、次の範囲。

0x81 0x81 U+09C2 VOWEL SIGN UU と思われます。

記号類
0xbf ¿ U+00BF 逆感嘆符

0xd0-0xd5
0xd0と0xd1 横棒ですが、Unicodeのどの横棒に対応させれば良いのだろう
0xd2 “ ←の文字、U+201Cが適当でしょうか
0xd3 同じ字形の記号がUnicodeに見つかりませんでした。” U+201D で誤魔化すべきか。
0xd4 ‘ ←の文字、U+2018が適当でしょうか
0xd5 同じ字形の記号がUnicodeに見つかりませんでした。’ U+2019 で誤魔化すべきか。



それでは、調査にご協力よろしくお願いします。

2009/10/14(水)18:28 |Comments(2) |Trackback(0)

文字 | ソフトウェア開発 | コンピュータ | [編集]

▲ページトップ

コメント

こんにちは。
ご覧になっているベンガル語のフォントはあまりよくないようです。
デフォルメされており、形がはっきりしていません。
ベンガル語フォントはArial Unicode MSにも入っているので、違いを見るなら
そちらのほうがよいようです。

ベンガル文字は合成文字があり、0x0041のショレアから0x0074のチョンドロビンドゥまで
が基本になる文字で、それ以降は組み合わせようのパーツになります。
0x00B0からは特定の組み合わせで出てくる、文字のフォントになっています。

文字一覧がありますので、ご覧になってみてください。
ベンガル語単語集-基本になるベンガル文字
 http://book.geocities.jp/ben_nichi/Page2/Bs.Moji_kihon.html
ベンガル語単語集-合成文字
 http://book.geocities.jp/ben_nichi/Page2/Bs.Moji_Gousei.html

「0x20から0x7f」の4については、BijoyフォントではUの位置を見た目の
調整で打ち分けることが出来たので、3つあったはずで、Unicodeの表には
一種類だけのはずです。
2009/10/28(水)01:28 |あだち | URL |編集
▲ページトップ

コメントありがとうございます。

Uは、やはり見た目の位置で使うコードが変わるのですか。
その場合にどれを使うのが適切なのかが分からないと、実装は難しそうですね。
2009/10/28(水)16:52 |miraicorp | URL |編集
▲ページトップ

コメントの投稿

CNS 11643 ホーム gTef 0.11 beta 公開のお知らせ
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

04 | 2017/05 | 06
- 1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31 - - -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR