簡体字支那語(zh-cn)に対応

ということで、テーブルを作るプログラムも案外簡単にでき、Unicode→GBKまたはGBK2Kへの変換も簡単にできてしまった。

これにて、以下の符号については、入出力に対応した。

EUC-CN (GB 2312)
GBK
GB 18030 (GBK2K)

ISO/IEC 2022まわりはまだ組んでいないので、いずれEUC-CN相当の部分、つまりISO-2022-CNに近々、対応する予定。

それ以外にも、簡体字には色々と符号が存在するようだが、仕様が不明であるし、さらに需要とかがよく分からない。
実際に公開してから、いろいろと要望は舞い込むものと思われます。


ちなみに、どんな感じになったかというと、最初の数行は、次の通り。

typedef struct
{
WORD wFirst;
WORD wLast;
WORD wBase;
} UNITBL;


UNITBL tblUNI_GB18030[] =
{
{ 0x0080, 0x00a3, 0 },
{ 0x00a5, 0x00a6, 36 },
{ 0x00a9, 0x00af, 38 },
{ 0x00b2, 0x00b6, 45 },
{ 0x00b8, 0x00d6, 50 },
{ 0x00d8, 0x00df, 81 },
{ 0x00e2, 0x00e7, 89 },
{ 0x00eb, 0x00eb, 95 },
{ 0x00ee, 0x00f1, 96 },
{ 0x00f4, 0x00f6, 100 },
{ 0x00f8, 0x00f8, 103 },
{ 0x00fb, 0x00fb, 104 },
{ 0x00fd, 0x0100, 105 },
(以下略)

例えば、U+00F5なら、
{ 0x00f4, 0x00f6, 100 },
にヒットする。
0xf5-0xf4は1なので、ベースの100に加えて101が求まる。
あとは、ここから4バイトの符号を作るのは計算だけなので、あっという間にGBK2Kの符号が出てきたのでした。

2008/12/11(木)01:31 |Comments(0) |Trackback(0)

製造開発 | プログラミング | コンピュータ | [編集]

▲ページトップ

コメント

コメントの投稿

正字体支那語(zh-tw)作業開始 ホーム 支那語(zh)対応開始
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

07 | 2017/08 | 09
- - 1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31 - -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR