簡体中文関係

現在、ISO-2022-CN-EXTにある、簡体中文で使う文字集合、ISO-IR-165の実装をおこなっております。
これが出来たら次のベータ版とする予定ですが、そもそも現在のGB/Unicodeの変換表は、古い実装から持ってきた、GBKがベースとなったものです。

このため、GB2312の文字集合を指定しても、厳密な意味でGB2312にはなっていませんでした(GBKで追加された文字が変換できてしまう)。

GBKは空き領域にも文字を追加しているため、GB2312とGBKの共存は難しそうです。そこで、サイズは増えてしまいますが、変換表を分離する作業を追加することにしました。

GB→Unicode
GBK→Unicode
Unicode→GB or GBK

という三種類が出来るかなと考えています。

ISO-IR-165→Unicodeの変換表は既に用意したので、GBの変換表にパッチするようにして使うことができます。
Unicode→ISO-IR-165はどうしようか、ちょっと考えています。


変換表は文書ファイルであるので、これを読み取ってC++の構造体形式で吐き出すプログラムをこれから書きます。
たぶん、数日中に完成するものと思います。

一通りの実装が終わったら、iconvにあるように、エスケープシーケンス無しで吐き出す符号にも対応させます。入力は概ね既にできているので、あとは変換表完成次第調整して、出力を作成するだけ。

2009/09/28(月)18:57 |Comments(0) |Trackback(0)

製造開発 | ソフトウェア開発 | コンピュータ | [編集]

▲ページトップ

コメント

コメントの投稿

中文関係 ホーム gTef
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

04 | 2017/05 | 06
- 1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31 - - -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR