北朝鮮 國規 9566 (KPS 9566)

遂に待望の、北朝鮮の文字コード規格、KPS 9566 に対応しました。

具体的には、次に対応しています。

① 文字集合 KPS 9566-97
 → 符号化方式 EUC-KP、ISO-2022-KP
② 文字集合 KPS 9566-2003

KPS 9566-97の改訂版にKPS 9566-2000がありますが、差異は不明です。資料もありません。
KPS 9566-93という古い仕様もあるらしいですが、資料がないため未対応です。


EUC-KPは規格化されていないようですが、EUC-KRの文字集合をKPS 9566-97に置き換えたものです。つまりG1に置いて使っています。
恐らく、北朝鮮側が想定した通りの実装になっているものと思います。

ISO-2022-KPに至っては使用実績ゼロのようですが、ISO-2022-KR と同様に、G1に文字集合を置いてSI/SOで切り替えて使う方式を採用しました。
この符号は従来存在しないということで、当実装独自の符号ということになりそうです。
しかしながら、次に書く2003という符号があるので、これが普及する見込みは無さそうです。

最後の KPS 9566-2003 は、南のEUC-KR→UHC と同様の拡張を施して、全ハングルを追加した文字集合および符号化方法です。



今回、記号類などで、22文字、Unicodeに存在しないものがあります。
内部では独自コードで処理していますから、今回作った北朝鮮の三種類の符号の範囲内でかつ出力先に同じ文字が存在すれば、情報は失われません。
但し南の符号への変換その他、出力先に明らかに存在しない場合は、一旦Unicodeを介して相当文字に置き換えることになります。

従いまして、6文字ある、とても気になる「例の文字」については、北→北 なら失われることはありませんが、北→南にすると、普通のハングルに置き換わります。
Unicode等に出力した場合も同様で、普通のハングルに置き換えます。不明文字扱いにはしていません。
将来的に、互換漢字のように「互換ハングル」などがUnicodeに作られたなら、その時は仕様変更することになると思われます。

残る未定義の16文字は全て記号です。絵文字などを追加する暇があるなら、ここにある記号は追加しても良いように思うのですが。
この記号文字については、北→南その他で存在しない場合は、他の符号変換と同様に不明文字(U+FFFD または '?' )になります。

このため、南と違って、北のKPS 9566はUnicodeとの完全なラウンドトリップ(往復変換)が実現されていません。


南北朝鮮語処理に興味のある方や従事しておられる方がいましたら、次のβ版以降で、動作検証などにご協力頂ければと思います。

2009/10/05(月)16:57 |Comments(0) |Trackback(0)

製造開発 | ソフトウェア開発 | コンピュータ | [編集]

▲ページトップ

コメント

コメントの投稿

簡体中文 ホーム 花園フォント
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

09 | 2017/10 | 11
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31 - - - -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR