エンコードチェック処理

どうも満足いかなかったので、SJIS/EUC/UTF-8のチェック部分主処理を、ごっそり書き直してみた。

従来は結構曖昧な処理もあったが、これをやめた。

同じループ内であることは従来通りで、1オクテットずつ見ていくのも同じですが、従来混在していたSJIS/EUC/UTF-8の処理を、別々に行なうように見直した。

これで曖昧さはなくなり、SJIS/EUC/UTF-8それぞれで厳密な検査が可能となりましたが、認識した文字数を数えるタイミングが変わったため、再調整が必要なようです。

以前も書いたように、可能性だけでカウンタを増やしたらダメなんです。

いま、ごく短いテスト用のUTF-8Nファイルを読ませてテストしてますが、これがシフトJISと誤認されるケースがあった。
UTF-8の日本語は3オクテットですが、シフトJISは2オクテットだから、誤認が入るとUTF-8は弱くなってしまう。

色々と調整や処理の工夫などを試みており、今後さらに検討や研究を進めていきたいと考えています。


これが企業秘密的なテクノロジーになるのかは知りませんが、実際に組むとなるとかなり面倒ではありますね。
必要な方には適価でお譲りする用意がありますので、お問い合わせ下さい。

2008/11/24(月)21:18 |Comments(0) |Trackback(0)

製造開発 | プログラミング | コンピュータ | [編集]

▲ページトップ

コメント

コメントの投稿

エスケープシーケンス ホーム ISO/IEC 2022の入力
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

08 | 2017/09 | 10
- - - - - 1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR