Unicodeの重複文字

現在判明している範囲内で、Unicodeの重複文字(互換漢字等は除く)。

・U+20727 と U+20730
・U+22D47 と U+22D4E
・U+24BD2 と U+2A415

全部、Ext-Bです。

今後更に発見したら、追って報告します。

2009/03/03(火)00:01 |Comments(4) |Trackback(0)

製造開発 | 雑記 | コンピュータ | [編集]

▲ページトップ

コメント

とりあえず8面後半完成しました。以前に示したURLの内容は随時変更されうるので、現時点のスナップショットを作成しました。
http://charset.info/tron8-20090304.txt
異体字セレクタは付けていません。
とくに同定に悩んだ場合を除いてUnihanのkMorohashiすら見ていないので、Unihanと食い違いがあるかもしれません。
次は8-AE49あたりから着手する予定です。
2009/03/04(水)00:36 |えむけい | URL |編集
▲ページトップ

ついでに9面の保留になっていた部分も調べ直してみました。
・9-3043
「コ」が多いのはCNSの明體フォントのバグに由来するようです。T7-3A4Aの楷體フォントと「部件」欄では「コ」のない字形になっています。
http://www.cns11643.gov.tw/AIDB/query_general_view.do?page=7&code=3A4A
・9-3A23と9-3C78
火と灬はU+3E02で統合されているので統合可能かと思ったのですが、どうもこの統合はミスだったということにして統合規則から外す方向のようです。
http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg29/IRGN1350_AppendixB_non-unifiable.pdf
・9-3A5D
8面の作業で判明しましたが、巳と㔾はかなり入れ替わることがあるようです。たとえばISOの規格票でU+893Cをご覧ください。㔾の右ハネが縦棒にくっついて紛らわしい字形になったりするためでしょう。
2009/03/04(水)05:01 |えむけい | URL |編集
▲ページトップ

コの有無は、9-3043 の字に限っては包括範囲内ということでよいのでしょうか。
2009/03/04(水)14:59 |miraicorp | URL |編集
▲ページトップ

JISでは誤字形であろうと修正しないそうですが(妛とか)、UCSは例示字形に誤りのあることが確認されれば修正される場合もありますし、実際に修正されたこともあります。
「包括範囲内」と表現するのが適切かどうかはともかく、9-3043に限るならU+26328にマップできるのではないでしょうか。CNSの単独ソースですし。そもそも単独ソースである(他に出典がない)こと自体も、誤字形を疑わせる理由の1つになっています。
2009/03/04(水)22:49 |えむけい | URL |編集
▲ページトップ

コメントの投稿

大漢和辭典 変換表 3月4日 報告 ホーム デイゴという国字
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

09 | 2017/10 | 11
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31 - - - -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR