大漢和辭典 変換表 2月12日 報告

9面のチェックを進めてみました。今日は少し長いです。

違うかもしれない字など


9-2A43


9-2A43 U+522A 48938-0

 9-2A43 は [冊]+横棒もう一つ+刂
 U+522A は [冊]+刂

 横棒2本を U+20702 に見つけたので、以下のように修正しました。

9-2A43 U+20702 48938-0


9-2B71


9-2B71 U+22303 49078-0

 U+22303 は广が左半分にしか掛かっていなかった
 全体に广な字を、U+222FB に見つけました。

 一応修正しておきました。

9-2B71 U+222FB 49078-0 #「⿱丶一」ではなく亠


9-2C5F


9-2C5F U+232AE 49154-0

 9-2C5F は、[坴]+[丮]+[日]、但し丮は縦棒ではなく丿
 U+232AE は、[幸]+[丮]+[日] だった。

 さすがにこれは難しいのではないかと…

 試しに削ってみました。

9-2C5F 49154-0 #Unicodeに発見できず「⿱⿰坴丮日」、但し丮は縦棒ではなく丿、類似字形U+232AE


9-2D30


9-2D30 U+23B0E 49201-0

 9-2D30 は、[⺈]+[口]+[比]+[夬]
 U+23B0E は、[⺈]+[口]+[][比]+[夬]

 □の中の棒の有無の違いです。その差は大きそうなんですが、どうなんでしょうか?

 例しに削ってみました。

9-2D30 49201-0 #Unicodeに発見できず「⿱⿳⺈口比夬」、類似字形U+23B0E


9-2F3C


9-2F3C U+256DC 49401-0

 U+256DC は示偏[礻]でしたが、9-2F3C はなんか違う気がしたので、探してみました。

 U+271D8 にずばりの字形を見つけたので、書き換えておきました。

9-2F3C U+271D8 49401-0


9-3047


9-3047 U+26348 49506-0

 冠が罒ではなく、网な字

 そのものずばりを U+2634A に見つけたので、書き換えておきました。

9-3047 U+2634A 49506-0



微妙に字形が違うやつとか


9-2A6D


9-2A6D U+55C2 48980-0

  9-2A6D は [口]+[爫]+[缶]
  U+55C2 は [口]+[爫]+[缶]

  まぁ、包括の範囲内だろうけど一応探してみたところ、U+2F84A にあった。
  台湾では何かしらの理由で分離したようだけど字形は同じだった。

  折角だから第二候補に入れておいて、コメント付けておいた。

9-2A6D U+55C2 U+2F84A 48980-0 #U+55C2 U+E01xx(現在定義なし)


9-2B64


9-2B64 U+5DDF 49065-0

  左がはみ出してないなぁと思ったので、別の字を探してみました。

  U+21FEB に、似たような字を見つけました。亡の下が角張ってるか丸いかの違いのようです。左はどっちも出てるので字形が違いますが…

  丸い方が優先されるべきかな、と思ったので、次のようにしてみました。

9-2B64 U+21FEB U+5DDF 49065-0 #字形が違う 左がはみ出さない


9-2C74


9-2C74 U+2F8E9 49175-0

  9-2C74 は [木]+[爫]+[缶]
  U+2F8E9 は [木]+[爫]+[缶]

  これも9-2A6Dと同じような話

  他を探したら U+69A3 が同じ字形だった。が

U+69A3 15251-0

  ってのがあった。
  いずれ 15251-0 まで到達してTRONコードの番号が判明した時、字形が完全に一致してたら、重複扱いにしてしまおうと思います。

9-2C74 U+2F8E9 U+69A3 49175-0


9-2D62


9-2D62 U+2439A 49251-0

  [山]+[火]+[日]+[火] ですが、上の火は人ではなくハな感じなので、他を探してみましたが、見つかりませんでした。
  代わりに、丶の方向が違う字 U+21F37 を見つけました。

  U+2439A は、四つとも丶
  U+21F37 は、左の二つが´で、右の二つが丶

  になってるので、両方とも 9-2D62 とは微妙に違う(上は丶´で下が´´)

  取り敢えず、今回発見したU+21F37を第二候補に入れておきます。


9-2D62 U+2439A U+21F37 49251-0


9-2D6D


9-2D6D U+222F1 49262-0

  これも微妙な字形の差が気になる

  一応外してみた。包括の範囲内なら再調整しましょう

9-2D6D 49262-0 #Unicodeに発見できず、類似字形U+222F1


9-2D77


9-2D77 U+2F920 49272-0

  上中央が「同」か、口の代わりにTか、の差

  気になったので探してみたら、U+2F920 と同じ字形の U+7228 を見つけた。
  確認してませんが、U+7228 に対する互換文字が U+2F920 なのかも。

  これも包括の範囲内なんでしょうか。

  TSV探したら、U+7228 は既にあった

U+7228 19648-0

  仕方ないので、19648-0 を親、49272-0 を異体字ってことにしておきました。


U+7228 U+2F920 19648-0
9-2D77 U+2F920 U+7228 49272-0 19648-0 #重複


9-2F6B


9-2F6B U+25DDA 49448-0

 9-2F6B は、[竹]+[辛]+[訇]
 U+25DDA は、[竹]+[幸]+[訇]

 これは包括可能なのでしょうか。

 一応外しておくので、包括の範囲内なら再調整しましょう

9-2F6B 49448-0 #Unicodeに発見できず「⿱⺮⿰辛訇」、類似字形U+25DDA


9-3026


9-3026 U+26070 49473-0

 これは包括可能なのでしょうか。ずいぶん字形が違うような…


9-3026 49473-0 #Unicodeに発見できず「⿰糸⿱⿶凵⿻十一廾」、類似字形U+26070


9-313C


9-313C U+26C64 49590-0

 脚の形が微妙に違うようなので、メモを付けておいた

9-313C U+26C64 49590-0 #字形が違う「⿳⺿日⿰ナ十」


9-317E


9-317E U+24454 49655-0

 微妙に違うのでメモを

9-317E U+24454 49655-0 #字形が違う 丸の丿に付く横棒は二本





見つけた字


9-2B2F


9-2B2F U+ 49012-0

  十の下左右に百、脚として大。但し十の縦棒と大の上は連結している

  連結してない字を U+20057 に見つけたんですが、どうしましょうか?

  一応、見つかったものとしておきました。

9-2B2F U+20057 49012-0 #「⿱⿶十⿰百百大」但し縦棒は連結


9-2C67


9-2C67 U+67FA 49162-0

U+67FA 14584-0

  って行を見つけて、どうやら重複らしい。TRON番号が分からないので確認できませんが、Unicode的にはこちらが優先のようだ。

  たまたま、U+67FA と同じ字形を U+2F8DF に見つけたので、こんな感じでいかがでしょう。

9-2C67 U+2F8DF U+67FA 49162-0

  いずれ 14584-0 まで到達してTRONコードの番号が判明した時、字形が完全に一致してたら、重複扱いにしてしまおうと思います。


9-2D3B


9-2D3B U+ 49212-0

 ほぼ同じ字を、U+23D01 に見つけました。「ノ」と「八」の違いです。
 多分包括可能な範囲と思いますが、どうでしょう?

 一応加えておきました。

9-2D3B U+23D01 49212-0


9-2E3B


9-2E3B U+ 49306-0

 U+249A1 に見つけました。

9-2E3B U+249A1 49306-0


9-2E7C


9-2E7C U+ 49371-0

 U+262F9 に見つけました。

9-2E7C U+262F9 49371-0


9-3071


9-3071 U+ 49549-0

 月の形が違う字を、U+2684C に見つけました。

 これも包括の範囲内でしょうか

9-3071 U+2684C 49549-0 #字形が違う。月は「⿵冂⿱一一」


9-316E


9-316E U+ 49639-0

 U+26FE8 に見つけました。

9-316E U+26FE8 49639-0




見つからない字など


自分にも見つけられなかった字は、諦めてUnicodeを空欄に。

9-2A36


9-2A36 U+ 48925-0

9-2A36 48925-0 #Unicodeに発見できず「⿱⿸「人兀」

 厂はあったけど「 の漢字がなかったので、かなり苦しいけどカギ括弧で代用


9-2A73


9-2A73 U+ 48986-0

 囗の中に[𠆢](やね)+[日]

 日じゃなくて目なら、U+211E1 に見つけたんだけれど、残念

9-2A73 48986-0 #Unicodeに発見できず「⿴囗⿱U+201A2日」

 こちらのエディタがへぼくてBMP以外使えないので、コードで書いておきます。


9-2B6F


9-2B6F U+ 49076-0

9-2B6F 49076-0 #Unicodeに発見できず「⿸广垂」


9-2B77


9-2B77 U+ 49084-0

 [賏]+[肉]なら U+26886 に見つけたのだけど、残念ながら下は弓

9-2B77 49084-0 #Unicodeに発見できず「⿱賏弓」


9-2C65


9-2C65 U+ 49160-0

9-2C65 49160-0 #Unicodeに発見できず「⿰木糸」、但し糸の下は縦棒でハがない


9-2D45


9-2D45 U+ 49222-0

9-2D45 49222-0 #Unicodeに発見できず「⿱咸水」


9-2D5D


9-2D5D U+ 49246-0

9-2D5D 49246-0 #Unicodeに発見できず「⿰火㢲」


9-2D6E


9-2D6E U+ 49263-0

9-2D6E 49263-0 #Unicodeに発見できず「⿱⿲弓匊弓火」


9-2E4D


9-2E4D U+ 49324-0

9-2E4D 49324-0 #Unicodeに発見できず「⿺瓦卒」


9-2E59


9-2E59 U+ 49336-0

 U+7562 が近いかなとも思ったけれど、他にあるようなので諦めた

9-2E59 49336-0 #Unicodeに発見できず、類似字形U+7562


9-2E61


9-2E61 U+ 49344-0

9-2E61 49344-0 #Unicodeに発見できず「⿳⿱𠆢一罒疋」


9-2E6C


9-2E6C U+ 49355-0

9-2E6C 49355-0 #Unicodeに発見できず「⿱白⿱日」


9-302B


9-302B U+ 49478-0

9-302B 49478-0 #Unicodeに発見できず「⿰糸⿱⿱⺊日⿱冖丁」


9-302C


9-302C U+ 49479-0

9-302C 49479-0 #Unicodeに発見できず


9-303F


9-303F U+ 49498-0

9-303F 49498-0 #Unicodeに発見できず「⿰缶㕻」


9-3043


9-3043 U+ 49502-0

 部品「コ」が一つ多い文字 U+26328 を見つけましたが、包括の可能性はどうでしょう。

9-3043 49502-0 #Unicodeに発見できず、類似字形U+26328


9-3078


9-3078 U+ 49556-0

 9-3078は、「爿 ̄」みたいな字(U+2456B)中に臣

 [爿]+[匚]+[臣] という、非常に惜しいものを U+2458B に見つけました。

9-3078 49556-0 #Unicodeに発見できず「⿸U+2456B臣」、類似字形U+2458B


9-3078


9-3138 U+ 49586-0

 9-3078 は4画の草冠ですが、3画で、かつ「尢」ではなく「九」な字を U+26D32 に見つけました。

9-3138 49586-0 #Unicodeに発見できず「⿱⺿⿰女⿺尢女」、類似字形U+26D32


9-313B


9-313B U+ 49589-0

9-313B 49589-0 #Unicodeに発見できず「⿱⺿⿱五五」




今回、手を触れてない検討課題


9-2B39


9-2B39 U+219B3 U+219B4 49022-0

 この二つより、更によく似た字を U+219AD に見つけました。

 [勹]の形が微妙に違うのですが、どうしましょう?


9-2B69


9-2B69 U+ 49070-0

 U+22109 を見つけたのですが、ほんのり字形が違う。
 9-2B69 は、タではなくノノで、丅と巾 は繋がってない

 同じと扱っても良さそうな気もするけどどうでしょう


9-2C4C


9-2C4C U+22D47 49135-0

 [扌]+[艹]+[二]+[]+[永]

 U+22D47 は下に貫通せず、[土]
 他を探してみました。U+22D4E を見つけましたが、[干]だった。

 どちらに包括するのが適切なのだろう


9-2E2A


9-2E2A U+ 49289-0

 9-2E2A は、[牜]+[專] です。

 專の新字体なやつ([牜]+[専])を U+246BD に見つけましたが、包括可能でしょうか?


9-3027


9-3027 U+26065 49474-0

 糸の字形が違うのが気になる。似たような字に U+260B2 ってのがあるようです。


成果物


本日の版です。

最新版のTSVファイル
ver H21/02/12

プロジェクトのページ
http://www.mirai-ii.co.jp/data/moro/

2009/02/12(木)14:28 |Comments(6) |Trackback(0)

製造開発 | ソフトウェア開発 | コンピュータ | [編集]

▲ページトップ

コメント

9-2A43 異議ありません。
9-2B71 U+222FBは右下が攵です。欠ではありません。
一方で相対的な長さの違いは包摂される場合があります。U+22303のほうが適切ではないでしょうか。
9-2C5F U+232AEのT-sourceであるT7-2E54も字形は同じですが、
http://www.cns11643.gov.tw/AIDB/query_general_view.do?page=7&code=2e54
部件(部品)欄を見ると「土儿土…」となっています。要するに字形がバグっているようです。
最新のCNS11643の規格票では、9-2C5Fと同じ字形に修正されていました。
http://www.cnsonline.com.tw/→English→Online Search→I only search Standards Condition→General No.に「11643」を入力してSearch→View→Preview Chinese Version Data→255ページへ移動
で確認できます。かすれて見にくいですが「土儿土」になっていることはわかると思います。
U+232AEはTの単独ソースで、そのソースが字形を修正してしまった以上9-2C5Fにマップしても問題ないのではないでしょうか。
9-2F3C 異議ありません。
9-3047 異議ありません。
9-2A6D U+55C2をMingLiUで表示してみるとどうして分離したのかわかると思います。
9-2B64 U+5DDFのK欄がそのものずばりの字形なので、U+5DDFを第一候補にしたほうがいいと思います。
9-2C74 9-2A6Dと同じです。MingLiUで表示してみてください。
9-2D62 異議ありません。
9-2D6D 包摂可能です。同様の部分字形のみが違うU+8203とU+8204は原規格分離です。逆に言うと原規格分離でなければ包摂されていたということです。
9-2D77 おっしゃる通りでU+2F920はU+7228のCompatibility variantです。U+7228のT欄が9-2D77そのものずばりの字形(口の代わりにT)なので、他国の字形(「同」)をU+2F920として分離したようです。したがってU+2F920は19648-0に対しては使えても、9-2D77に対して使うのは無理だと思います。台湾以外では異体字セレクタを使うしかないでしょう。
9-313C 包摂可能です(たとえばU+5954とその互換漢字であるU+FA7F)。もちろんメモを付けておくことに異議はありません。
9-2C67 14584-0の字形はU+67FAのK欄と一致しているようです。U+2F8DFは9-2C67に使えても14584-0には使えそうにないので、適切だと思います。
9-2D3B 異議ありません。
9-2E7C 異議ありません。
9-3071 包摂可能です。肉月を含む文字のT欄を見ればわかります(VistaならMingLiUでも確認できます)。
9-316E 異議ありません。
9-3138 U+26D32は全然違う字です。U+26BCFの間違いでしょうか? T-source
http://www.cns11643.gov.tw/AIDB/query_general_view.do?page=6&code=4e3a
ではちゃんと尢になっているので、U+26BCFをマップしてかまわないと思います。
2009/02/12(木)22:17 |えむけい | URL |編集
▲ページトップ

9-2B39 U+2F98CがU+8204のCompatibility variantなので、包摂可能だと思います。
9-2C4C 推測なのですが、もともと大漢和のものと同じだった字形を、中国と台湾がそれぞれ自国デザインに変更した結果分離されてしまったのではないでしょうか。U+22D4Eは台湾、U+22D47は中国の単独ソースなので。9-2B39もそんな感じがします。
9-3027 包摂可能です。SimSunで糸偏の漢字を見るとわかります。U+26065とU+260B2の関係も9-2B39や9-2C4Cと同じ事情に思えます。
2009/02/12(木)22:29 |えむけい | URL |編集
▲ページトップ

・9-3026
U+2219Fと、その互換漢字であるU+2F939をご覧ください。U+2219Fは例示字形では左右の横棒が箱と繋がって見えますが、CNS11643で部品を見るともっと明確です。
http://www.cns11643.gov.tw/AIDB/query_general_view.do?page=6&code=523F
2009/03/10(火)09:50 |えむけい | URL |編集
▲ページトップ

今ひとつ良く分かりませんが、[由]と[凵]+[キ]は包括可能ってことで良いのでしょうか。
2009/03/10(火)17:50 |miraicorp | URL |編集
▲ページトップ

T6-523Fの部品(「部件」欄)では、「凵 キ ノ 一 ナ ノ 干」となっているのに対して、その互換漢字(T4-3E6C)では「由 ノ 一 ナ ノ 干」になっています。ですから私は統合対象だと思います。
2009/03/11(水)14:23 |えむけい | URL |編集
▲ページトップ

9-3026とU+26070の対応を、TSVに加えておきました。
2009/03/12(木)13:12 |miraicorp | URL |編集
▲ページトップ

コメントの投稿

TAD入出力 言語指定 ホーム 大漢和辭典 変換表 2月11日 報告
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

07 | 2017/08 | 09
- - 1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31 - -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR