スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

--/--/--(--)--:--

スポンサー広告 | | | [編集]

▲ページトップ

大漢和辭典 変換表 2月16日 報告

前回更新部分の再更新


大漢和辭典 変換表 2月14日 報告に関する件

9-2A43


9-3B6E [厶]+[貝]と[口]+[貝]が包摂可能とのことなので、以下のようにしておきました。

9-3B6E U+9116 50616-0 #字形が違う「⿰⿱厶貝阝」 U+9116 U+E01xx(現在定義なし)

> 大漢和が50616-0を39572-0の異体字と説明しているかどうかまで確認しないと結論が出せません。

とのことなので、やはり直接本物を確認するしかないですね。
近所の図書館で補巻を検索したら1冊あるようなので、近日中に確認してきます。


9-3C75


且と旦も包括可能のようなので、これも以下のようにしておきました。


9-3C75 U+9937 50717-0 #字形が違う「⿰U+2967F⿱木且」 U+9937 U+E01xx(現在定義なし)


Ext-C


折角なので、ここまで登録無しと思われた字が10646のExt-Cに無いかどうか、チェックしてみました。
不明文字はかなりあるので、分かり易い字形の字しかチェックできていないかもしれません。


この表(C046577e.pdf)には、C(GMT)JKUVが載っているようです。

Gが大陸、MTが台湾でTが台湾のCNSらしい。

JKVは従来通りですが、Uが何かと思ったら「UTC The Unicode Technical Report #45, U-source Ideographs」と書かれていた。
調べたら、http://www.unicode.org/unicode/reports/tr45/に該当の記述があり、PDFも置かれています。
意味が良く分からんが、ページの最初の方を流して読むと、東アジアの漢字の字形統一を目指すプロジェクトにおけるドラフト仕様、とかある。
ああ、言われてみれば、そんな話を聞いたことがあるなぁ。

大漢和の文字は JK-99999 形式が多いかなと思って凡例を見たら、「Japanese KOKUJI Collection」とか書かれていた。番号の由来は不明で、軽く調べてみても、どんな資料なのかも定かになりませんでした。



Ext-Cに見つけた字


9-3654 U+2A97D 50120-0 #⿰女長
9-373F U+2AB3F 50193-0 #⿱⿰心
9-3822 U+2AC92 50258-0 #⿰木赤
9-3827 U+2ACA2 50263-0 #⿰木祀
9-3852 U+2AD89 50306-0 #⿰氵⿱穴力
9-3A3E U+2B0C7 50474-0 #⿰米⿱口耳
9-3A47 U+2B0F5 50483-0 #⿰糸⿱米女
9-3B7B U+2B481 50629-0 #「⿰里⿱亠巾」「⿰里市」
9-3C63 U+2B57B 50699-0 #⿰
9-3D31 U+2B652 50743-0 #⿰魚引
9-3D34 U+2B65E 50746-0 #⿰魚⿱又友
9-3D36 U+2B65A 50748-0 #⿰魚行
9-3D3F U+2B669 50757-0 #⿰魚咨
9-3D42 U+2B672 50760-0 #⿰魚常
9-3D43 U+2B676 50761-0 #⿰魚細
9-3D5C U+2B6D8 50786-0 #⿰鳥



8面の字


こちらも、少し進め、8-282F(00670-0)まで終わらせました。


微妙なところ


00629と1ダッシュ付きの字と00630-0

色々とCompatibleな関係らしい

8-2763 U+4FA2 00629-0 #「⿰亻⿻帀⿱一一」右の再は上下ともはみ出す
8-2764 U+4FAE U+E0100 U+2F805 00629-1 #「⿰亻毎」
8-2765 U+4FAE U+E0101 U+FA30 00630-0 #「⿰亻每」

Adobe-Japan1にあるので、異体字セレクタが付けられているようです。

とりあえず勢いで、8面の自分が処理した文字については異体字セレクタを付けてみました。また、9面についても途中まで異体字セレクタを付けてみました。

変更規模が大きいので、変更箇所については省略します。




その他


以下、発見できなかった字です。

8-275F 00626-0 #Unicodeに発見できず「⿰亻⿱八天」


成果物


本日の版です。

最新版のTSVファイル
ver H21/02/16

プロジェクトのページ
http://www.mirai-ii.co.jp/data/moro/

2009/02/16(月)19:27 |Comments(3) |Trackback(0)

製造開発 | ソフトウェア開発 | コンピュータ | [編集]

▲ページトップ

コメント

且と旦は脚に現れる場合(査と查のように)はおそらく確実に包摂可能ですが、旁に現れる場合(抯と担とか)は類型異字の可能性も高そうなので注意したほうがいいかもしれません。

以前削除された9-2D30ですが、Ext.Dの提案中に見つけました(↓の04279)。
http://appsrv.cse.cuhk.edu.hk/~irg/irg/irg31/IRGN1549_DV50_M_101-200.pdf
つまり現時点ではUnicodeに存在しないということで確定のようです。

8-275FはU+2022Aでしょう。U+5173のT欄をご覧ください。
2009/02/17(火)07:39 |えむけい | URL |編集
▲ページトップ

Ext.Cからさらに1つ見つけました。
9-3A38 U+2B0A9 50468-0 #⿱⺮賦
2009/02/20(金)10:12 |えむけい | URL |編集
▲ページトップ

9-3A38 は、手元のファイルに追加しておきました。

次の版は、もう少し変更が進んでから公開したいと思います。
2009/02/20(金)16:50 |miraicorp | URL |編集
▲ページトップ

コメントの投稿

大漢和の変換表 ホーム 大漢和辭典 変換表 2月14日 報告
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

06 | 2017/07 | 08
- - - - - - 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 - - - - -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。