スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

--/--/--(--)--:--

スポンサー広告 | | | [編集]

▲ページトップ

TRONコード8面9面と大漢和検字番号

TSVのTRONコードと検字番号が対応しました
そこで、今度はTRONコード→検字番号の変換表を作るプログラムを書いてみました。これも、案外簡単にできた。

頭の方を引用。前に紹介した、手書きのとほぼ同じです。前回は00366-1を入れるのを忘れていましたが。


// serial internal num
{ 1, 1 }, // 00001-0 ... 00150-0
// 00151 欠番
{ 151, 152 }, // 00152-0 ... 00366-0
{ 366, 60001 }, // 00366-1
{ 367, 367 }, // 00367-0 ... 00462-0
{ 463, 60002 }, // 00462-1
{ 464, 463 }, // 00463-0 ... 00628-0
{ 630, 60003 }, // 00628-1
{ 631, 629 }, // 00629-0
{ 632, 60004 }, // 00629-1
{ 633, 630 }, // 00630-0 ... 00927-0
{ 931, 60005 }, // 00927-1
{ 932, 928 }, // 00928-0 ... 01042-0
{ 1047, 60006 }, // 01042-1
{ 1048, 1043 }, // 01043-0 ... 01368-0


出力結果から、ダッシュまたはダブルダッシュ付きの文字は、TRONコードの8面・9面の中には516字あることが分かりました。
当実装における内部番号としては、60001から60516となります。

ちなみに〓〓〓〓〓の場合は50101から50614で514字しかない。
細かい事情など知るよしもありませんが、ダッシュ付き文字のなかにはダッシュなしの文字と重複するものが3字程度存在するので、どうやらこれのどれかを削っているようです。
諸橋大漢和辞典 初版縮写版→修訂版間の差によると、次の3字が重複している。

内 366'(人部)==1512(冂部)
勲 2463(力部)==19372'(火部)
麦 5700'(夂部)==47718(麥部)

あともう一字、怪しいのがあるらしい。

重複は間違いないのでしょうが、悪く言えば、〓〓〓〓〓は大漢和辭典の全ての番号を網羅できていないってことですね。


動作検証などをした後、次はこの逆に検字番号→TRONコードの変換をするための処理を書いていこうかと思っております。

2009/03/04(水)18:05 |Comments(5) |Trackback(0)

製造開発 | プログラミング | コンピュータ | [編集]

▲ページトップ

コメント

プロジェクトページに、まだ
> ダッシュ付きの文字514種類は、登場順に60001から60514と附番します。
と書かれています。〓〓〓〓〓から「ダッシュ付き番号の数をパクった」とか言いがかりをつけられてはたまりませんから、更新しておいたほうがいいと思います。
> ちなみに〓〓〓〓〓の場合は*****から*****で514字しかない。
(具体的な番号は念のため伏せました)この間にも欠番があるかもしれないので、〓〓〓〓〓では514種類ぴったりであるとは限らないですね。どうでもいいですが。
2009/03/06(金)11:27 |えむけい | URL |編集
▲ページトップ

ページの方は訂正いたしました。
2009/03/06(金)13:58 |miraicorp | URL |編集
▲ページトップ

ふと思ったのですが、「ダッシュ付き番号に順番に附番し、オフセットを加算した番号」は、なんかの著作権にあたるのでしょうかね?
少なくとも、同じような事をしているe漢字は、訴えられていないようです(e漢字の場合は、'だけ数えて、最後に''の2字を付けているので、方法がちょっと違いますが)。

某11面12面でも、大漢和辭典の番号と、このダッシュ部分の番号だけなら、〓〓〓〓〓の名前を出さず、大漢和辭典のクレジットを出してさえいれば、堂々と使えそうな気がするのですが。
2009/03/06(金)14:04 |miraicorp | URL |編集
▲ページトップ

〓〓〓〓〓の字形って実は結構大漢和辞典と違う場合があるようです。たとえば大漢和の検字番号117には「ん」みたいな字が入っていますが、〓〓〓〓〓ではなぜか「ん」の上に「日」みたいな部品がくっついているそうです。本当だとしたらなんでそんなものが付いたのか知りませんが、JIS漢字の「妛」と同じようなことが起きたのではないかとか妄想できそうです。
で、そういうバグが発見されても〓〓〓〓〓は字形を修正しない代わりに、本来の字形を別の場所に割り当てているという噂です。どこに割り当てているのか、そもそも噂は正しいのかは怖くて調べたくありませんが。

一方、TRONの8面9面はあくまでも大漢和辞典の見出し字を登場順に収録することが目的なので、バグがあったら修正されます。たとえば提供したTSVでは8-99C7にバグがあると書かれていると思いますが、超漢字検索で確認した限りでは修正されていました(今回の作業には超漢字検索のデータは一切使っていません。念のため)。TRON文字収録センターの字形が修正されていないだけのようです。
2009/03/09(月)23:51 |えむけい | URL |編集
▲ページトップ

なるほど。
〓〓〓〓〓番号は、大漢和の番号の範囲内であっても別物なんですね。
2009/03/10(火)08:05 |miraicorp | URL |編集
▲ページトップ

コメントの投稿

変換処理まわり ホーム 大漢和辭典 変換表 3月4日 報告
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

05 | 2017/06 | 07
- - - - 1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。