新しい異体字セレクターの素案3

久しく間が空いてしまったものの、いつまでも手元で暖めていても仕方が無いので、現時点でのものをCC0すなわち著作権放棄で公開することとした。

現在のバージョン


ver H23/07/06 (平成23年7月6日)

U+3402からU+8629まで完了
U+862DからU+91FFまで、作業中
U+9200から2A6B2まで完了

新異体字セレクター作成計画 公式サイト


異体字の分離方針


字形ごとに、ビットを割り当てる。全部で8ビット分あるので、余裕は充分である。

例えば、隆(U+9686)という字(いまたまたま目に付いたので)という字の場合、現行案では、以下の仕様としている。

[夂/攵][横棒なし/あり]
9686 FF200▲9686 E0100; Adobe-Japan1; CID+3964▲9686 E0103; Hanyo-Denshi; JA4620
9686 FF201▲9686 E0101; Adobe-Japan1; CID+13393
9686 FF202▲9686 E0104; Hanyo-Denshi; IB1029
9686 FF203▲9686 E0102; Adobe-Japan1; CID+8686▲9686 E0105; Hanyo-Denshi; JTBE75

夂/攵で1ビット、横棒なし/ありで1ビットで計2ビットをオフセットFF200に重ねている。
画像を含めると、こうなる。

9686 FF200
9686 FF201
9686 FF202
9686 FF203


空きが出ることもある


この方針に従うと、当然、存在しない字形も表現できることになる。
その場合、そこは空き領域、予備として、文字を割り当てずに温存する。


例えば、響(U+97FF)という字(いまたまたま目に付いたので)という字の場合、現行案では、以下の仕様としている。

[亠 縦/横][現在字形/旧字形/白ヒ/白ヒ角なし]
97FF FF200▲97FF E0100; Adobe-Japan1; CID+1721▲97FF E0105; Hanyo-Denshi; JA2233
97FF FF201▲97FF E0101; Adobe-Japan1; CID+13337
97FF FF202▲97FF E0102; Adobe-Japan1; CID+13726
97FF FF203
97FF FF204
97FF FF205▲97FF E0103; Adobe-Japan1; CID+20245
97FF FF206▲97FF E0104; Adobe-Japan1; CID+20246▲97FF E0106; Hanyo-Denshi; KS490900
97FF FF207▲97FF E0107; Hanyo-Denshi; JTBEE9

冠に1ビット、その他に2ビットを割り当てた。
この場合、AJ1にも汎用電子にも存在しない字形が二つ生じたが、ここは詰めずに、そのまま放置しておく。いずれ他のIVCが収録された際、ここが使われる可能性があるため。
なお、他の字形が別のUnicode番号を持っている場合も同様で、そこは永久欠番として同様に放置する。

「詰めない」
「整理整頓」
「附番は、思想を排除し、論理的に」

といったあたりを重視していきたいと思っている。




現時点での不明点


メモに残されていた、不明瞭な点。ご意見求む。

CID+13686とJTBE1DSの区別


938C FF200 938C E0100; Adobe-Japan1; CID+1495 938C E0102; Hanyo-Denshi; JA1989
938C FF201 938C E0101; Adobe-Japan1; CID+13686
938C FF202 938C E0103; Hanyo-Denshi; JTBE1DS

CID+13686とJTBE1DSをどう区別するか、という点がメモとしてありました。

938C E0101
938C E0103

GlyphwikiのグリフだとPDFのグリフを完全に再現できていないのだが、兼の右上の払いが縦棒位置で止まるか、そのまま払うかの差。

分ける必要性があれば、このために1ビット確保され、さもなくばJTBE1DSは938C FF201に包括される。


7E2B


[一点/二点][丶/払い]
M+1*/M+2*は、一点+払い(koseki-310660) が採用されている。
7E2B FF200▲7E2B E0100; Adobe-Japan1; CID+3667▲7E2B E0102; Hanyo-Denshi; JA4305
7E2B FF201▲;;KS310660
7E2B FF202▲7E2B E0103; Hanyo-Denshi; JTB853
7E2B FF203▲7E2B E0101; Adobe-Japan1; CID+14024

のようにメモがあった。
個人的に愛用しているM+2P+IPAG circleなどのフォントでは、KS310660 が使われており、そのまま放置するのも何なので、その分の領域を確保しておいた。
戸籍にある字なら、将来的に汎用電子あたりが登録すると見込まれる、ないし期待したい。


重複するグリフの扱いはどうするか


▼CID+13505はグリフという意味ではCID+3603と重複している。互換用新VSなどを用意した方がよいのだろうか。
[草冠三画/四画][ソ/小]
853D FF200▲853D E0100; Adobe-Japan1; CID+3603▲853D E0102; Adobe-Japan1; CID+13505▲853D E0103; Hanyo-Denshi; JA4235
853D FF201▲853D E0101; Adobe-Japan1; CID+7789▲853D E0104; Hanyo-Denshi; FT1916
853D FF202▲
853D FF203▲853D E0105; Hanyo-Denshi; KS361180S

現在、CIDで、重複または設計上同じと見なせるものは、次の4組存在する。
4301 & 7983
4411 & 7984
5459 & 7994
3603 & 13505
これらの文字は、別に新異体字セレクターを用意するべきかどうか。
用意する場合、どういう附番をするのが、もっとも論理的であろうか。


その他のメモ


▼草冠+平なので、平の異体字の可能性も考慮が必要かもしれない
82F9 FF200▲82F9 E0100; Adobe-Japan1; CID+6340▲82F9 E0101; Hanyo-Denshi; JA7189
82F9 FF201▲82F9 E0102; Hanyo-Denshi; KS344990

▼草冠+母なので、母の異体字の可能性も考慮が必要かもしれない
82FA FF200▲82FA E0100; Adobe-Japan1; CID+6336▲82FA E0101; Hanyo-Denshi; JA7185
82FA FF201▲82FA E0102; Hanyo-Denshi; KS345000

2011/07/06(水)15:59 |Comments(0) |Trackback(0)

製造開発 | ソフトウェア開発 | コンピュータ | [編集]

▲ページトップ

コメント

コメントの投稿

中身が口な、渡辺さん ホーム 駗 うまがなやむ
トラックバック

この記事にトラックバックする(FC2ブログユーザー)
▲ページトップ

カレンダー

03 | 2017/04 | 05
- - - - - - 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 - - - - - -

プロフィール

miraicorp

Author:miraicorp
未来情報産業(株) 社長

主として「ICカードこれひとつ」や「文字、文字コード」処理、時々C++などについて記述しています。

twitterツイッター

管理用

検索フォーム

お知らせ

コメント等お気軽にどうぞ。

気に入ったら拍手して頂けると、今後の記事を書く際の参考や励みになります。

■お仕事を募集しております
ソフトウェア製造の仕事や、原稿執筆の仕事などを随時受け付けております。
お気軽にご相談下さい

■初めての方へ
こまごまと更新しているため、他にも関連する記事があるかもしれません。
「月別アーカイブ」「検索フォーム」「カテゴリ」などをお試し下さい。
トップページはこちら

最新記事

最新コメント

最新トラックバック

月別アーカイブ

カテゴリ

広告枠

メール

メールはこちら

リンク

このブログをリンクに追加する

RSSリンクの表示

QRコード

QR