久しく間が空いてしまったものの、いつまでも手元で暖めていても仕方が無いので、現時点でのものをCC0すなわち著作権放棄で公開することとした。
現在のバージョン
ver H23/07/06 (平成23年7月6日)U+3402からU+8629まで完了
U+862DからU+91FFまで、作業中
U+9200から2A6B2まで完了
新異体字セレクター作成計画 公式サイト異体字の分離方針
字形ごとに、ビットを割り当てる。全部で8ビット分あるので、余裕は充分である。
例えば、隆(U+9686)という字(いまたまたま目に付いたので)という字の場合、現行案では、以下の仕様としている。
[夂/攵][横棒なし/あり]
9686 FF200▲9686 E0100; Adobe-Japan1; CID+3964▲9686 E0103; Hanyo-Denshi; JA4620
9686 FF201▲9686 E0101; Adobe-Japan1; CID+13393
9686 FF202▲9686 E0104; Hanyo-Denshi; IB1029
9686 FF203▲9686 E0102; Adobe-Japan1; CID+8686▲9686 E0105; Hanyo-Denshi; JTBE75
夂/攵で1ビット、横棒なし/ありで1ビットで計2ビットをオフセットFF200に重ねている。
画像を含めると、こうなる。
9686 FF200

9686 FF201

9686 FF202

9686 FF203

空きが出ることもある
この方針に従うと、当然、存在しない字形も表現できることになる。
その場合、そこは空き領域、予備として、文字を割り当てずに温存する。
例えば、響(U+97FF)という字(いまたまたま目に付いたので)という字の場合、現行案では、以下の仕様としている。
[亠 縦/横][現在字形/旧字形/白ヒ/白ヒ角なし]
97FF FF200▲97FF E0100; Adobe-Japan1; CID+1721▲97FF E0105; Hanyo-Denshi; JA2233
97FF FF201▲97FF E0101; Adobe-Japan1; CID+13337
97FF FF202▲97FF E0102; Adobe-Japan1; CID+13726
97FF FF203
97FF FF204
97FF FF205▲97FF E0103; Adobe-Japan1; CID+20245
97FF FF206▲97FF E0104; Adobe-Japan1; CID+20246▲97FF E0106; Hanyo-Denshi; KS490900
97FF FF207▲97FF E0107; Hanyo-Denshi; JTBEE9
冠に1ビット、その他に2ビットを割り当てた。
この場合、AJ1にも汎用電子にも存在しない字形が二つ生じたが、ここは詰めずに、そのまま放置しておく。いずれ他のIVCが収録された際、ここが使われる可能性があるため。
なお、他の字形が別のUnicode番号を持っている場合も同様で、そこは永久欠番として同様に放置する。
「詰めない」
「整理整頓」
「附番は、思想を排除し、論理的に」
といったあたりを重視していきたいと思っている。
現時点での不明点
メモに残されていた、不明瞭な点。ご意見求む。
CID+13686とJTBE1DSの区別
938C FF200 938C E0100; Adobe-Japan1; CID+1495 938C E0102; Hanyo-Denshi; JA1989
938C FF201 938C E0101; Adobe-Japan1; CID+13686
938C FF202 938C E0103; Hanyo-Denshi; JTBE1DS
CID+13686とJTBE1DSをどう区別するか、という点がメモとしてありました。
938C E0101

938C E0103

GlyphwikiのグリフだとPDFのグリフを完全に再現できていないのだが、兼の右上の払いが縦棒位置で止まるか、そのまま払うかの差。
分ける必要性があれば、このために1ビット確保され、さもなくばJTBE1DSは938C FF201に包括される。
7E2B
[一点/二点][丶/払い]
M+1*/M+2*は、一点+払い(koseki-310660) が採用されている。
7E2B FF200▲7E2B E0100; Adobe-Japan1; CID+3667▲7E2B E0102; Hanyo-Denshi; JA4305
7E2B FF201▲;;KS310660
7E2B FF202▲7E2B E0103; Hanyo-Denshi; JTB853
7E2B FF203▲7E2B E0101; Adobe-Japan1; CID+14024
のようにメモがあった。
個人的に愛用しているM+2P+IPAG circleなどのフォントでは、KS310660

が使われており、そのまま放置するのも何なので、その分の領域を確保しておいた。
戸籍にある字なら、将来的に汎用電子あたりが登録すると見込まれる、ないし期待したい。
重複するグリフの扱いはどうするか
▼CID+13505はグリフという意味ではCID+3603と重複している。互換用新VSなどを用意した方がよいのだろうか。
[草冠三画/四画][ソ/小]
853D FF200▲853D E0100; Adobe-Japan1; CID+3603▲853D E0102; Adobe-Japan1; CID+13505▲853D E0103; Hanyo-Denshi; JA4235
853D FF201▲853D E0101; Adobe-Japan1; CID+7789▲853D E0104; Hanyo-Denshi; FT1916
853D FF202▲
853D FF203▲853D E0105; Hanyo-Denshi; KS361180S
現在、CIDで、重複または設計上同じと見なせるものは、次の4組存在する。
4301 & 7983
4411 & 7984
5459 & 7994
3603 & 13505
これらの文字は、別に新異体字セレクターを用意するべきかどうか。
用意する場合、どういう附番をするのが、もっとも論理的であろうか。
その他のメモ
▼草冠+平なので、平の異体字の可能性も考慮が必要かもしれない
82F9 FF200▲82F9 E0100; Adobe-Japan1; CID+6340▲82F9 E0101; Hanyo-Denshi; JA7189
82F9 FF201▲82F9 E0102; Hanyo-Denshi; KS344990
▼草冠+母なので、母の異体字の可能性も考慮が必要かもしれない
82FA FF200▲82FA E0100; Adobe-Japan1; CID+6336▲82FA E0101; Hanyo-Denshi; JA7185
82FA FF201▲82FA E0102; Hanyo-Denshi; KS345000