大漢和辭典 変換表 現状

大漢和辭典 変換表 ですが、現在も少しずつ改良を進めています。

プロジェクトのページ
http://www.mirai-ii.co.jp/data/moro/

当面の課題は、Unicodeで重複している文字を何とかすることです。
大漢和、というかTRONコードで同一字形と判断されたものについては、どちらか一方を親字とするように情報追加を進めています。
IVSでの表現等も不可能なものもありますが、現時点では 225 まで重複を減らすことができました。
まだ先は遠そうです。

SIPについては、親字情報を加えるかあきらめるかを全て判断し終えたので、次はBMPの字について、暫く作業したのち、久々に一覧表の更新をしたいと思っています。



gTef 0.02c beta 公開のお知らせ

gTefβテスト版ver 0.02c を公開しました。
http://www.mirai-ii.co.jp/products/soft/gtef/
試用期限は7月末です。

今回も仕様変更はなく、期限のみを延長してあります。

様々な符号に対応しておりますので、ぜひお試し下さい。


諸橋変換表の暫定版導入のための作業を進めています。


Unicode 5.2の動向

Unicode.orgですが、少し動きが出てきました。

charts


http://www.unicode.org/Public/5.2.0/charts/で、chartsが公開されました。

気になる□で囲まれた漢字類 U+1F2xx ですが、やはり最新のドラフトどおり、古いドラフトから文字順が入れ替わっています
古い仕様と文字順が入れ替わっていますのでご注意下さい

U+1F210 から、手 字 双 デ 二 多 解 天 交 映 無 料 前 後 再 新
U+1F220 から、初 終 生 販 声 吹 演 投 捕 一 三 遊 左 中 右 指
U+1F230 から、走 打

〔〕囲み文字は次の通りです。

U+1F240 から、本 三 二 安 点 打 盗 勝 負


この辺の文字は典拠がARIB STD-B24の記号類なので、テレビ関係、中でも野球関係が多く見受けられますね。





ofstream+flock

C++のofstreamは便利ですが、lock機能がありません。

fopenとか使うなら、flock(fileno(fp), LOCK_EX); とかやるところですが、ofstreamではそういった機能がない。bootstだとその辺がマシになるようなので、将来的にはC++0xに同等の機能が導入されるものと見込まれますが、今のC++ with STL環境では実現できない。
あとboostみたいに別途インストールが必要なものは汎用性が低くなるので使いたくない。


CGIまわりの処理を組んでいて、この辺で困ってしまったので、仕方がなくfileのstream処理部分だけを自作してみました。
std::endlとかまで使えるようにするにはbasic_ostreamを継承する必要があるようですが、そこまでやるのは面倒なので、既に出来上がった文字列を出力する機能のみを実装。


filestreamと言う名前のclassとして、次のように使う。

filestream fs;
if (fs.open("filename", "a"))
{
ostringstream os;
os << "hogehoge\n";
fs.lock();
fs << os.str();
fs.unlock();
}

内部ではfopenの処理になっているわけです。
operator<< で、引数に文字列を得て、それをfprintfするだけの単純処理です。
デストラクタでは念のためflockの解除と、そしてfcloseを実行します。

こんな感じで、既存のofstreamを使う処理を大きく変えずに、lock付きの出力が可能となりました。
皆様も一度お試し下さい。


IRG

ここのところ、文字コード界隈にはあまり大きな動きがありませんね。

IRGでは、IRGN1600draftまで番号が進んでおります。

まだファイルがアップロードされていませんが、CJK Ext. E 6.0 やら CJK Ext. E 6.1 やらといったものも番号が割り当てられているようで、ファイルの公開が期待されます。

今のところ、Ext. E関係で唯一見られるのは、
IRGN 1595 Further Discussion of Ext. E D Set characters
というファイルですね。