TRONコードと ruby 1.9 M17n

ソースコードは troncode.trans.txt です。

ネタを使いまわしした ruby 1.9 でオレオレ文字コードを使う法も参考になるかもしれません。

岸本　誠
BTRON Club 会員発表資料

はじめに

ruby バージョン 1.9
文字コードに依存しない多言語化
TRONコードを対応させる実験

文字コードに関する基礎知識

文字とは何か？

この問題には踏み込まない（余談だが現在策定中の Ruby の標準仕様では「手続き」という概念が現れるがその定義はしていない）

符号化文字集合（CCS）、文字符号化方式（CES）、エンコーディング

符号化文字集合（Coded Character Set）

JIS X 0208 とか GT とか
文字に番号（コードポイント等という）を振った集合

文字符号化方式（Character Encoding Scheme）

EUC とか
符号化文字集合における番号から、どのようにバイト列に対応させるか、という方法のとり決め
Unicode では「文字符号化形式」（Character Encoding Form）と「文字符号化スキーム」の二段階

例にあげた EUC に「日本語」が付いてないところに注意。

エンコーディング（「コードセット」とも）

日本語EUC とか ISO-2022-JP とか
TRONコードもこれの一種と考えられる
バイト列による文字列の表現において、どのような符号化文字集合と文字符号化方式の組合わせにより、バイト列を組立てるか、という方法のとり決め

ruby 1.9 ではエンコーディングと呼んでいる。文献によっては [塩崎2003]「コードセット」と呼んでいる。（Unicode では文字符号化方式との区別がないなど混乱がある）

まとめ

TRONコードの特徴

2 バイト固定長
スクリプト指定コードおよび現在は予約とされている言語指定コードで多文字（将来的には 4 層構造による多言語？）に対応
CJK の分離収録、GT、アーヴ文字などが収録

Ruby

まつもとゆきひろ氏により設計・開発されているオブジェクト指向スクリプティング言語で、1996 年 12 月に ruby 1.0 がリリース
プログラムが操作する値（整数や nil なども）全てがオブジェクト
クラス定義などが動的、など

@1to100pen 氏による超漢字版もある（1.6ですが）
( http://hpcgi2.nifty.com/1to100pen/wiki/wiki.cgi?p=Btron )

バージョン 1.9 では eval が VM モデルに一新され、また、これまで、基本的にバイト列でしかなかった文字列オブジェクトが CSI 方式で多言語に対応した。

M17n

M17n (Multilingualization) = 多言語化。国際化 (Internationalization, I18n) の部分集合。この <文字><文字数><文字> という略語法は DEC 発、というトリビアがある。

Ruby の M17n

参考資料

[松本2008] Ruby における実用的な多言語処理の実装（第71回情報処理学会プログラミング研究発表会の 5 ）
[成瀬2009a] http://jp.rubyist.net/magazine/?0025-Ruby19_m17
[成瀬2008] http://naruse.biz/pub/20080621%20RubyKaigi%20RubyM17N.txt
[Dürst2008] http://www.sw.it.aoyama.ac.jp/2008/pub/RubyKaigiM17N.html
[るりま] http://doc.ruby-lang.org/ja/1.9.2/doc/spec=2fm17n.html
[成瀬2009b] 第11回Asakusa.rb議事録

肝

文字列がエンコーディングの情報を持つ
処理系や組込みライブラリは特定のエンコーディング（コードセット）に依存しない = CSI (Code Set Independent)
←→ Java など

文字クラス、も検討されたが、どうせバイト列を持たなきゃならないので、だったら文字列でよい、ということになった。（参. CHISE プロジェクト）

ということになっているのだが

Encoding.default_internal を設定すると、ファイルから読み込んでデフォルトでこのエンコードに変換する、という設定ができる。

本来はアプリケーションのプログラマが考慮のうえ設定するはずのものだが、Ruby on Rails は require（ロード）するとこれを勝手に UTF-8 に設定してしまう！

（参考 http://route477.net/d/?date=20110119 ）

TRONコード対応の実際

エンコーディングの追加については「サポートの要望を出すのが原則」となっている。しかし、しかるべき関数を呼び出す拡張ライブラリを作れば登録できてしまう。

ステートフル

バイト列中の、文字の切れ目をまたいで情報を保存する必要がある
TRONコード = スクリプト指定コードの情報を保存する必要がある
ほかに ISO-2022-JP など

ダミーエンコーディング

ステートフルなエンコーディング
バイト列としてしか扱えない
Ruby スクリプトの記述には使えない、などの制限
（技術的にしょうがない）

登録は簡単
拡張ライブラリの Init_<拡張ライブラリ名>() という関数で、rb_define_dummy_encoding("TADTextBE"); のように関数を呼ぶだけ

以下のようなスクリプトが動く。

require "troncode"
open("sample.tad", "rb:TADTextBE") {|file|
        s = file.read
}

ステートレス化

たとえば stateless-ISO-2022-JP
超漢字開発環境のワイドTRON文字型（WTC）を参考に

Encode

実体は鬼車という正規表現ライブラリのマルチバイト対応のためのデータ構造

構造体

static OnigEncodingType stateless_TADTextBE = {
    &stateless_TADTextBE_mbc_enc_len,
    "stateless-TADTextBE",  /* name */
    4,  /* max byte length */
    4,  /* min byte length */
    &stateless_TADTextBE_is_mbc_newline,
    &stateless_TADTextBE_mbc_to_code,
    &stateless_TADTextBE_code_to_mbclen,
    &stateless_TADTextBE_code_to_mbc,
    &stateless_TADTextBE_mbc_case_fold,
    &stateless_TADTextBE_apply_all_case_fold,
    &stateless_TADTextBE_get_case_fold_codes_by_str,
    &stateless_TADTextBE_property_name_to_ctype,
    &stateless_TADTextBE_is_code_ctype,
    &stateless_TADTextBE_get_ctype_code_range,
    &stateless_TADTextBE_left_adjust_char_head,
    &stateless_TADTextBE_is_allowed_reverse_match
};

登録

rb_enc_register("stateless-TADTextBE", &stateless_TADTextBE);

トランスコード

エンコーディング変換
ruby 側でフレームワークを用意している
テンプレートプログラミングが必要

以下、通常の TRONコードから、ステートレスTRONコードに変換するトランスコードを作るプログラム（抜粋）

<%
  map = {
    "00{00-20}" => :func_so,  # Control
    "{21-7e}{21-7e}" => :func_so,  # A Zone
    "{80-fd}{21-7e}" => :func_so,  # B Zone
    "{21-7e}{80-fd}" => :func_so,  # C Zone
    "{80-fd}{80-fd}" => :func_so,  # D Zone
    "fe{21-7e,80-fd}" => :func_so,  # Script/Language Change
    "fefe" => :func_si,  # Script/Language Escape
  }
  transcode_generate_node(ActionMap.parse(map), "TADTextBE_decoder")

  map = {
    "{00,fe}{21-7e,80-fd}" => :func_so,  # Script/Language Change
  }
  transcode_generate_node(ActionMap.parse(map), "TADTextBE_decoder_lang_escape")
%>

<%= transcode_generated_code %>

static const rb_transcoder
rb_TADTextBE_decoder = {
    "TADTextBE", "stateless-TADTextBE", TADTextBE_decoder,
    TRANSCODE_TABLE_INFO,
    2, /* input_unit_length */
    4, /* max_input */
    4, /* max_output */
    incompat_converter, /* asciicompat_type */
    2, tadtext_init, tadtext_init, /* state_size, state_init, state_fini */
    NULL, &fun_si_TADTextBE_decoder, NULL, &fun_so_TADTextBE_decoder
};

構造体 rb_transcoder は今のところソースツリーの中にしかない（インストールされない）ヘッダファイルの中にあるので、コンパイルするにはソースツリーからコピーする必要がある。テンプレートから C コードを生成する ruby スクリプトもソースツリー中にある。

ASCII コンパチブル

バイト列中の任意の文字の切れ目に、ASCII の文字列を挟み込んでも文字列として壊れないかどうか
ステートフル → ASCII インコンパチブル
UTF-32 のような多バイト固定長 → ASCII インコンパチブル

現在のところ、意図的に、トランスコーダーは変換元と変換先の少なくとも片方が ASCII コンパチブルとされている（前出の TRONコードのトランスコーダーはそうなっていないものを無理矢理作っている）。内部的に 2 段階の変換になるエンコーディング変換は透過的にできるので、asciicompat-TRON と、fixed-TRON の 2 種類の内部エンコーディングを作ったうえでまとめて変換する、ということは問題なくできる（はずである）。

その他問題点など

「TRONコード」には明確な定義がない（仕様中の TC[] がそれと言えるか）
管理情報セグメントの付いていない TAD データを存在させることの問題
名前（名前重要）。ライブラリ名の troncode や、勝手に TADTextBE とか考えてしまったわけだがこれが適当か
TRONコードの制御コードはどの面にも同じものがあると考えてよいのか、それとも制御コードの前にはシステムスクリプトに戻すべきか ← 発表後にコメントをいただいた。制御コードは元々 1 バイト系コード（現在の TRON コードにはない）扱いで、どの面にもあるものと考えてよい
WTC において制御コードのスクリプト指定は 0x0000 となっているがそれをやるべきか（試作物ではやっていない）。固定長コードで ASCII 互換用に 0x00000000 〜 0x0000007f を使うことにすると、TRONコード由来の制御コードと ASCII 由来の制御コードがかぶる ← 発表後にコメントをいただいた。「『予約』である」
0xfe7f という言語指定はありうるか？　またそれ以降の WTC へのマッピングはどうすべきか
スクリプト/言語指定の 0xfefe は任意の長さまで伸びることになっているがどこまで対応すべきか（試作物では 1 個まで対応。任意長は少々面倒） ← コメント。まぁとりあえずは 1 段でもいいのではないか
（発表後追加）文字列の大小関係の定義をどうするか？　素直に並べると A ゾーンと C ゾーン、B ゾーンと D ゾーンがごっちゃになる。今のところ Ruby にはエンコードによって大小関係の定義を変える方法はないので、ごっちゃになるしかない

まとめ

ruby 1.9 では、他でよく見られる UCS 正規化ではなく、CSI 方式での M17n 化がおこなわれた
TRONコードを、対応エンコーディングのひとつとして追加することが可能であり、実際に追加する実験をおこなった
TAD のサブセットの定義がない点をはじめとして、いくつかの問題点を確認した

文献まとめ

[塩崎2003] Citrus iconv の実装 iconv-article-rev2.pdf （ http://citrus.bsdclub.org/doc/ にあります）
[松本2008] Ruby における実用的な多言語処理の実装（第71回情報処理学会プログラミング研究発表会の 5 ）
[成瀬2009a] http://jp.rubyist.net/magazine/?0025-Ruby19_m17
[成瀬2008] http://naruse.biz/pub/20080621%20RubyKaigi%20RubyM17N.txt
[Dürst2008] http://www.sw.it.aoyama.ac.jp/2008/pub/RubyKaigiM17N.html
[るりま] http://doc.ruby-lang.org/ja/1.9.2/doc/spec=2fm17n.html
[成瀬2009b] 第11回Asakusa.rb議事録