UDSとは?
UDSはUNL Development Setの略称で、自然言語とUNLの相互変換を行うモジュールを開発するためのUNLシステムのツールセットである。それにはデコンバーター、エンコンバーター、辞書ビルダー、その仕様書とマニュアルが含まれる。これらのツールに関して詳しくはUNLシステムで示されている。
UDSを使うには?
UDSを使うには下記の同意書にサインする必要がある。
"AGREEMENT TO ENTER THE UNL SOCIETY"
"UNL DEVELOPMENT SET LICENSE OF AGREEMENT "
UNLソサエティに関して詳しくはこちらを参照されたい。
デコンバージョンモジュールを開発するには?
UNLセンターが提供するデコンバーターを使ってランゲージデコンバージョンモジュールを開発するには、対象言語の単語辞書とデコンバージョンルールを開発する必要がある。単語辞書には、デコンバーターの入力であるUNL表現に含まれるUWに対応する対象言語の単語と、その単語の文法属性が含まれる。デコンバージョンルールはUNL表現を対象言語の文に変換するプロセスのオペレーションを記述する。デコンバーター、デコンバージョンルール、および単語辞書に関する詳しい情報は、デコンバーターの仕様書と単語辞書ビルダーのマニュアルに記載されている。UDSに含まれるすべてのツール、仕様書、マニュアルはここでダウンロードできる。
下記の説明では、d.txtには英語単語辞書のエントリーの例を示す。elgexam.txtには英語デコンバージョンルールセットの例を示す。これらの辞書エントリーとルールを使ってUNL表現の例example.unlから英語文が生成できる。
デコンバージョンモジュールを開発するには次の手順に沿って行うことができる。
ステップ1
辞書データを用意する
UNL表現に含まれるUWの意味を表す、ターゲット言語の単語の辞書エントリーのテキストデータを用意する。また必要に応じて機能語(接辞や語尾など)の辞書エントリーも用意する。単語辞書のエントリーのテキストデータの記述形式は単語辞書ビルダーのマニュアルに記載されている。
ステップ2
辞書データを変換する
単語辞書エントリーのテキストデータをDicBldを使ってIBAM形式に変換する。
DicBldL.exeは一バイトコード言語の辞書データを変換するのに使う。
DicBldC.exeは二バイトコード言語の辞書データを変換するのに使う。
DicBldの使用法はマニュアルに記載されている。d.dicとd.pixはDicBldL.exeを使ってd.txtから作られたIBAM形式辞書ファイルである。
ステップ3
デコンバージョンルールを書く
デコンバージョンルールを書くのに必要な知識や情報はデコンバーターの仕様書に記載されている。elgexam.txtは英語デコンバージョンルールの例で、それを使ってexample.unlを英語文に変換することができる。
ステップ4
デコンバートする
DeCoLバージョンはUNL表現を一バイトコード言語への変換を行うのに使う。
DeCoCバージョンはUNL表現を二バイトコード言語への変換を行うのに使う。
example_decoe.txtは上記辞書とルールを使ってexample.unlから得られたデコンバージョンの結果(トレース付き)である。
デコンバーターの使用法は仕様書に記載されている。
ステップ5
結果をチェックする
デコンバーターは詳細なトレース情報を出力することができる。もし結果に間違いがあったら、その原因をトレースをチェックすることによって発見することができる。どんな情報がトレースに含まれるかはデコンバーターの仕様書に記載されている。
エンコンバージョンモジュールを開発するには?
UNLセンターが提供するエンコンバーターを使ってランゲージエンコンバージョンモジュールを開発するには、対象言語の単語辞書とエンコンバージョンルールを開発する必要がある。単語辞書には、対象言語の入力文に含まれる単語に対応するUWと、その単語の文法属性が含まれる。エンコンバージョンルールは対象言語の文をUNL表現に変換するプロセスのオペレーションを記述する。エンコンバーター、エンコンバージョンルール、および単語辞書に関する詳しい情報は、エンコンバーターの仕様書と単語辞書ビルダーのマニュアルに記載されている。UDSに含まれるすべてのツール、仕様書、マニュアルはここでダウンロードできる。
エンコンバージョンモジュールを開発するには次の手順に沿って行うことができる。
ステップ1
辞書データを用意する
入力文に含まれるすべての単語の辞書エントリーのテキストデータを用意する。自立語にはかならずその意味を表すUWと対応させなければならない。機能語(付属語)にはUWを対応させる必要はない。単語辞書のエントリーのテキストデータの記述形式は単語辞書ビルダーのマニュアルに記載されている。
eng.txtはエンコンバーターの入力となる英語文例である。
d.txtは上記英語文例に含まれる単語の単語辞書エントリーのテキストデータである。
ステップ2
辞書データを変換する
単語辞書エントリーのテキストデータをDicBldを使ってIBAM形式に変換する。
DicBldL.exeは一バイトコード言語の辞書データを変換するのに使う。
DicBldC.exeは二バイトコード言語の辞書データを変換するのに使う。
DicBldの使用法はマニュアルに記載されている。d.dicとd.pixはDicBldL.exeを使ってd.txtから作られたIBAM形式辞書ファイルである。
ステップ3
エンコンバージョンルールを書く
エンコンバージョンルールを書くのに必要な知識や情報はエンコンバーターの仕様書に記載されている。elaexam.txtは英語エンコンバージョンルールの例で、それを使ってeng.txtをUNL表現に変換することができる。
ステップ4
エンコンバートする
EnCoLバージョンは一バイトコード言語文をUNL表現への変換を行うのに使う。
EnCoCバージョンは二バイトコード言語文をUNL表現への変換を行うのに使う。
eng.unlは上記辞書とルールを使ってeng.txtから得られたエンコンバージョンの結果(トレースとUNL表現)である。
エンコンバーターの使用法は仕様書に記載されている。
ステップ5
結果をチェックする
エンコンバーターは詳細なトレース情報を出力することができる。もし結果に間違いがあったら、その原因をトレースをチェックすることによって発見することができる。どんな情報がトレースに含まれるかはエンコンバーターの仕様書に記載されている。
ダウンロード
デコンバーター、エンコンバーターと単語辞書ビルダーにはそれぞれCとLの二種類のバージョンが存在する。Cバージョンは二バイトコード言語、例えば中国語(GBコード)、韓国語(KISコード)、タイ語などを処理するために開発された。Lバージョンは一バイトコード(ASCIIコード)言語、例えばアラブ語、ラテン語、ヒンディー語などを処理するために開発された。
デコンバーター |
| |
Version 2006 C |
DOWNLOAD |
Version 2006 L |
DOWNLOAD |
| |
仕様書 |
DOWNLOAD |
| |
エンコンバーター |
| |
Version 3.3 C |
DOWNLOAD |
Version 3.3 L |
DOWNLOAD |
| |
仕様書 |
DOWNLOAD |
| |
単語辞書ビルダー |
| |
DicBldC |
DOWNLOAD |
DicBldL |
DOWNLOAD |
| |
マニュアル |
DOWNLOAD |
| |
|