UNLとは?
UNLは情報や知識をコンピュータが処理することを可能にするためのコンピュータ用言語である。それは自然言語の機能を持つものとして設計されたものである。このようなUNLを用いて、自然言語によって表現しうる情報や知識をコンピュータ理解可能な形に表現できる。その結果として、コンピュータは、UNLを通じて相互に情報伝達することができ、UNLを用いた情報や知識を処理することができる。それゆえ、人々に、多言語による情報の提供、獲得および理解を行うためのコンピュータやインタネット上の言語基盤を与える。このような多言語情報はUNLシステムを用いて自然言語でアクセスできる。このようなUNLは、自然言語で表現しうる情報や知識を表現するコンピュータ用言語として、自然言語に対応するすべての要素を持つ。
UNL表現
UNLは意味ネットワークの形で情報や知識を表現する。UNLの意味ネットワークは有向グラフである。ノードはUWかハイパー・ノード(スコープとも一般に呼ばれる)からなり概念を表し、リンク(有向)は関係子で表現され関係を表す。概念は属性によって注釈できる。このような意味ネットワークはUNL表現或いはUNLグラフと呼ぶ。
UNL表現の一般記述形式は以下の通りである:
<relation>[:<scope-ID>] ( <from-node>, <to-node> )
<relation>に関係子を記述する。関係子の一覧は表2の通りである。 <scope-ID>にスコープIDを記述する。一つのスコープを構成するすべての二項関係には同じスコープIDが与えられる。この項目の記述は省略できる。 <from-node>と<to-node>にUWかスコープ・ノードを記述する。UWにはノードIDが付与される。スコープ・ノードは<scope-ID>のまでにセミコロンを置くことで記述される。
一つのUNL表現はこの二項関係の一つのリストからなる。
ユニバーサル・ワード(UW)
ユニバーサル・ワードは通常“UW”と略記される。UWはUNLの単語でUNLの語彙を構成する。このようなUWは概念を表すラベルであり、UNL表現を構成する統合かつ意味的ユニットである。UWセットの組み合わせは、互いに関係で結ばれかつ属性で注釈されて、文の意味を表現する。
UWの記述形式は以下の通りである:
<uw> =:: <headword>[<constraint list>]
<headword>は英語の単語、複合語、句もしくは文である。もしこの<headword>の意味がユニークであれば、それ自身がそのままUWとなる。多義であれば、特定の意味を表すための束縛が付加される。<headword>からなるUWのことを“Basic UW”と称する。
表1には英単語“state”から作られるUWの例である。
state(icl>abstract thing) state(icl>country) state(icl>government) state(icl>region) state(icl>governmental(mod<thing)) state(icl>official(mod<thing)) state(icl>fix(agt>thing,obj>thing)) state(icl>say(agt>thing,obj>thing)) |
表1 UWの例
state(icl>abstract thing) は人や事物をとりまく状態を表す。このUWはより一般的な概念として定義され、他の同義語、例えば“situation”や“condition”、の概念を定義するときに参照される。 state(icl>country) は国を表す。 state(icl>government) は(地方)政府を表す。 state(icl>region) は地方を表す。 state(icl>governmental(mod<thing)) は「政府の」を表す。 state(icl>official(mod<thing)) は「公式の」を表す。 state(icl>fix(agt>thing,obj>thing)) は「決める」を表す。 state(icl>say(agt>thing,obj>thing)) は「(公式に)述べる」を表す。
UWに関して詳しくは下記を参照されたい:http://www.undl.org/unlsys/unl/unl2005/UW.htm http://www.undl.org/unlsys/uwman2010/
マスター定義(MD)
UNLのUWは単独に存在していなく、UNLオントロジーのUWシステムを通して互いに連結されている。このようなUWを定義するため方法として、マスター定義(MD)が導入された。MDでは対象のUWが他のUWと持てるすべての関係を記述する。このようなMDは、ある概念およびそれを表現するラベル(UW)を定義するだけでなく,UNLオントロジーやUWシステムを構築する二項関係セットを与える。各MDには、兄弟UW(同じ英語から作られるUW)から意味や表現(UW)が区別できる最小限の二項関係セットが用いられる。
MDに関して詳しくは下記を参照されたい:http://www.undl.org/publications/UW and UNLKB.htm http://www.undl.org/unlsys/uwman2010/
関係子
UNLには、例えば‘agt’, ‘gol’, ‘obj’のような関係子は46個存在する。関係子はUNL表現の意味ネットワークを構築するためのUWやスコープのペアを繋げる。関係子はUNLグラフではリンクであり、UNL表現の有向二項関係においては関数である。このような関係子はあるUWやスコープに対して関係するUWやスコープの意味的役割を示す。
agt |
and |
aoj |
bas |
ben |
cag |
cao |
cnt |
cob |
con |
coo |
dur |
euq |
fmt |
frm |
gol |
icl |
ins |
int |
Iof |
man |
met |
mod |
nam |
obj |
opl |
or |
per |
plc |
Plf |
plt |
pof |
pos |
ptn |
pur |
qua |
rsn |
scn |
seq |
shd |
src |
tim |
tmf |
tmt |
to |
via |
|
|
|
|
表2 UNLの関係子
関係子に関して詳しくはhttp://www.undl.org/unlsys/unl/unl2005/relation.htmを参照されたい。
属性子
UNLの属性子は主に主観的な情報を表す。例えば、時間、様相、強調、焦点、話題、態度、気持ち、判断などが含まれる。また概念の特性である総称性(例えば)や特殊性、論理性なども属性子で表される。属性子はUWやスコープに付加して該当情報を明示する。
倫理性を表す |
@transitive,@symmetric,@identifiable,@disjointed |
時間を表す |
@future,@past,@present |
様相を表す |
@begin,@complete,@continue,@end,@progress,@state,… |
特性を表す |
@generic,@def,@indef,@not,@ordinal |
強調、焦点、話題を表す |
@emphasis,@entry,@focus,@topic,… |
態度を表す |
@affirmative,@imperative,@interrogative,@request,… |
気持ち、判断を表す |
@ability,@grant,@wish,@will,@obligation,@possible,@regret,… |
その他 |
@passive,@pl,@parenthesis,… |
表3 UNL属性子の例
属性子に関して詳しくは下記を参照されたい: http://www.undl.org/unlsys/unl/unl2005/attribute.htm
UNL表現例
表4には“I can hear a dog barking outside”のUNL表現の二項関係セットが示されている。図1にはそれをグラフで表現したものである。
{unl} agt(hear(icl>perceive(agt>person,obj>thing)):06.@ability.@entry, I(icl>person):00.@topic) obj(hear(icl>perceive(agt>person,obj>thing)):06.@ability.@entry, :01) agt:01(bark(agt>dog):0H.@progress.@entry, dog(icl>mammal):0D.@indef) plc:01(bark(agt>dog):0H.@progress.@entry, outside(icl>area):0P) {/unl} |
表4 UNL表現の二項関係セット例
表4のUNL表現では‘agt’, ‘obj’ と‘plc’は関係子である。‘I(icl>person)’, ‘hear(icl>perceive(agt>person,obj>thing))’, ‘dog(icl>mammal)’, ‘bark(agt>dog)’と‘outside(icl>area)’はUWである。‘@ability’, ‘@entry’, ‘@indef’, ‘@progress’と‘@topic’は属性子である。“a dog barking outside”の部分はスコープとして表現され、‘01’はこのスコープのIDである。関係子の後ろに同じスコープIDを持つ二項関係セットはそのスコープのUNL表現である。表4では、行4と5はスコープ’01’に含まれる二項関係である。UWの場所に現れるセミコロンに続くスコープID(例えば表4の行3にある‘:01’)の表現はスコープ・ノードという。スコープ・ノードは他のUWやスコープと関係づけるなど参照されるときに用いられる。

図1 UNLグラフ
UNLドキュメント
UNL表現はUNLドキュメント(文書)単位で表現される。一つのUNLドキュメントは一つのハイパー・ノードであると考え、UNLドキュメントとしてのハイパー・ノードは、ドキュメント内の文や段落間の意味ネットワークから構成される。一つの段落や文もまた一つのハイパー・ノードである。段落としてのハイパー・ノードは文間の意味ネットワークから構成され、文としてのハイパー・ノードはUW間の意味ネットワークから構成される。
UNLドキュメントのハイパー・ノードの意味ネットワークは二つの部分から構成される:ドキュメントに含まれる段落や文ハイパー・ノード列とそれらの段落や文のハイパー・ノード間の関係セットである。ハイパー・ノード列は関係子”nxt”によってリンクされる有向グラフであり、関係子”nxt”は段落や文の構成上の物理的な関係を示す。同様のように、段落のハイパー・ノードの意味ネットワークも二つの部分から構成される:段落に含まれる文や段落のハイパー・ノードの意味ネットワーク列とそれらの文や段落間の意味関係セットである。文のハイパー・ノードの意味ネットワークはUW間の意味関係列から構成される。意味ネットワークのハイパー・ノードやUWはすべて他の段落や文のハイパー・ノードやUWから参照することができる。
UNLドキュメントに関して詳しくは下記を参照されたい: http://www.undl.org/unlsys/unl/unl2005/expression.htm.
UWシステム
UNLのUWは単独に存在していなく、UNLオントロジーのUWシステムを通して互いに連結されている。UWシステムはUWの階層構造を示すもので、UW間の概念的包含或いは属性継承の関係性をもとに作られている。
UWシステムでは、‘Universal Word’をトップとして、すべてのUWは‘icl’ (subclass of)、‘iof’ (instance of)、と‘equ’ (equivalent to)で連結されている。UWシステムの階層構造は、属性継承と上位UWによる下位UWの代用を可能にするメカニズムを考慮して構築されている。これはすなわち、UWシステムでは、下位UWは上位UWの属性を継承することができ、上位UWは下位UWに代わってより一般的な概念(意味)を伝えることができる。属性継承と概念代用のメカニズムはすべてのUWにおいて'icl'、'iof'と'equ'について実現されている。
このために、もし上位UWの意味が下位UWの意味に近いものでなければ、上位UWによる下位UWの代用はあいまい性をもたらしてしまう問題が生じかねない。この問題を防ぐために、直上位UWはすべての上位UWの中で最も意味的に近いものでなければならない。言いかえれば、すべてのUWはかならず最も意味の近い上位UWの下に置かなければならない。
UWシステムでは複数の上位概念を持つことができ、その階層構造は格子構造を有するネットワークである。UWは異なる属性を持つ別々の上位UWに連結することでそれぞれの上位UWからそれぞれの属性を継承することができる。
図2にはUWシステムの上層階層の一部を示している。UWシステムのUWは四つのグループに分かれる。各グループは‘icl’、‘iof’と‘equ’による二項関係から構成される。赤い矢印は、最も上位のUWの間に持てる意味関係の例を示している。
図2 UWシステムの上層階層一部
UNLオントロジー
UNLオントロジーは http://www.undl.org/unlsys/uw/UNLOntology.htmで見ることができる。
UNLオントロジーはUW間のあらゆる二項関係からなる意味ネットワークである。それはUWシステム、UW間の可能な意味共起関係、およびUWの概念記述から構成される。このようなUNLオントロジーは概念に関する言語的および意味的知識を提供する。それらの知識は言語理解および推論に不可欠であると考える。
1)概念に関する言語的知識
UWは概念を表現するラベルである。UWの概念はUNLオントロジーで他のUWと持てる意味関係のセットで定義される。各概念が持つこの可能な関係セットはその概念の振る舞いを定める。この振る舞いは概念の属性となる。なぜなら、可能な関係セットはその概念の特徴となり、その概念が含まれる文の意味構造を理解するための必要情報を与える。
UNLオントロジーでは、すべてのUW間の可能な意味共起関係例えば'agt'や'obj'などは、UWシステムの属性継承の特性を利用して、UWシステムの階層構造において、それぞれの関係を持てる最も一般的な(上位)概念をもつUWの間に定義される。そうすることで下位のUWがそれを継承できるだけでなく、UNLオントロジーを構築するための二項関係記述の数を減らすこともできる。
UNLオントロジーはUWに関する言語的および意味的知識を提供する。UNLシステムでは、このUNLオントロジーは文解析においてあいまい性の解消や文生成において未知概念(UW)を代用可能かより一般的な概念を検索するのに用いられる。このUNLオントロジーはUNL表現の検証にも用いられる。
2)概念に関する意味的知識
ある概念が定義するセットやクラスに属すための必要かつ十分な条件は推論になくてはならない知識である。この知識は概念に関する意味的知識と考える。UNLオントロジーでは、すべてのUWには概念定義が与えられる。UWの概念定義はその概念の内包的な定義であり、その概念に必須な属性を特定するいくつかの二項関係セットから構成される。例えば“bachelor”の概念定義は“unmarried man”のUNL表現からなり、“author”の概念定義は“a person who writes books or a person who wrote a particular book”のUNL表現からなる。
概念定義はUNL表現で与えられる。概念定義のUNL表現はハイパー・ノードとして対象の概念と連結される。概念定義の目的は、その概念を特定できるその他の概念との関連知識を提供することである。このような知識は情報抽出において推論になくてはならない。
図3のハイライト部分はUNLオントロジーの構造を示している。丸はクラス概念のUWを表し、四角形はインスタンス概念UWを表す。すべてのクラス概念UWはそれぞれその上位UWと‘icl’で連結される。インスタンス概念UWは‘iof’でクラス概念UWと連結されるか‘pof’で他のインスタンス概念UWと連結される。すべてのクラス概念UWにはそれぞれ概念定義が与えられる。またUNLエンサイクロペディアとして、すべてのUWにはそれに関する知識がUNL表現で与えられることになる。例えば、本のタイトルはインスタンス概念UWとして’book(icl>document)’に’iof’で連結され、その内容は本のタイトルを表すインスタンス概念UWに’cnt’で連結される。
UNLシステムでは、知識は三つのレベルにわけて考える。一番目のレベル(図3ライトブルーの部分)は可能な意味共起関係とUWシステムによって与えられる言語的知識である。二番目のレベル(図3濃いブルーの部分)は概念定義によって与えられる意味的知識である。そして三番目のレベルは本やホームページなどによって与えられる実世界知識である。
UNLオントロジーに関して詳しくは下記を参照されたい: http://www.undl.org/unlsys/unl/unl2010/UNL Ontology.htm.
図3 UNLオントロジー
UNLの目標
自然言語の代わりに、情報や知識をUNLで表現されることは、インタネットを通して多言語情報を提供、獲得あるいは理解するための共通な言語基盤(CLI)を人々に提供することを可能にするだけでなく、コンピュータに処理や理解可能な形で知識を与えることができる。このような知識基盤(KI)コンピュータが推論などのスマート処理を行うことを可能にする。
情報や知識のUNL化はいわば一つの研究開発の運動である。UNL運動の目的は、人々が言葉の障壁なしで平等に利用でき、コンピュータがスタート処理できる情報や知識の共通な言語基盤を提供することである。
UNLの開発
UNL運動に含まれる研究開発は、誰もが利用できる情報や知識のUNL化、UNL化された情報や知識を誰もが理解できるようにするための自然言語へのディコンバージョン、誰もがUNLで提供された情報や知識をアクセスや入手を可能にするためのツールやアプリケーションの開発が含まれる。
UNL運動に参加する方法は二つある:UNLソサエティ(UNLS)に加入するかUNLセンター(UNLC)のメンバーとして働くかである。UNLソサエティはUNL関連アプリケーションや言語モジュール(ランゲージ・サーバー)の研究開発に興味を持つ組織や個人からなるグループである。UNLソサエティのメンバーはUNLセンターが提供するリソースを利用でき、かつUNLセンターからの技術指導を受けることができる。UNLセンターのメンバーはUNLやUNLシステムの機能を高め、さまざまな領域の情報や知識をUNL化できるようにし、より多くの自然言語がUNLとリンクできるようにすることが務めである。
UNLの歴史
UNLは初めて世の中に公開されたのは1999年11月である。UNLの公開は本”A Gift for a Millennium”の出版と同時に、東京にある国連大学(UNU)高等研究所(IAS)のサポートで行われた。 後のUNLブックの先祖とされるこの最初の本では、UNLの基本的考え方と初版の仕様、UNLシステムの機能とその基本的構成が示された。2005年に出版された第2版のUNLブックではこれらが高められ、かつUNLの実用とシステムの運営なども盛り込まれた。
UNLは野心的なイニシアチブであり、国連大学高等研究所のプログラムとして1996年に発足された。発足当初から、計算機科学や言語学分野の専門家から構成されるグローバルなスケールの研究開発チームのネットワークは、UNLシステムにかかわるソフトウェアや言語リソースの開発に取り込んできた。UNLセンターの指導のもとで、世界中の大学学部と研究機関はそれぞれのネイティブ言語のためのUNLランゲージ・センター(LC)を設立してきた。
最初の十年間の研究開発において、重要かつ画期的な成果を得ることができた。UNLシステムの総合的構成として、UNLを機能させ、そのリソースを作るのに必要な基本ツールやソフトウェアが開発された。さまざまなネイティブ言語ばかりでなく多量なUNLの言語リソースは過去何年間において蓄積されてきた。さらに、これらの言語リソースを広げるための技術基盤が確立されつつあり、それゆえ、これからUNLシステムにより多くの自然言語がかかわることを促進できる。
近年では、UNLに基づくアプリケーションが開発されつつある。現状のUNLアプリケーションの主な目的は、UNLテクノロジーや基盤を用いたスマート・情報検索を提供し、人々がこのようなUNL基盤を創造あるいは改善する手立てを助け、UNL化された情報や知識、あるいは技術の使用を促進する。いくつかのUNLアプリケーションは既にUNLウェブサイト(www.undl.org)で経験することができる。
2001年1月、国連大学はUNLプログラムの開発や管理を責任とする独立組織「UNDLファウンデーション」を設立した。UNDLファウンデーションはスイスのジュネーブに本拠地を置く非営利国際組織で、国連大学高等研究所からUNLプログラムを履行し、そのミッションを遂行する権限を受けついた。
UNL開発は長期にわたる努力が必要で、すべてのネイティブ言語からの幅広い参加を歓迎する。UNL開発の良さは、モジュール毎にでき参加自由である。人々はチームとしても個人としても参加できる。開発はすべてのネイティブ言語が参加できるように設計されている。UNLの恩恵を受けるためには、言語リソースつまりネイティブ言語の辞書やルールを開発する必要がある。このために必要なマニュアルやツールはUNLブックやUNLウエブサイト(www.undl.org)で提供されている。
UNLの所有権
UNLの所有権は国連にあり、つまり、UNLはすべての人々の財産である。国連の名前のもとで二つの特許申請は行われた。これらの特許は2002年に特許協力条約(PCT)手続きを無事に通過した。のちに、二つの特許ともアメリカで2004年と2006年に認可され(特許番号6,704,700と7,107,206)、そしてうちの一つは中国で2006年に(特許番号ZL00817887.9)と日本で2009年に(特許番号 4377096)認可された。国連とUNDLファウンデーションの間に同意書が交わされ、その中ではUNDLファウンデーションはすべての民族の財産としてのUNLを開発、促進、保護し続ける責任と権利があると明記されている。
取得特許(4件)
出願国 |
アメリカ |
特許番号 |
6704700 |
取得日 |
2004年3月9日 |
特許権所有者 |
国際連合、内田裕士、朱 美英 |
発明者 |
内田裕士、朱 美英 |
発明名称 |
System for creating expression in universal language, and recorded medium on which translation rules used for this system are recorded |
出願国 |
アメリカ |
特許番号 |
7107206 |
取得日 |
2006年9月12日 |
特許権所有者 |
国際連合、内田裕士、朱 美英 |
発明者 |
内田裕士、朱 美英 |
発明名称 |
Language conversion system |
出願国 |
中国 |
特許番号 |
ZL00817887.9 |
取得日 |
2006年8月23日 |
特許権所有者 |
国際連合、内田裕士、朱 美英 |
発明者 |
内田裕士、朱 美英 |
発明名称 |
語言翻訳系統 |
出願国 |
日本 |
特許番号 |
4377096 |
取得日 |
2009年9月18日 |
特許権所有者 |
国際連合、内田裕士、朱 美英 |
発明者 |
内田裕士、朱 美英 |
発明名称 |
普遍言語による表現を生成するシステム |
|
|