#############################################################
#
# どこいつ形式フリー辞書 "saika" ver 0.10
#
# 2003/01/05
#############################################################
■目次
1、本辞書について
2、辞書内訳
3、利用規定&権利関係
4、免責事項
■1、本辞書について
本辞書は、自然文生成用の単語辞書です。フリーで御使用頂けます。
辞書のフォーマットは、フリーソフト「伺か」(http://usada.sakura.vg/)用の
AIモジュール「華和梨(かわり)」(http://kawari.sourceforge.net/)の仕様に
準拠しています。
■2、辞書内訳
本辞書は、以下のファイル群で構成されます。
●文法分類辞書(_dict_grammar.txt)
名詞・副詞・形容詞、といった日本語文法に基づき分類した語句群から構成される辞書です。
ただし、細分類につきましては私が勝手に定義したものであり、いわゆる正式な日本語文法とは
少し違っておりますのでご注意ください。
●『いつだれがどこでどうした』辞書(_itudoko.txt)
いつ・どこで・どんな・だれが・どうした(どうする)、の5項目で構成される辞書です。
●食関係辞書(_food.txt)
食べ物関係。シンプル。
●『神倉かおる&神倉キノ』用辞書(_dict_kaoru.txt)
私の作っている「伺か」用ゴースト『神倉かおる&神倉キノ』用の辞書です。
全然使ってない項目もあるけれど。あんまり再利用性は無いと思うので参考程度に
見てみてください。
■3、利用規定&権利関係
この辞書に関する権利は、私こと pipe_vqf が有します。一応。
ややこしいことはあまりごちゃごちゃ言いたく無いので、基本的には完全にフリーとします。
このまま使って頂いても構いませんし、使いやすいように再構成したりして貰っても無問題です。
辞書の再配布に付いても特に制限を設けません。本辞書を使用したアプリケーションなどを
無償で配布しようが有償で配布しようがお好きなように。
ただし、常識的おやくそく事項として、以下の行為は禁止します。
・本辞書単体を、有償で再配布する。
・本辞書を、権利者名を変えて再配布する。
やくそくだョ。
また、本辞書に大幅な単語追加を行った場合、権利云々はアナタのモンとします。
大幅、って言うと曖昧でしょうから・・・大体2倍ぐらいが基準ですかね。
例えば、
●漬物 : 漬け物, 梅干し, 粕漬け, 塩辛, 佃煮, キムチ, 浅漬け
という項目がありますが、この項目に、漬物関係の単語をあと7個程度追加すれば
それはアナタが自分で作り上げた項目ということになります。正々堂々胸張って
漬物通を自称して下さい。
■4、免責事項
本辞書の利用に関する以下の項に対して、私こと pipe_vqf はその責を免れるものとします。
・本辞書の内容に誤りがあり損害を被った。
・本辞書の食べすぎで太った。
・本辞書で猫を乾かしたら猫が天使になって空の彼方のなお遠く。
・本辞書を一日5分見るだけで、諦めていた英語力がメキメキUP!
・海と空と光がまぶしい。わたしが輝く夏が来た。
ZXF02265@nifty.ne.jp
http://www.geocities.co.jp/SiliconValley-Cupertino/4430/
pipe_vqf
################################################################################
■おまけ(詳細情報)
▼文法分類辞書
文法分類辞書は、主に文法の観点から編集を行いました。といっても、従来の
国文法は文構造を "分解する" ための文法でありそのままでは文章の "構成" 用途には
使えなかったので、細分類に関しては私自身が便宜的に定義しました。学術的には
端にも棒にも掛からないものなのでご注意ください。
いろいろ試してみたのですが、特にサ変接続の名詞に関しては最低限これぐらいは
分類しないと使いどころが無いみたいです。
厳密には、文章を構成する際における単語一つ一つの役割はどれ一つとして同じでは
無いので、単語をそれぞれのカテゴリーに分類して纏めるのではなく、普通の国語辞典の
ように各単語に複数の属性値を登録していくのが理想なんですが、まあそんな無理を
言っても馬に蹴られて死ぬだけですので。ここではこれで妥協することにします。
▼いつだれがどこでどうした辞書
まんまですね。
ただ、"どうした" のところは特殊です。"どうした" のカテゴリーは、連用形の
"どうし(た)" と、終止・連体形の "どうする" の二つによって構成されます。
サ変接続の名詞と違い、動詞には幾つかの異なる種類の活用(五段、上一段、下一段)が
あり、さらに音便(イ音便、促音便、撥音便)などもあるため一筋縄ではいきません。
これに対する解決策の一つとして、三毛猫Mic氏の偽AIシステム「Psyche System :
die Stufe erst」 http://www.bpel.ics.tut.ac.jp/~kitahara/Mic/etwas/etwas.html
のように、システムレベルでのサポートが成されている偽AIシステムを使うという
方法があります。
が、今回は、対象を絞ることにより楽をできないかどうかと思い立ち、"どうし(た)"
"どうする" だけでの文章生成を試みました。辞書の記述性が上がったかわりに文章作成の
自由度が下がりましたが、許容範囲内のトレードオフだと思います。仮定形や命令形が
使えないのはやはり多少不便ですが、これらを追加するとこの方式は辞書の記述・管理に
破綻をきたすことでしょう。
あと、実際に自分で使ってみて、"いつ" を使う機会が全く無いのはなんかの罠ですか。
▼単語の面白さと汎用性とについて
一般的に、短い単語ほど意味範囲が広くて汎用性があり、特殊な単語や補足表現を
入れた単語はそれ単体で意味的に面白くなりますが適用可能な範囲が狭くなり汎用性が
失われがちになります。汎用性のある単語ばかりを組み合わせて文章を生成しても大抵は
なんの面白みの無い文章しかできませんし、逆に特殊な単語ばかりを組み合わせて文章を
生成すると意味の通じない文章や修飾過多でクドすぎる文書が次々と生成される恐れが
あります。そのへんのサジ加減が悩ましいところです。
一部の単語は、その中にすでに対象とする目的語を含んでいる場合があります。例えば、
"通学" という単語が取ることのできる目的語は、"小学校" "大学" "セミナースクール" 等、
ごく一部の単語に限られます。このような単語は極めて汎用性が低く、辞書の汎用的な
カテゴリに登録すべきでは無いと思います。
▼自然言語処理を行うAIの発展について
SF等では、ロボットは人語を解し会話を行うことができるのが当然とされます。
その上で、データの検索能力が劣っていたり、動きが鈍かったりを根拠として
性能の悪いポンコツロボット扱いされますが、とんでもないことです。
例えば、以下の2文
「空飛ぶ豚を見た」
「空飛ぶ夢を見た」
この2文は、表面的な文法構造はまったく同じです。しかし、前者において空を飛ぶのは
豚ですが、後者においては違いますね。
我々人間は疑問を抱くヒマも無く無意識のうちに瞬時に、この2文の意味をそれぞれ正しく
理解することができます。しかし、これをAIにやらせようと思い立ったとき、我々は
どれだけの時間頭を悩めた後に開放されるでしょうか?