手法の概要など、詳しくは各論文の概要、もし くは各国際会議の概要をご覧ください。この ページは、私がこれまでにやってきた、もしくは現在行なっている主な研究内 容を分類整理すると共に、各テーマの裏に潜む研究の「思想」を簡単に紹介す るものです。
- Sandglass: 換言を基軸とした音声翻訳(2000年〜)
中日/日中翻訳を実現例にした音声翻訳機構の提案を行ない、現在実装を進 めている。提案モデルの特徴は以下の通り。
詳しくはこちら。
- 音声翻訳である。すなわち、入力が音声認識結果であることを考慮に入 れている。
- 多言語翻訳を視野に入れた設計である。すなわち、対象言語が英語でな く、時間的金銭的に余裕のない状況下において現実的な機械翻訳モデルであ る。
- 換言処理(言い換え、パラフレーズ)を基軸としている。換言技術は機械 翻訳のみならず、ほとんどすべての自然言語処理において転用可能な技術で ある。
- 換言処理(言い換え、パラフレーズ) (1999年〜)
これ以上の質の高い要約のためには単言語での表現変換技術の進展が 必要であることを主張し、連体修飾部の換言処理を提案した。なお、 現在は要約処理の一部であるかのように認識されている換言処理(言い 換え、パラフレーズ)であるが、私は自然言語処理の様々なタスクにお いて今後ますます重要になる基礎技術であると認識している。いずれ は換言処理に寄与する言語資源(コーパス、言い換え規則)を整備しな いといけないし、また形態素解析のように誰でも自由に使えるようツー ル化すべきだろう。
- 中国語処理(1997年〜)
上記項目に関連して、中国語に関係したコーパスの収集、辞書の作成、 品詞体系の検討、その他形態素解析など基本的な言語処理環境の整備 を行なっている。
日本で英語以外の外国語処理を対象にしていると、(例えば中国語だと) 漢字が出てくるだけで喜んでもらえるか、自分には全く関係のないこ とと無関心かどちらかの場合がほとんどで、どちらにしても苦労して いる部分が報われないのが悲しい。
- (日本語)自動要約処理(1992年〜)
現在知られている要約処理の諸技術をどのように組み合わせたら 良質な要約結果が得られるのかを提案し、 論説文を対象に(実験的)自動要約システム GREEN を作成した。 また、ここでは、 (1)要約文の読みやすさを考慮する (2)連体修飾語の一部を削除して文を短縮する手法も提案した。 当時主流だった(今でも?)語の頻度を利用した重要文抽出に疑問を感じたため、 頻度情報(統計情報)を一切使用せずに要約処理をやってみたかった。 このためGREENは統計情報を何も使用していない。
- (日本語)複数テキスト要約(1995年〜)
複数のテキスト(文書)を対象にした要約処理の問題の存在を (おそらく世界で最初に)提起し、 重複部を削除することによる自動要約手法を提案した。 この研究には、大量のテキストの電子化と計算機のネットワーク化が この当時に大きく進んだことが関係している。 例えばテキスト検索結果に照合した複数のテキストを全部読むのは 困難、苦痛であるのを感じ、これを一つのテキストにまとめてほしかった。 この願望は今でも変わらないが、いまだに(自分の研究を含め) 何一つ満足する複数テキスト要約ができない。 複数テキスト要約問題に対して、 重複部の削除(すなわち既存在表現の一部削除)という枠組みという意味では、 1995年の私の研究から何ら進んでいない。 早くこの考え方を越えてほしい。
- 日本語主語補完(1996年〜1998年)
従来の(日本語)主語補完技術はすべて手作業による規則作成であったが、 事例集合から規則獲得が比較的容易な問題であることを主張し、 決定木を利用して主語補完する手法を提案、 良好な補完精度が得られることを示した。
- TDMT: 変換主導型機械翻訳の日韓/韓日/日中翻訳への適用 (1996年〜2000年)
ATR音声翻訳通信研究所における機械翻訳プロジェクトに携わり、 変換主導機械翻訳 TDMT を(一人で)日韓翻訳、韓日翻訳、日中翻訳に適用 した。TDMT 自体はすでに既提案の技術だったので、自分のやった研究 に新規性を出すのにとても苦労した。結果的にこの仕事はあまり苦労 の割には報われていないが、期間中韓国語、中国語に対していろいろ と思い悩んだため、(多言語)機械翻訳問題の本質に対して学んだこと は多い。その時考えた考察の一部は Sandglass の思想の一部となって 生かされている。
- 音声認識出力に対する頑健な言語処理 (1998年〜2000年)
誤りを含む音声認識入力に対して、誤り訂正する努力をするだけではなく、 最初から入力にある程度の誤りが含まれることを前提として 誤りに対して頑健な言語処理のモデルを作成することの必要性を主張した。 また、複数の決定木を用いることで頑健性を持たせる一般的な手法を提案し、 主語補完問題でその頑健性を確認した。
音声言語処理=音声認識+自然言語処理ではないことは、両者を単にくっつけ てみればよくわかる。自然言語処理は入力テキストが誤っていることを全く考 えていない場合がほとんどなので、結果的に音声認識の精度に文句をつける。 でもそれではけんかになるだけで、何も解決しない。言語処理側で誤り訂正の 研究をするだけでなく、さらに後の処理でも不正確な入力を前提に最初から設 計しないとうまくいかない、と多くの言語処理研究者に気づいてほしかった。 実は、この論文で一番言いたかったのは手法の中身よりもこっちである。こう いう研究がもっと増えてほしい。
- 韓国語処理(1996年〜1998年)
機械翻訳のための韓国語の品詞体系を定義し、 縮約など韓国語に特徴的な現象をどのように機械処理するかを提案した。 言語非依存の統計処理(n-gram)を基本にして、 韓国語の独自性を活かした韓国語形態素解析手法を提案した。 また韓国語生成処理の研究も行なった。
(韓国語に限らず日本語でも)どんな形態素体系が機械処理に向くのかという議 論を今までほとんど見たことがなかったので、こういう地道な研究も重要だと いう問題意識を持ってほしかった。また同時に言語学関係者に対して、我々工 学者はこういう部分で困っているというメッセージを伝えたかった。確かに自 分の論文に問題が多々あるのは事実だがそれを恐れては議論が進まない。誰か 私の論文をぼこぼこに批判して、もっといい体系を示してほしい。それこそが 議論の蓄積で、私の論文が踏み台にされることこそが私の願いである。ちなみ に、単に批判するのは論外。改良案を示さない限り、人の研究を批判する資格 はない。
- テキスト分類処理(1994年〜1995年)
テキストの分類にはテキスト相互の関係を相対的に考慮しなければならない ことを主張し、相対的特徴を重要視することで分類する手法を提案した。
- その他、自然言語処理に関する研究
コメントは歓迎します。