逆年代順。概要及びキーワードは論文に掲載されているものと同一です。ただ し情報処理学会論文誌にはもともとキーワードがついていません。「自然言語 処理」のみ、PDF 形式で表示できます(表示には Adobe Acrobat Readerが必要です)。ここから入手できるPDFファイルは各論文誌 に掲載されているそれと本文は全く同一ですが若干体裁が異なる場合がありま す。「自然言語処理」以外に掲載された論文の PDF や別刷りをご希望の方に は差し上げます。内容に質問やコメントのある方と共にkazu_yamamoto@mcn.ne.jp)にご連絡ください。
複数の文から成る長い発話、文法規範から逸脱した表現などを包含する話し言 葉の翻訳入力に対して分割を行い頑健な多言語音声翻訳を実現する手法を提案 する。提案手法は、構文構造のスコアを使って全体的に最も整合性のとれた部 分へ翻訳入力を分割する。そして、分割されたそれぞれの部分の翻訳結果を連 結させることにより、翻訳入力全体の翻訳結果を作る。分割は、逐次的構文解 析の枠組みの中で行うため、翻訳時間に重大な影響を与えることはない。提案 手法には、翻訳出力率や翻訳成功率など翻訳性能を向上させることに加えて、 複数の文から成る発話や誤った音声認識結果などの翻訳入力に対しても頑健な 翻訳を行う、という効果がある。また、特定の言語に依存しない手法のため、 多言語処理に有効である。提案手法を導入した変換主導型機械翻訳システムの 翻訳実験から、提案手法が多言語音声翻訳の頑健性向上に有効であることを実 証した。
韓国語の言語処理、特に韓国語を原言語もしくは目的言語とする機械翻訳にお ける、韓国語の言語体系と形態素処理手法を提案する。本論文の韓国語体系の 特徴は、機械処理を考慮した体系であるという点にある。すなわち、形態素解 析の解析精度や機械翻訳における品詞設定の必要性に応じて、韓国語各品詞に 対して仕様の検討を行ない、設計を行なった。また分かち書きや音韻縮約といっ た韓国語の特徴をどのように機械処理すべきかについても述べる。韓国語形態 素解析では、品詞と単語の混合n-gramによる統計的手法を基本としながら、韓 国語固有の問題に対しては残留文字などの概念を導入するなどして独自の対応 を施した。以上の品詞体系と形態素解析エンジンによって、単語再現率99.1%、 単語適合率98.9%、文正解率92.6%という良好な解析精度が得られた。また韓国 語生成処理では、特に分かち書き処理についてどのような規則を作成したのか について提案を行なう。以上の形態素体系と処理の有効性は、機械翻訳システ ムTDMTの日韓翻訳、韓日翻訳部に導入した際の翻訳精度という形で文献(古瀬, 山本, 山田 1999)において報告されている。キーワード:韓国語、品詞体系、形態素解析、生成処理、音声翻訳
動詞を含む連体修飾表現を"N1のN2"という表現に言い換える手法を提案する。 動詞を含む連体修飾表現は、各文を短縮する既存の要約手法において、削除対 象とされている。ところが、連体修飾部の削除によって、その名詞句の指示対 象を同定することが困難になる場合がある。それを表現"N1のN2"に言い換える ことで、名詞句の意味を限定し、かつ、字数を削減することが可能である。言 い換えは、動詞を削除することによって行う。表現"N1のN2"では、語N1とN2の 意味関係を示す述語が省略されている場合がある。この省略されうる述語を、 削除可能な動詞として2種類の方法により定義した。一方は、表現"N1のN2"の 意味構造に対応する動詞を、類語辞典を用いて選択した。また、他方では、あ る語から連想される動詞を定義した。コーパスから、名詞とそれが係る動詞と の対を抽出し、共起頻度の高いものを、名詞から動詞が連想可能であると考え た。これらの削除可能な動詞を用いた言い換えを主観的に評価したところ、再 現率63.8%、適合率64.4%との結果を得た。さらに、言い換え可能表現の絞り込 みを行うことによって適合率は82.9%に改善することが可能であることを示す。キーワード:言い換え、表現"N1のN2"、修飾部削除、要約
字幕作成のためのニュース文要約のような報知的要約では、原文の情報を落と さないことが望まれる。本論文では、このような原文の情報を極力落とさない 要約手法の一つとして、重複部削除による要約手法について議論する。テキス ト内に、同一の事象を表す部分が再度出現したならば、その部分を削除するこ とによって冗長度を減少させ、情報欠落を可能な限り回避した要約を行う。事 象の重複を認定するために、係り受け関係のある2語が一つの事象を表してい ると仮定し、2語の係り受け関係の重複を事象の重複と認定する。また、2語 の係り受け関係を用いて重複を認定するだけでは、読みやすく、かつ、自然な 要約文を生成することができない。そのために考慮すべきいくつかの情報につ いて議論する。以上の方法のうち、実装可能な部分を計算機上に実装し、評価 実験を行った。人間による削除箇所と本手法による削除箇所とを比較したとこ ろ、再現率81.0%、適合率85.1%の結果を得た。キーワード:報知的要約、重複部削除、2語の係り受け関係
日本語は主語などの要素がしばしば省略されるため、これらの補完は対話処 理において重要である。さらに音声対話処理においては、実際に対話を処理 する際に入力となるのは音声であり、一部誤りを含んだ音声認識結果が処理 対象となるため、言語処理部においても不正確な入力に対する頑健性が要求 される。このため、入力の一部に誤りのある状況下における格要素補完問題 を考え、以前に提案した決定木を使用した補完手法を改良したモデルを提案 する。このモデルは、複数の決定木を使用することで複数解候補を出力し、 その中から学習時の終端節点事例数によって解の選好を行なうことで入力誤 りに対する頑健性を強化した。音声認識の実誤りと人工的な誤りの2種類で 評価実験を行なった結果、提案手法が誤りを含む入力に対し頑健であること を確認した。また人工的な問題に対するシミュレーションの結果、本提案手 法は問題非依存であり、入力誤りの多さに応じた決定木の組み合わせでモデ ルを構成することで有効に機能することが明らかとなった。キーワード:省略補完、頑健性、音声言語処理、対話処理、決定木
語順を考慮した格フレーム獲得のための格遷移ネットワークモデルを提案する。 このモデルに対し、予備的検討のための実験を行った。その結果、語順を考慮 した格フレーム獲得に有効であり、実用に際してはより高精度な意味素辞書が 必要であることもわかった。キーワード:格フレーム、語順、自動獲得、コーパス
複数の関連記事に対する要約手法について述べる。記事の第一段落を用いて、 その重複部・冗長部を削除することにより複数の関連記事をどの程度要約でき るかを明確にすることを目的とする。さらに、重複部・冗長部を特定、削除す る処理をヒューリスティックスにより実現する手法を提案する。まず、新聞記 事における推量文の一部は重要度が低いと考えられ、これを文末表現ならびに 手掛り語で特定し、削除する。次に、詳細な住所の表現は記事の概要を把握す るためには不必要であり、これも削除する。さらに、導入部と呼ぶ部分を定義 し、導入部内の名詞と動詞が他記事の文に含まれるならば導入部は重複してい るとし、削除する。また、頻繁に出現する人名・地名に関する説明語句、括弧 を用いた表現について、他記事との重複を調べる。重複している部分は1つを 残し他は削除する。提案手法を計算機に実装し、実験を行った。その結果、27 記事群に対して各記事の第一段落を平均要約率82.1%で要約することができた。 さらに、実験結果のうち6記事群を用いて評価者11人に対してアンケートを行 い評価した。アンケートの内容は、要約文章において冗長に感じる箇所、なら びに削除部分を含めた元記事において重要と考えられるが削除されている箇所 を指摘する、である。アンケート調査の結果、本手法による要約がおおむね自 然であることを確認した。また、本手法によって削除された部分がおおむね妥 当であることが明らかになった。キーワード:要約、複数文章、重複表現
表層パタンの照合を行なう構成素境界解析を提案し,構成素境界 解析と用例利用型処理を組み合わせた変換主導型機械翻訳の新しい実現手法が 多言語話し言葉翻訳に有効であることを示す.構成素境界解析は,変項と構成 素境界より成る単純なパタンを用いた統一的な枠組で,多様な表現の構文構造 を記述できる.また,構成素境界解析は,チャート法に基づくアルゴリズムで 逐次的に入力文の語を読み込み,解析途中で候補を絞り込みながらボトムアッ プに構文構造を作り上げることにより,効率的な構文解析を可能にする.構成 素境界解析の導入により,変換主導型機械翻訳は構文構造の記述力,構文解析 での曖昧性爆発といった,頑健性や実時間性の問題を解決することができた. さらに,構成素境界解析と用例利用型処理は単純で言語に依存しない手法であ り,多言語話し言葉翻訳へ適用するための汎用性を高めることができた.旅行 会話を対象とした日英双方向と日韓双方向の話し言葉翻訳の評価実験の結果に より,本論文で提案する変換主導型機械翻訳が,多様な表現の旅行会話文を話 し手の意図が理解可能な結果へ実時間で翻訳できることを示した.キーワード:機械翻訳、構成素境界、構文解析、変換主導、パタン、用例利用型
名詞の連接に着目した関連文書検索手法を提案し, 実験により評 価を行った. 本論文で提案する手法は, ベクトル空間法に基づき, 索引語の単 位として名詞の連接を用いるという点が特徴である. 情報検索において, ある 1つの事象を示すために様々な名称を用いることによる精度の低下という問題 がある. また, 日本語の文書には多くの複合語が見られ, これが検索精度低下 の一因となっている. 本論文では, 適合率を向上させるために, 名詞の連接を 索引の単位として用いることを提案する. また複合語における表記のゆれを吸 収する経験則を導入することにより再現率が向上することを示す. 日本経済新 聞を対象として, 単語のみに着目する従来手法との比較実験を行った. その結 果, F値の平均が, 比較手法76.2%, 提案手法85.9%となり, 本手法の有効性を 確認した.
機械翻訳では目的言語で必須格となる格の人称と数を補う必要が ある。本論文では、省略補完知識の決定木による表現、及び帰納的に機械学習 することによって日本語対話文の格要素省略を補完する手法を提案する。本研 究では形態素分割され、品詞、省略情報が付与された任意のコーパスとシソー ラスのみを用いて行なう。決定木学習には、内容語の意味属性、機能語の出現、 言語外情報の3種類の属性を使用する。未学習文に対してテストを行なった結 果、ガ、ヲ、ニの三つの格で照応的な省略の補完を十分な精度で行なうことが できた。またガ格とニ格に対しては人称と数の補完にも有効であることを確認 した。ガ格に関して、処理の有効性を学習量、話題依存性、使用属性との関係 の三点から実験し、以下の知見が得られた。(1)当該問題に対する決定木学習 量は全体として 10^4〜10^5 事例で十分である。この時の補完精度の上限は 80% 〜 85% と予想される。(2)対話の話題が既知もしくは予測可能な時は、そ の話題のみのコーパスによる学習が最善である。話題が未知の場合は、可能な 限り広範な話題に対して学習するのが最も効果的である。(3)学習量増加に伴 い、決定木には機能語などの話題に依存しない属性が多く採用される。キーワード:格要素省略、決定木、機械学習、対話処理
複数のテキストに対する要約について述べる.日本語新聞記事を 対象として, 単一のテキストの要約にはない, 重複部分の把握, 及びその除去 という固有の問題に対して, 連体修飾語, 類似節, 名詞句の言い替えを利用し た要約手法とその実験結果について述べる.キーワード:談話解析, 要約, 連体修飾語, 言い替え
日本語文章要約システム GREEN について報告する. 一般に, 質 の良い文章要約を行うためには, ある一つの言語現象だけをとらえた談話解析 だけでは不十分である. なぜなら, 談話に関わる言語現象は相互に関連してい るからである. 本研究ではこの観点から, 日本語での様々な表層的特徴をでき るだけ多く利用して, 日本語文章の要約を試みる. 本稿では実際に計算機上で 試作した論説文要約システム GREEN に関して, これで用いられている論説文 要約の手法の紹介と, これによって出力された文章の評価を行う.キーワード:談話解析、要約作成、論説文、修飾語省略
本論文は, 日本語文章中の複数の文間に存在する結束性を解析す ることを目的とする. 複数文からなる文章の解析における基本的な問題は, 文 間に存在する結束性を見い出すことである. 本論文では結束性を構成する要因 の中から, 「手がかり語」, すなわち接続的語句と, 語の類縁性, すなわち出 現した語の意味的な類似性の二つに着目した. まず, 接続的語句が結束性に 与える影響を, 段落分けを行なうことによって検証した. 実際の文章の各文頭 に出現する語の傾向に基づいて手がかり語を定義し, 各語の統計的特徴と段落 長の要素を用いて, 計算機によって段落分けを試みた. 段落分けの自然さを, 原文の再現性及びアンケート結果の2種類の基準により評価した. 次に, 語彙 的要素を用いた段落分けを試みた. シソーラスを使用して語句の類縁性を数値 化し, これに基づき文章の結束構造をグラフによりモデル化したものを結束グ ラフと定義し, 段落の設定を評価する関数を, それに基づいて定義した. さら に, 前述の手がかり語と語句の類縁性の二つの要素に基づく3種類の方法によ り, 実際に段落分けを試みた. その結果, 類縁性のみを考慮した場合と比較 して, 3種類の方法のいずれにおいても再現率, 適合率が向上した. また, こ の出力結果の自然さを評価するために, 再びアンケート調査を実施したところ, 作成した評価関数の自然さを支持する結果が得られた.
自然言語処理研究の一つの傾向として, 処理の対象が単一の文から複数文へと 徐々に移りつつあることが挙げられる. 複数の文を対象にする談話処理の分野 では, 以前から文章の抄録/要約などの試みがなされてきたが, 最近では, 計 算機及び機械可読文書の普及に伴うテキストの分類などの自動検索, あるいは 対話処理などを対象にして, 様々な研究が活発に行われている. 本論文では今 後ますます重要になると考えられる自然言語処理を対象にして研究活動を行っ てきた. その中でも, 従来ほとんど研究が行われていない段落分け, 要約, 文 章の自動分類などの談話処理を取り上げ, 検討を行った. また, 対象言語とし ては日本語を取り扱った.文章の段落分けは, 段落のない文章(文の羅列)を入力とし, 段落に分けた文章 を出力するという処理である. 本論文では, 段落分けに必要な要素として接続 的語句と単語間の類縁性の二点を取り上げ, 最終的には両要素を併用して考慮 することによって段落分けを試みた. この手法で雑誌記事, 新聞コラムの文章 を段落分けした結果について人手による結果と比較し, 作成した手法の有効性 を支持する結果を得た.
文章の要約作成については, 文章中から重要な文を単に抽出する「抄録」のよ うに前後の文に全く結束性のない文章が生成されることを避け, 要約文として 出力された文章が最小限の結束性を保つように文の抽出を行った. さらに抽出 した文に含まれる連体修飾語の一部を削除することにより, 一段の文短縮を試 みた. また, これらのシステムを実際に計算機上に実現することが重要と考え, 実在の論説記事(新聞社説)を対象にした要約システムを構築した.
さらに, 従来ほとんど試みられていない, 何らかのつながりを持った複数新聞 記事の要約も試みた. ここでは, 類似した複数文章の要約に特有の問題である 類似記述部分の特定, およびその削除を試み, ある程度重複した記述の省略, 同じ語に対する修飾語句の削減などの点に着目することにより, 文章の短縮 化を試みた.
本研究はまた, 文章の自動分類の研究にも取り組んだ. この研究では, 従来数 多く研究が行われているベクトルモデルの分類手法のうち, 語に重みづけを行 うこと (term-weighting) による手法を拡張し, 語をいくつかのグループに分 類した上で重みづけを行う手法を提案した. この手法によって新聞の10種類の コラムを分類する実験を行った結果, 再現率, 適合率ともに高い結果が得られ た.