電脳辞書の国語学:ATOK, ViaVoice辞書内容調査

Last modified: Thu Aug 07 11:03:03 2003


電脳辞書の国語学

 「電脳辞書の国語学 −ワープロ日本語変換の徹底検証−」(箭内敏夫著、おうふう)は、今は亡きThe BASIC誌に1991年〜1993年に連載された記事をまとめたもので、当時の仮名漢字変換の辞書内容の調査・比較結果が書かれています。
 仮名漢字変換の辞書とはどうあるべきか、どういう単語がどういう基準で入っていなければいけないのかということがしっかりと書かれている本で、 現在でもこの本を越える説得力のある仮名漢字変換の評価記事は書かれていないのが現状だと思います。

 当時はDOS全盛期で、ほとんどの仮名漢字変換はAI変換も無い時代でした。 そこで、最近の仮名漢字変換の辞書が「電脳辞書の国語学」での評価法ではどういう結果になるか、 また、ViaVoiceの辞書の内容はどうなのかを調査してみました。

調査方法

 「電脳辞書の国語学」の各章に載っていたテスト用単語をATOK11/12/13, MS-IME95, ViaVoice, ViaVoice98, ViaVoice Milleniumで入力してみました。 テスト項目の内容の詳細については、「電脳辞書の国語学」を参照してください。

 なお、ViaVoiceの場合、仮名漢字変換とは違い発声の状況によって入力できたりできなかったりします。 そこで、同じ単語を2回発声し、どちらか1回でも認識候補の一覧(16語)のなかにあれば○としました。 しかし、2回の発声でも万全ではないと思われるので、 本来は辞書に入っている単語がこのテストでは×になっている可能性もあります。

 また、「電脳辞書の国語学」出版時の仮名漢字変換のレベルの参考として、ATOK7の結果を引用しています。

調査結果

 結果は以下のようになりました(調査結果の詳細(22KB))。 各章のテストの意味については「電脳辞書の国語学」を参照していただきたいと思います。 おおざっぱにいうと○が多い方がいいのですが、必ずしも×がだめなわけではありません。 ○と×が混在する場合が、単語登録の基準がはっきりしない辞書であるという見方ができます。

ATOK13 ATOK12 ATOK11 MS-IME95ViaVoice
Millenium
ViaVoice98ViaVoiceATOK7
第1章 常用漢字表の普通名詞202020201412.537
第2章 付表の当て字と熟字訓2020202017.516.511.516
第3章 常用本表の一字下げの語202020201412610
第4章 新聞漢字と常用漢字2020202016.515.5129
第5章 動詞登録をめぐる諸問題2019191976212
第6章 固有名詞:都道府県市町村202020203112
第7章 固有名詞:日本人の姓氏20201920201353
第9章 固有名詞:外国の地名20202020181615.54
第10章 外国語の表記20191919161577
第11章 技術用語と一般用語2020201811111112
第15章 四字熟語の収録範囲20202020131038
第18章 エ列長音とオ列長音--------
第20章 二つの言い方がある語202020201312312
第21章 二つの書き方がある語191919201211914
計 (260点満点)259257256256175151.589116

Windows95時代のIMEの辞書

 ATOK11やMS-IME95等のWindows95時代のIMEでは、テストのほとんどが○となり、仮名漢字変換の辞書は、DOSの時代から大きく進歩していることがわかります。

 また、ATOK11に比べてお世辞にも変換精度がよいとはいえないMS-IME95ですが、本テストの点数ではATOK11と同じ結果を出しています。 最近のIMEの性能が、すでに単純な単語の有無で決まるものではなく、もっと高い次元の問題になっていることを伺わせる結果といえると思います。

ATOK12の辞書

 ATOK12では「固有名詞:日本人の姓氏」が満点となり、1点増えました。

ATOK13の辞書 [New]

 ATOK12では「動詞登録をめぐる諸問題」の「明らむ」、「外国語の表記」の「インタヴュー」が変換可能となり、2点増えました。 雑記 - 風の又三郎にも書きましたが、バージョンを重ねるごとに、このような目に見えない細かいところにも手が入っているということがわかります。

ViaVoiceの辞書

 ViaVoiceは辞書の語数が4万2千語(ATOK11は16万語以上。ATOK7では約5万語)ということから想像できたとおり、DOS時代の仮名漢字変換と同程度、もしくはもっと低い結果となりました。
 AI処理の有無などが大きく異なっているため、ViaVoiceがDOS時代の仮名漢字変換と同程度の性能という単純な結論付けはできませんが、ViaVoiceを実際に使用していて単語の少なさを感じる点は、確かにATOK8登場以前のDOS時代の仮名漢字変換を思い出させます。

 ViaVoiceで気になったのが、同音語の選択肢の少なさです。「まぜる」が「混ぜる」にしかならず、「交ぜる」がでてこない(第5章参照)など、仮名漢字変換側に同音語の処理を任せている設計方針なのだろうかという気もします(ViaVoiceでは、認識候補一覧時に仮名漢字変換することが可能)。
 また、動詞の少なさも問題です。固有名詞が少ない点はある程度しょうがないと思いますが、基本的な動詞に関しては充実が望まれます。

 音声認識で注目されるのが、カタカナ語の表記揺れ(第10章参照)、技術用語と専門用語の表記の違い(第11章参照)など、表記の揺れに関する対応です。 たとえばViaVoiceでは「コンピューター」は入力できますが、末尾に長音のない「コンピュータ」は入力できません(第11章参照)。 これはViaVoiceが新聞の文章を主な入力対象として開発されているのに関係します(朝日総研リポート:揺らぐ「コンピューター」表記:web.archive.orgを参照)。

 いずれにせよ音声認識では、入力される文章が辞書の内容で制限されるということが、仮名漢字変換以上に起きやすいといえます。 7月に発売されるViaVoice98では、パソコン関係の分野別辞書が付属するとのことですが、そちらの辞書に末尾の長音のない「コンピュータ」がちゃんと登録されているかどうかは興味があるところです。

ViaVoice98の辞書

 ViaVoice98では辞書の単語数が以前の4万2千語から約6万語に増えています。 調査結果をみても単語の充実は明らかで、点数の合計はViaVoiceの89点がViaVoice98では151.5点と大きく向上し、 ATOK7(約5万語)の116点を上回る結果となりました。

 追加された単語の分野については、一般名詞、人名、カタカナ語、四字熟語など、全般的に単語の追加が行われているようです。 ただし、地名に関しては従来通りでした。 ViaVoice98からはトピックと呼ばれる分野別辞書の機能が導入されていますが、 今後は地名入力用のトピックなどの提供が期待されます。
 なお、「コンピューター」「コンピュータ」などのカタカナ語の表記揺れの対処については従来と同じで、 長音付きの「コンピューター」しか入力できません。 コンピュータ関連のトピック(分野別辞書)を使用しても結果は同じでした。

 VoiceType/ViaVoiceの辞書の単語数は、最初からずっと4万語程度と大きな変化がありませんでした。 つまり、ViaVoice98は辞書に関していえば初めてのメジャーバージョンアップだったことになります。
 単語数がDOS時代の仮名漢字変換と同程度以上になったことによって、 未登録語でいらいらすることもかなり減るはずで、 音声認識はまた一つハードルを越えたといえます。

ViaVoice Milleniumの辞書 [New]

 ViaVoice Milleniumの辞書の単語数は、ViaVoice98の6万語から8万語に増えています。 調査してみて強化が目立ったのが人名で、第7章 固有名詞:日本人の姓氏の結果が13点から満点の20点になっています。 このテストは、日本人の名字上位1000位以内をピックアップして調べるものなので、ViaVoice Milleniumでは少なくとも上位1000位以内の名字を網羅的に登録したものと思われます。

 一方、地名に関してはほとんど変化がありません。 市町村名の場合、すべて登録するかしないかのどちらかの対応になるので、語数の問題から見送られているのでしょう。 ViaVoiceを住所入力に使おうとする場合、仮名漢字変換の7桁郵便番号変換と併用するなどの工夫が必要でしょう。

 もう1つ、あまり変化がない分野が動詞 (第5章 動詞登録をめぐる諸問題) です。ViaVoice Millenium(8万語)とATOK7(5万語)の調査結果を比べると、この項目だけViaVoiceはATOK7に大きく劣っています。 このことにメーカー側が気がついていないとは思えないので、簡単には対応できない理由があるのではないかと思います。
 それで思ったのが今回の調査で気がついた、「交ぜる」はでないのに「交じり」はでる、「腐らす」はでないのに「腐らする」がでるなど、活用によっても認識の結果が違うことです。 これは想像ですが、ViaVoiceでは動詞の活用ごとに個別の辞書情報を持っているのではないでしょうか。 そうだとすると、名詞に比べると動詞の対応は負担が大きく、そのせいで対応が進んでいないということが考えられます(しかし、「腐らする」って言葉として変なのではないでしょうか?)。

 また、コンピュータ/コンピューターなどのカタカナ表記 (第11章 技術用語と一般用語) に関しては従来通りでした。 最近話題の「プレイステーション」を入力しようとしても「プレーステーション」になってしまいます。

 最後に、ViaVoiceでは「SMAP」「キムタク」やその他SMAPのメンバー名が一発認識されるようです。 「宇多田ヒカル」は認識されないので、芸能人名の認識を強化したというわけではなく、香取伸吾がViaVoiceのCMにでていることが理由のようですね。

参考文献

電脳辞書の国語学[ワープロ日本語変換の徹底検証] 箭内敏夫著 おうふう ISBN4-273-02765-8 C3055 1900円


[トップページ]

Copyright 2000 力野 健 (Ken Tikarano)