Last modified: Thu Aug 07 11:03:03 2003
「電脳辞書の国語学 −ワープロ日本語変換の徹底検証−」(箭内敏夫著、おうふう)は、今は亡きThe BASIC誌に1991年〜1993年に連載された記事をまとめたもので、当時の仮名漢字変換の辞書内容の調査・比較結果が書かれています。
仮名漢字変換の辞書とはどうあるべきか、どういう単語がどういう基準で入っていなければいけないのかということがしっかりと書かれている本で、
現在でもこの本を越える説得力のある仮名漢字変換の評価記事は書かれていないのが現状だと思います。
当時はDOS全盛期で、ほとんどの仮名漢字変換はAI変換も無い時代でした。 そこで、最近の仮名漢字変換の辞書が「電脳辞書の国語学」での評価法ではどういう結果になるか、 また、ViaVoiceの辞書の内容はどうなのかを調査してみました。
「電脳辞書の国語学」の各章に載っていたテスト用単語をATOK11/12/13, MS-IME95, ViaVoice, ViaVoice98, ViaVoice Milleniumで入力してみました。 テスト項目の内容の詳細については、「電脳辞書の国語学」を参照してください。
なお、ViaVoiceの場合、仮名漢字変換とは違い発声の状況によって入力できたりできなかったりします。 そこで、同じ単語を2回発声し、どちらか1回でも認識候補の一覧(16語)のなかにあれば○としました。 しかし、2回の発声でも万全ではないと思われるので、 本来は辞書に入っている単語がこのテストでは×になっている可能性もあります。
また、「電脳辞書の国語学」出版時の仮名漢字変換のレベルの参考として、ATOK7の結果を引用しています。
| ATOK13 | ATOK12 | ATOK11 | MS-IME95 | ViaVoice Millenium | ViaVoice98 | ViaVoice | ATOK7 | |
| 第1章 常用漢字表の普通名詞 | 20 | 20 | 20 | 20 | 14 | 12.5 | 3 | 7 |
| 第2章 付表の当て字と熟字訓 | 20 | 20 | 20 | 20 | 17.5 | 16.5 | 11.5 | 16 |
| 第3章 常用本表の一字下げの語 | 20 | 20 | 20 | 20 | 14 | 12 | 6 | 10 |
| 第4章 新聞漢字と常用漢字 | 20 | 20 | 20 | 20 | 16.5 | 15.5 | 12 | 9 |
| 第5章 動詞登録をめぐる諸問題 | 20 | 19 | 19 | 19 | 7 | 6 | 2 | 12 |
| 第6章 固有名詞:都道府県市町村 | 20 | 20 | 20 | 20 | 3 | 1 | 1 | 2 |
| 第7章 固有名詞:日本人の姓氏 | 20 | 20 | 19 | 20 | 20 | 13 | 5 | 3 |
| 第9章 固有名詞:外国の地名 | 20 | 20 | 20 | 20 | 18 | 16 | 15.5 | 4 |
| 第10章 外国語の表記 | 20 | 19 | 19 | 19 | 16 | 15 | 7 | 7 |
| 第11章 技術用語と一般用語 | 20 | 20 | 20 | 18 | 11 | 11 | 11 | 12 |
| 第15章 四字熟語の収録範囲 | 20 | 20 | 20 | 20 | 13 | 10 | 3 | 8 |
| 第18章 エ列長音とオ列長音 | - | - | - | - | - | - | - | - |
| 第20章 二つの言い方がある語 | 20 | 20 | 20 | 20 | 13 | 12 | 3 | 12 |
| 第21章 二つの書き方がある語 | 19 | 19 | 19 | 20 | 12 | 11 | 9 | 14 |
| 計 (260点満点) | 259 | 257 | 256 | 256 | 175 | 151.5 | 89 | 116 |
また、ATOK11に比べてお世辞にも変換精度がよいとはいえないMS-IME95ですが、本テストの点数ではATOK11と同じ結果を出しています。 最近のIMEの性能が、すでに単純な単語の有無で決まるものではなく、もっと高い次元の問題になっていることを伺わせる結果といえると思います。
ViaVoiceで気になったのが、同音語の選択肢の少なさです。「まぜる」が「混ぜる」にしかならず、「交ぜる」がでてこない(第5章参照)など、仮名漢字変換側に同音語の処理を任せている設計方針なのだろうかという気もします(ViaVoiceでは、認識候補一覧時に仮名漢字変換することが可能)。
また、動詞の少なさも問題です。固有名詞が少ない点はある程度しょうがないと思いますが、基本的な動詞に関しては充実が望まれます。
音声認識で注目されるのが、カタカナ語の表記揺れ(第10章参照)、技術用語と専門用語の表記の違い(第11章参照)など、表記の揺れに関する対応です。
たとえばViaVoiceでは「コンピューター」は入力できますが、末尾に長音のない「コンピュータ」は入力できません(第11章参照)。
これはViaVoiceが新聞の文章を主な入力対象として開発されているのに関係します(朝日総研リポート:揺らぐ「コンピューター」表記:web.archive.orgを参照)。
いずれにせよ音声認識では、入力される文章が辞書の内容で制限されるということが、仮名漢字変換以上に起きやすいといえます。 7月に発売されるViaVoice98では、パソコン関係の分野別辞書が付属するとのことですが、そちらの辞書に末尾の長音のない「コンピュータ」がちゃんと登録されているかどうかは興味があるところです。
追加された単語の分野については、一般名詞、人名、カタカナ語、四字熟語など、全般的に単語の追加が行われているようです。
ただし、地名に関しては従来通りでした。
ViaVoice98からはトピックと呼ばれる分野別辞書の機能が導入されていますが、
今後は地名入力用のトピックなどの提供が期待されます。
なお、「コンピューター」「コンピュータ」などのカタカナ語の表記揺れの対処については従来と同じで、
長音付きの「コンピューター」しか入力できません。
コンピュータ関連のトピック(分野別辞書)を使用しても結果は同じでした。
VoiceType/ViaVoiceの辞書の単語数は、最初からずっと4万語程度と大きな変化がありませんでした。
つまり、ViaVoice98は辞書に関していえば初めてのメジャーバージョンアップだったことになります。
単語数がDOS時代の仮名漢字変換と同程度以上になったことによって、
未登録語でいらいらすることもかなり減るはずで、
音声認識はまた一つハードルを越えたといえます。
一方、地名に関してはほとんど変化がありません。 市町村名の場合、すべて登録するかしないかのどちらかの対応になるので、語数の問題から見送られているのでしょう。 ViaVoiceを住所入力に使おうとする場合、仮名漢字変換の7桁郵便番号変換と併用するなどの工夫が必要でしょう。
もう1つ、あまり変化がない分野が動詞 (第5章 動詞登録をめぐる諸問題) です。ViaVoice Millenium(8万語)とATOK7(5万語)の調査結果を比べると、この項目だけViaVoiceはATOK7に大きく劣っています。
このことにメーカー側が気がついていないとは思えないので、簡単には対応できない理由があるのではないかと思います。
それで思ったのが今回の調査で気がついた、「交ぜる」はでないのに「交じり」はでる、「腐らす」はでないのに「腐らする」がでるなど、活用によっても認識の結果が違うことです。
これは想像ですが、ViaVoiceでは動詞の活用ごとに個別の辞書情報を持っているのではないでしょうか。
そうだとすると、名詞に比べると動詞の対応は負担が大きく、そのせいで対応が進んでいないということが考えられます(しかし、「腐らする」って言葉として変なのではないでしょうか?)。
また、コンピュータ/コンピューターなどのカタカナ表記 (第11章 技術用語と一般用語) に関しては従来通りでした。 最近話題の「プレイステーション」を入力しようとしても「プレーステーション」になってしまいます。
最後に、ViaVoiceでは「SMAP」「キムタク」やその他SMAPのメンバー名が一発認識されるようです。 「宇多田ヒカル」は認識されないので、芸能人名の認識を強化したというわけではなく、香取伸吾がViaVoiceのCMにでていることが理由のようですね。
電脳辞書の国語学[ワープロ日本語変換の徹底検証] 箭内敏夫著 おうふう ISBN4-273-02765-8 C3055 1900円
Copyright 2000 力野 健 (Ken Tikarano)