雑記

Last modified: Mon Sep 22 12:39:11 2003


目次


日本語変換システムATOK読本 [New]

 amazon.co.jpのユースドストア(いわゆる古本)で、日本語変換システムATOK読本 ― ATOK6〜8までAPIを収録 山田祥平著 が販売されていました。

 この本は単なる操作解説本ではなく、ATOKのDOS版APIについての資料が載っているので、興味のある人(あまりいないでしょうが...)には非常に貴重です。ATOK APIが載っている資料は、これ以外だとジャストシステムの情報誌"JUST MOAI"以外無く、いずれも入手は絶望的です。

 今は、検索エンジンでほとんど何でも情報を探せるありがたい時代ですが、インターネット以前のコンピュータ情報に関してはネットの検索における暗黒地帯です。 このように書籍を探すか、取りつぶしの続くNiftyの掲示板あたりにしか情報がなく、ゆゆしき自体だといえます。

 パソ通当時は一般に公開されていた"MS KANJI API"も、インターネットでは発見できません(ATOK読本には載ってますが)。SAISWXの件も含め、Niftyには掲示板のアーカイブシステムの作成を真剣に要望したいところですが...


組み込み機器における日本語入力環境の紹介

 Interface誌2001年9月号に「かな漢字変換アルゴリズムと辞書のチューニング 組み込み機器における日本語入力環境の紹介」という記事が掲載されていました。著者はオムロンの方です。

 アルゴリズムや辞書の話から、携帯電話用かな漢字変換ならではの苦労などが書かれています。なかなか読み応えがありおすすめです。


NiftyのSAISWX閉鎖

-- 「FEP文法講座」の保存を! --

 NiftyのSAISWX(AISOFT Information & WX Station)フォーラムが2000年12月いっぱいで閉鎖され、今後はWebのe言葉でサポート等を行っていくとのことです。 まあ時代の流れだといえますし、e言葉ではWXG for Linux/FreeBSDという強力なコンテンツが登場したせいで比較的順調なスタートをきったようです。

 しかし、e言葉にはNiftyのコンテンツが引き継がれていないのが痛いところです。ユーザー作成の辞書などのNifty時代のWX/WXG資産が、フォーラムの閉鎖とともに消え去ってしまうのはゆゆしき事態ではないでしょうか。 なかでも「芙蓉塾: 日本語&FEP教養講座」会議室中で、WXシリーズの開発者オムライス氏が連載された「FEP文法講座」がなくなるのは、仮名漢字変換の技術・文化にとっての損失といってもいいと思います。この講座、実に150回も連載され、仮名漢字変換の内部に興味のある人にとっては必須の資料といえます。

 Niftyのアカウントをお持ちの方は、過去ログを根こそぎダウンロードしておくことをおすすめします。また、この「FEP文法講座」は著作権の問題も比較的クリアでしょうから、多少手直しした上でe言葉へ掲載していただけるよう是非ともお願いしたいものです > e言葉スタッフの方々


ATOK.COM

 YahooでATOK.COMのドメイン名がオークションに出ていました (Yahoo!オークション - ATOK.COM)。
 希望落札価格が200万。応募者無しで入札はすでに終わっていました。そもそもジャストシステム以外で買う人がいるとも思えませんが...


メンテナンス不足なページの弊害

 東芝が6割を出資している検索サイトフレッシュアイのディレクトリに日本語入力のページがあることを知りました。 ちょっと見たところ、なぜだか以前見たような感じがします。 よく見てみると、どうも当方の日本語入力関連のリンクをベースに作ったようで、共通項目が目立ちます(というより、サブセットといえる内容です)。

 日本語入力関連のリンクの対象は、あくまでも「私が個人的に興味を持ったもの/おもしろいと思ったもの」です。内容的な偏りはもちろん、メンテナンスをしてなくて情報が古くなっている部分もちらほらあります。 フレッシュアイの日本語入力をみると、この「偏った内容」「古い情報」がそのまま引き継がれており、一般性を求められる検索サイトのディレクトリの内容としては適切でない部分が見受けられます。

追記(00/07/28):7/28時点で多少改善がみられますが、本雑記で指摘した事項の一部に限って対応しただけのようです。 依然としてフレッシュアイの方はオリジナリティに乏しい内容なので、さらなる向上を期待します。

一例を挙げますと:

追記(00/07/27):trrと「7ビットおよび〜」のリンクは削除されました。また字体史研究へのリンクが独自に追加されています。 追記(00/07/28):吉田智子さんのページへのリンクも追加されていました。

 きりがないのでここまでとしますが、これらの例はそのまま現在の日本語入力関連のリンクの要修正点と言ってよく、「ページはまめにメンテナンスしないと質の低い情報が広まってしまうのだなあ」と思った次第です (^^; 何はともあれ、こんな所までそのまま参考にされてしまうようでは、誰のためにもならないと思うので困ったものです。

 また、以下の2点は(他にもありますけど)、当方のページのソースをそのまま切り張りして作成したものと思われますが、 意味不明/不適切な内容になっているので修正が必要でしょう。

とりあえずまとめさせていただきますと:

 以上、フレッシュアイさんに内容修正の要望をあげるつもりです。 是非、これを機に内容を見直していただいて、充実した日本語入力リンクを作成していただきたいものです。 その際には、当方の日本語入力関連のリンクに、フレッシュアイさんを追加させていただきます。
 なお、フレッシュアイの日本語入力ディレクトリの内容が、全くのコピーというわけではありません。リンクしているページの説明文は独自のものになっていますし、キーボード/OCR・文字認識の内容は独自の内容です。当方のページの内容との重複が顕著なのは、日本語入力トップページとその下のMS-IME/Wnnの内容です。


ガッツ石松

 先日TVを見ていて初めて知ったんですが、「ガッツポーズ」は和製英語で、しかもガッツ石松さんが世界タイトルマッチを制した際のポーズが語源になっているそうで二度びっくりです。Webを「ガッツポーズ AND ガッツ石松」で検索したらHitするページがたくさんありました(愛媛新聞:地軸 99/04/12)。

 和製英語といえば、MS-IME2000は和製英語を正しい英語に変換できる(Nikkei Net ITトレンド 99/03参照)ということを売りにしています。そこで、Web上で調べたいくつかの和製英語がMS-IME2000, ATOK13で変換できるかどうか試してみました。

和製英語変換結果:
和製英語英語表記IME2000ATOK13
ガッツポーズ?××
ナイターnight game
デパートdepartment store
テレビゲームvideo game××
デッドボールhit by pitch××
フォアボールbase on balls×
オートバイmotorcycle/motorbike××
フライパンflyng pan
イラストillustration
ラムネlemonade××
ガソリンスタンドgas station××
フライドポテトfrench flies××
ポケットベル/ポケベルbeeper/pager××

 結果を見るに、和製英語をきちんとサポートしているとは言い難いのではないでしょうか ... と、ここで話を終わろうとしたんですが、念のためIME2000とATOK13の製品紹介ページを見たところ、「和製英語に対応」という言葉は出てきませんね。もともと和製英語をきちんとサポートしているわけではないようです。


風の又三郎

 Internet Watchのおもしろニュースにツッコミ隊! (99/11/11)からのネタですが、 絵入り官製はがき「風の又三郎」の図柄文字に誤字が見つかり、10万枚を印刷し直すことになったそうです。 参照記事: 賢治も苦笑?図柄文字ミス/10万枚印刷し直し (河北新報社 99/11/10)
 記事によると、「風の又三郎」の「郎」の字が、間違って「朗」になっていたとのことです。早速、手持ちのIMEで変換をチェックしてみました。

ATOK13
風の又三郎
ATOK12
風のまた三郎
MS-IME98/2000
風のまた三郎

 ATOKが13になって正変換できるようになっているのは、なかなか興味深いところです。こういう細かいところにも手を入れているということなのでしょうか。
 郵政局がATOK13を使用していれば、今回の間違いは起きなかったのかもしれません (^_^)


話し言葉変換グランプリ (PC Watch 編集後記)

 PC Watch 編集後記の4月9日版で、 船津氏が「話し言葉変換グランプリ」と称してMS-IME98,ATOK12,MS-IME2000(β版)の変換例を載せていました (ちなみに、MS-IME98の変換例だけ「。」が「.」になっているのは、 もしかして句読点の学習が効かないというバグのためではないでしょうか? MS-IME98のサービスリリースで直っているはずです)

 ATOK12の変換結果は、かなり学習に影響されているように思えました。それを確かめるために、ATOK12の学習を初期状態にして、口語体優先を「する」にして変換すると以下のようになりました。 船津氏のATOK12の結果と違う部分を強調表示しています。

ATOK12(初期状態, 口語体優先)

もうすぐゴールデンウィークということで、 なんか浮かれ騒ぎ腐って駅のホームなんぞ包容を繰り返し、 ぶっちゅーと下記すし腐って、 手めぇくそじゃまなんだよそこどきやれじょうたいなのだが独り身は肩身が狭く ホームの隅っこでがっくりとうなだれ「信者億かなー」とか考えながら家路を急ぎ 家に帰る都心や番組で恋愛ドラマとかやっててキーとかなって一人壁に向かって ぶつぶつ言ったりしている人は俺だけですか? 俺だけですね。そうですねよろしくって感十巣か

 いわゆる教科書的な文法からはずれた言葉遣いの部分は、学習の影響をもろに受けているという感じがします。


変換効率No.1

 ATOK12の発売、EGBRIDGE9.0とWXG4.0の発表と、MS-IME98以来静かだったWindows用IMEの世界が最近賑やかになってきました。 毎度のことですが、どのIMEも「自分の所が最高」と宣伝しています。

 なかでもEGBRIDGE9.0は「変換効率No.1」と言い切っている点で注目されるのですが、よく見ると「変換効率No.1(※)」と小さい※印がついています。 そして、発表記事のすみの方にこれまた小さく『(※1998年8月31日現在当社で調査、比較した結果による)』と書いてありました。
 つまり、9月に発売されたATOK12との比較を行っていない状態での「変換効率No.1」ということです。 どうせなら、ATOK12との比較もきちんと行ってNo.1といえば説得力があると思うのですが、なぜそうしなかったのでしょうか...

 ところで、先日発表のあったWXG Ver.4もかなり鼻息があらく、『前バージョン比15%変換精度アップ』と記述されています。 本当だとするとものすごい性能向上ですが、ちょっと変に思うことがあります。
 月刊ASCII3月号特別企画「決定!最新日本語IMEの覇者はこれだ!!」によると、前バージョンWXG Ver.3の変換率は平均で86.0%です。 これに15%を足すと、WXG Ver.4の変換率は100%を越えてしまうことになります。 いくら何でもこれは変でしょう。
 そもそも最近のIMEメーカ各社は、1%以下の単位での変換率の向上にしのぎを削っている状態だと思うので、15%アップという値は、かなり特殊な文章を変換させた場合の話なのではないでしょうか?


ViaVoice98購入

 正直言ってViaVoice98の購入は見合わせようかと思っていました。 VoiceType3.0お試し版 → VoiceType3.0 → VoiceType3.0 Gold → ViaVoice Gold と立て続けに1万円近くのバージョンアップ料金を払っていましたし、今回のバージョンアップ料金は割高感がかなりあったためです。
 製品版の18,000円にたいし、バージョンアップ版が12,000円。しかも、バージョンアップ版にはマイクがついていません。 マイクの値段は4,000円程度($30)なので、バージョンアップ版の実質的な「値引き」はたったの2,000円です。

 それに、ジャストシステムとIBMが共同開発するVoice ATOKが秋頃発売というのも気になりました。 7月にViaVoice98、9月にATOK12とバージョンアップした後で、 またすぐにVoice ATOKのためにバージョンアップというのはたまりません。 2社間にまたがる製品なので、Voice ATOKへのバージョンアップサービスがあるかどうかも不明です。
追記:やっぱりVoiceATOKへのバージョンアップサービスはありませんでしたね。ということで、VoiceATOKは買っていません

 ということで、今回のViaVoice98を買わずにVoice ATOKがでるまで待とうと思っていたのですが、 製品版が比較的安く売ってあったので、結局買ってしまいました。値段は14,000円弱です。アップグレード版(12,000円)より2,000円高いですが、マイクがついている点と旧バージョンの認証が不要な点を考えると(相対的に)安いといえます。
 まだほとんど使っていないのですが、以前と比べてずいぶんと重くなった印象があります。 しかし、重くなっただけの十分な理由があるようで、ViaVoice辞書内容調査をみてもわかるとおり、 辞書を含めたかなりのメジャーバージョンアップだと感じました。

 VoiceType/ViaVoiceシリーズはバージョンアップのサイクルが早く、ユーザーとしては金銭的負担はかなりのものです。 しかし、VoiceTypeで実現された不特定話者の文章認識さえ衝撃的だったのに、ViaVoiceでは連続発声の認識に対応し、 さらにViaVoice98では大語彙化やインタフェースの改良など、すごいペースで改良が進んでいます。
 最初の頃は、技術的にはものすごく高度でも、日常的に使うにはちょっとという感じが大きかったのですが、 バージョンアップの度に問題点が着実に解決されていくのはすごいと思います。 が、もう少しバージョンアップ料金は安くしていただきたいものです。

追記:アップグレード版も店頭で売っていました。値段は9,000円程度と、IBMに直接頼むよりもかなり安いです。


MS-IME97アップデートプログラム (Version1.0A 改訂版)

 MS-IME98ではなく97の方です。Windows95上でハングする不具合の改善や、最新の7桁郵便番号データへの対応が主な内容です。 バージョンが「1.0B」ではなく「1.0A 改訂版」という名前になっているのは何か理由があるのでしょうか...?

 MS-IME98が発売された後にもきちんと旧バージョンのサポートを行う姿勢には好感がもてます。 ついでにWord97の方のアップデートもお願いしたいところです (^_^)


アプリックスがJava対応日本語入力システムを発表

 現在発表されているJava用仮名漢字変換システムは、JustsystemのATOK for Java, オムロンソフトウェアのWnn for Java, NECのCanna for Javaの3つでしたが、アプリックスがJava用の仮名漢字変換システムKKFEPを新たに発表しました。

 今まで発表されてきた3つのJava用仮名漢字変換は、すべてクライアントサーバー型でした。 一方、KKFEPはスタンドアロン型の仮名漢字変換だという点が大きな特徴です。 ただ、仮名漢字変換のエンジン部はJavaではなくネイティブコードで記述されているということです。 JDK1.1に独自対応ということも考えると、組み込み用途にターゲットをおいた仮名漢字変換システムのようです。

 仮名漢字変換のエンジン部についてはプログラムサイズが96KBということ以外はっきりしたことはわかりません。 もし自社製でないとしたら、アプリックスはTRONも手がけているのでTRON用仮名漢字変換を使用しているか、もしかするとVACSがOEM組み込み用に開発したCompact VJEを使っている可能性もあるのではないでしょうか。  


月刊ASCII3月号特別企画「決定!最新日本語IMEの覇者はこれだ!!

 MS-IME98の登場にあわせてか、IME98, ATOK11, WXG3, VJE-Delta2.5, OAK V5の比較を行っています。 IMEの変換アルゴリズムの解説や、テスト文書の変換結果の掲載など雑誌記事としては大変に充実した企画だと思います。

思ったことをつれづれに書いてみると:

特定分野に強いIME98と、オールマイティーなATOK11

 5分野の文書での変換テストでは、IME98とATOK11が一位を分け合う結果になっています。IME98は情報処理や経済分野の文書で一位を、ATOK11はそれ以外(「不機嫌な果実」「成人病を防ぐ本」)で一位をとっています。

 IME98は「大規模コーパスを使ってのチューニングの自動化」を特徴としてあげてます。 情報処理や経済関係の文書など、変換試験によく使われそうな文書で強いのはうなずける結果です。 逆に言うと、IME98は「変換ベンチマーク用にチューニングされている」ということでしょうか。

 一方ATOK11の方は、小説や実用書などの様々な分野の文章をオールマイティーにこなしているという感じです。用例の充実度などが効いているのでしょう。 これで、情報処理関係などの専門分野がもっと強ければいうことないのですが...。

「ビル・ゲイツ」氏が変換勝負を左右する?

 パソコン関連文書での変換率は、IME98が92.9%, ATOK11が92.5%という結果がでています。 テスト用文書の文字数は1万字なので、字数にして約40文字程IME98が勝っていることになります。

 ところで、初期状態のATOK11辞書を調べてみると、「ビル・ゲイツ」「エクセル」といったマイクロソフト用語が辞書に入っていないのに気づきます(わざとなのでしょうか?)。 当然ですが、MS-IMEには入っています。

 この差は、パソコン関連の文章の変換結果に対して、無視できない影響を与えると思います。 もしかすると、インターネットやパソコン関連の文書でIME98が僅差で勝っている理由は、「ビル・ゲイツ」氏の有無だけなのかもしれません (^^;

IME98の「意味ネットワーク」って...

 IME98開発者の話によると「『上位−下位概念』を辞書に取り込んだ」とのことですが、WX3あたりで既にこの手の概念を単語に付加していたはずで、どうも新しさを感じません。 さらに、用例変換テストの結果ではIME98の成績は最下位となっていて、これでは見かけ倒しの感があります。

 IMEに限りませんが、どうも「××方式」などと機能名をやたらとうたっている場合に限って、大したことない場合が多いように思えるのは気のせいでしょうか...。

「四字熟語」はそんなに大切?

 四字熟語の変換テスト結果はWXG3 > IME98 > Delta > ATOK11 > OAK5の順になっています。 しかし、テストされているのは「こんなの使うんだろうか?」という知らない熟語ばかりです(もちろん私の無知もあるとは思いますが)。

 難解な四字熟語が辞書に入っているかどうかよりも、もっと重要なポイントがあると思います。 たとえば、よく使われる「ことわざ」がきちんと変換できるかどうかの方が大切ではないでしょうか。

ちなみに、「過ぎたるは及ばざるがごとし」ということわざが変換できるかどうかというと、

と、どちらも今ひとつです。

 四字熟語の「拈華微笑」が変換できるかどうか、などというのは上のことわざに比べたらどうでもいいというのは言い過ぎでしょうか? 次回は是非「ことわざ変換テスト」をやっていただきたいものです。

漢字検索テストの落ち

 「こざとへん」に「登」という漢字を探すテストでは、Delta2.5, OAK V5, WXG3, IME98の順で調べてみても目的の漢字が見つからず、最後にATOK11で見つかったという結果になっています。

 「ATOKの漢字検索ってそんなにすごいのか」と思ったら、実は探そうとしている漢字はUnicodeにしかない文字で、UnicodeをサポートしているATOKだけがこの漢字を出せるという落ちでした。 これでは「読みがわからない漢字を検索する能力」の比較にはなっていません。 各IMEのUnicodeへの対応状況がどうかというのは、別項目として取り扱うべきものでしょう。

 読みのわからない漢字を検索する機能というのは、各IMEがいろいろ独自に工夫している分野だと思うのですが、その辺の差がわからないテストになっているのは残念です。

注目されないVJE-Delta

 今回比較されている5つのIMEのうち、VJE-Deltaはもっとも前に発売されています。 新しい製品の方が当然有利と思われる中で、VJEは変換率では同点2位になる分野もあり、また用例の充実度ではWXG3やIME98を押さえて2位と、さすが老舗のIMEメーカーとうならせる結果です。

 しかし、記事中でVJEに触れることはほとんどなく、IME98とATOK11以外は眼中になしという感じです。 「よい製品=売れる製品」というわけでないのはこの世の常ですが、せめて雑誌記事ではもう少し注目してあげてもいいのではないでしょうか...。

比較対象外のWnn95

 以前PC Watchで行われた「日本語入力システム(FEP)について」のアンケート結果では、ユーザー数が上から順にATOK, MS-IME, WX(G), VJE-Delata, OAK, そしてWnnという結果になっています。 ちょうど上位5つが今回のIME比較の対象になっていて、その点から考えると今回の記事では妥当な選択がされているといえるのかもしれません。

 しかし、PC Watchのアンケートが行われたのは97年7月で、しかも5位のOAKは59人、6位のWnnが40人と割と僅差な(というかほとんど誤差範囲の)結果になっています。 WnnがWindows上に新規参入してまだそれほどたっていないこと、そしてなかなか意欲的な製品を出していることを考えると、OAKとWnnの順位は逆転していることも十分あり得ます。 また、OAKはOASYS用IMEの意味合いが強く、ほかのIMEとは位置づけがやや異なると思います(使う人は使うが使わない人は使わない)。

 体験版をさわっただけですが、Wnn95はなかなか良さそうな感じでした。どうせなら、OAKの代わりにWnn95を5番目のIMEとして取り上げてもらいたかったものです。


MS-IME98発表。ATOKとの全面対決へ

 かなり前の話になりますが、Word98に付属する形でMS-IME98が03/13に発売と発表されました(Word98の紹介ページで「試算の移行」なる誤変換があるのはご愛敬...なお現在はすでに修正済み)。 実際はWordよりもMS-IMEの方に力を入れたとのことで、ATOKへの対抗意識むき出しというところでしょう。

 しかし、本当に大変そうなのは、ATOK以外のIMEです。 すでに、MS-IME97よりも変換率が劣っているIMEも少なくない状態のようです。カスタマイズや付加機能がいくら優れていても、肝心の変換性能が悪ければ長期的には生き残れない状況は明らかでしょう。なんといっても、MS-IMEは見かけ上無料なのですから...。


[トップページ]

Copyright 2003 力野 健(Ken Tikarano)