Last modified: Mon Sep 22 12:39:11 2003
amazon.co.jpのユースドストア(いわゆる古本)で、日本語変換システムATOK読本 ― ATOK6〜8までAPIを収録 山田祥平著 が販売されていました。
この本は単なる操作解説本ではなく、ATOKのDOS版APIについての資料が載っているので、興味のある人(あまりいないでしょうが...)には非常に貴重です。ATOK APIが載っている資料は、これ以外だとジャストシステムの情報誌"JUST MOAI"以外無く、いずれも入手は絶望的です。
今は、検索エンジンでほとんど何でも情報を探せるありがたい時代ですが、インターネット以前のコンピュータ情報に関してはネットの検索における暗黒地帯です。 このように書籍を探すか、取りつぶしの続くNiftyの掲示板あたりにしか情報がなく、ゆゆしき自体だといえます。
パソ通当時は一般に公開されていた"MS KANJI API"も、インターネットでは発見できません(ATOK読本には載ってますが)。SAISWXの件も含め、Niftyには掲示板のアーカイブシステムの作成を真剣に要望したいところですが...
Interface誌2001年9月号に「かな漢字変換アルゴリズムと辞書のチューニング 組み込み機器における日本語入力環境の紹介」という記事が掲載されていました。著者はオムロンの方です。
アルゴリズムや辞書の話から、携帯電話用かな漢字変換ならではの苦労などが書かれています。なかなか読み応えがありおすすめです。
NiftyのSAISWX(AISOFT Information & WX Station)フォーラムが2000年12月いっぱいで閉鎖され、今後はWebのe言葉でサポート等を行っていくとのことです。 まあ時代の流れだといえますし、e言葉ではWXG for Linux/FreeBSDという強力なコンテンツが登場したせいで比較的順調なスタートをきったようです。
しかし、e言葉にはNiftyのコンテンツが引き継がれていないのが痛いところです。ユーザー作成の辞書などのNifty時代のWX/WXG資産が、フォーラムの閉鎖とともに消え去ってしまうのはゆゆしき事態ではないでしょうか。 なかでも「芙蓉塾: 日本語&FEP教養講座」会議室中で、WXシリーズの開発者オムライス氏が連載された「FEP文法講座」がなくなるのは、仮名漢字変換の技術・文化にとっての損失といってもいいと思います。この講座、実に150回も連載され、仮名漢字変換の内部に興味のある人にとっては必須の資料といえます。
Niftyのアカウントをお持ちの方は、過去ログを根こそぎダウンロードしておくことをおすすめします。また、この「FEP文法講座」は著作権の問題も比較的クリアでしょうから、多少手直しした上でe言葉へ掲載していただけるよう是非ともお願いしたいものです > e言葉スタッフの方々
YahooでATOK.COMのドメイン名がオークションに出ていました (Yahoo!オークション - ATOK.COM)。
希望落札価格が200万。応募者無しで入札はすでに終わっていました。そもそもジャストシステム以外で買う人がいるとも思えませんが...
日本語入力関連のリンクの対象は、あくまでも「私が個人的に興味を持ったもの/おもしろいと思ったもの」です。内容的な偏りはもちろん、メンテナンスをしてなくて情報が古くなっている部分もちらほらあります。 フレッシュアイの日本語入力をみると、この「偏った内容」「古い情報」がそのまま引き継がれており、一般性を求められる検索サイトのディレクトリの内容としては適切でない部分が見受けられます。
追記(00/07/28):7/28時点で多少改善がみられますが、本雑記で指摘した事項の一部に限って対応しただけのようです。 依然としてフレッシュアイの方はオリジナリティに乏しい内容なので、さらなる向上を期待します。
一例を挙げますと:
追記(00/07/27):trrと「7ビットおよび〜」のリンクは削除されました。また字体史研究へのリンクが独自に追加されています。 追記(00/07/28):吉田智子さんのページへのリンクも追加されていました。
きりがないのでここまでとしますが、これらの例はそのまま現在の日本語入力関連のリンクの要修正点と言ってよく、「ページはまめにメンテナンスしないと質の低い情報が広まってしまうのだなあ」と思った次第です (^^; 何はともあれ、こんな所までそのまま参考にされてしまうようでは、誰のためにもならないと思うので困ったものです。
また、以下の2点は(他にもありますけど)、当方のページのソースをそのまま切り張りして作成したものと思われますが、 意味不明/不適切な内容になっているので修正が必要でしょう。
古瀬幸広さんの仮名漢字関連資料アーカイブ ★
- 仮名漢字変換に挑戦した天才栗原俊彦の知られざる物語(PDF版), (HTML版)
- 仮名漢字変換の草分けの研究者の話です
HTML版
古瀬幸広氏が提供する、仮名漢字変換に挑戦した天才栗原俊彦の、知られざる物語にスポットを当てたページです。読み方はWindows版、マック版と選択できます
HTML版の所のソースをそのまま切り張りしたらしく、フレッシュアイの方では意味不明になっています...
また、フレッシュアイは東芝関連なんですから、同じ著者の書いた東芝のワープロ第1号機の話
「ワープロ1号機に賭けた男の戦争(PDF版)」はリンク必須だと思うのですが、
こちらで記述していたリンクが結構長い間デッドリンクでした。フレッシュアイがこちらを参考にした時点では、リンクしたくてもできなかったのかもしれません(自分で探せば見つかるはずなのですが...)。
ちなみに今ならOKですよ。
Ozawa-Ken (Windows, Macintosh用) ★
- 新感覚タイピングゲーム。ヒゴさん作のフリーソフト。スコアを申請すると勲章がもらえます
ヒゴ
higoが提供するゲーム感覚で入力が練習できるフリーソフトのページです。タイピングゲームソフト、テンキー入力練習マシン、脳力測定サイトなど、オンラインでも練習できます。レゴでも遊べます。
同じく、こちらのソースのヒゴの所をそのまま切り張りしたようです。
呼び捨てなのもひっかかりますが、ヒゴさんのページのタイトルはhigopageなので、それに合わせるべきではないでしょうか? 当方のページが「ヒゴ」になっているのは、単に説明の都合上であまりいいとはいえません、こんなところまで「参考」にする必要はないと思います
ついでに言わせていただくと、フレッシュアイのタイピングソフトではTyperCEだけ紹介していますが、本家のTakeさんのTYPERのページを紹介しないのはいかがなものでしょうか?
追記(00/07/27): ページタイトル、呼び捨ての件修正されていました。しかし、こちらを修正して"HTML版"の方はそのままなのは理解に苦しみます...
とりあえずまとめさせていただきますと:
和製英語といえば、MS-IME2000は和製英語を正しい英語に変換できる(Nikkei Net ITトレンド 99/03参照)ということを売りにしています。そこで、Web上で調べたいくつかの和製英語がMS-IME2000, ATOK13で変換できるかどうか試してみました。
和製英語変換結果:
| 和製英語 | 英語表記 | IME2000 | ATOK13 |
| ガッツポーズ | ? | × | × |
| ナイター | night game | ○ | ○ |
| デパート | department store | ○ | ○ |
| テレビゲーム | video game | × | × |
| デッドボール | hit by pitch | × | × |
| フォアボール | base on balls | × | ○ |
| オートバイ | motorcycle/motorbike | × | × |
| フライパン | flyng pan | ○ | ○ |
| イラスト | illustration | ○ | ○ |
| ラムネ | lemonade | × | × |
| ガソリンスタンド | gas station | × | × |
| フライドポテト | french flies | × | × |
| ポケットベル/ポケベル | beeper/pager | × | × |
結果を見るに、和製英語をきちんとサポートしているとは言い難いのではないでしょうか ... と、ここで話を終わろうとしたんですが、念のためIME2000とATOK13の製品紹介ページを見たところ、「和製英語に対応」という言葉は出てきませんね。もともと和製英語をきちんとサポートしているわけではないようです。
ATOK13 風の又三郎 ATOK12 風のまた三郎 MS-IME98/2000 風のまた三郎
ATOKが13になって正変換できるようになっているのは、なかなか興味深いところです。こういう細かいところにも手を入れているということなのでしょうか。
郵政局がATOK13を使用していれば、今回の間違いは起きなかったのかもしれません (^_^)
ATOK12の変換結果は、かなり学習に影響されているように思えました。それを確かめるために、ATOK12の学習を初期状態にして、口語体優先を「する」にして変換すると以下のようになりました。 船津氏のATOK12の結果と違う部分を強調表示しています。
ATOK12(初期状態, 口語体優先)もうすぐゴールデンウィークということで、 なんか浮かれ騒ぎ腐って駅のホームなんぞで包容を繰り返し、 ぶっちゅーと下記すし腐って、 手めぇくそじゃまなんだよそこどきやがれじょうたいなのだが独り身は肩身が狭く ホームの隅っこでがっくりとうなだれ「信者億かなー」とか考えながら家路を急ぎ 家に帰る都心や番組で恋愛ドラマとかやっててキーとかなって一人壁に向かって ぶつぶつ言ったりしている人は俺だけですか? 俺だけですね。そうですねよろしくって感十巣か
いわゆる教科書的な文法からはずれた言葉遣いの部分は、学習の影響をもろに受けているという感じがします。
なかでもEGBRIDGE9.0は「変換効率No.1」と言い切っている点で注目されるのですが、よく見ると「変換効率No.1(※)」と小さい※印がついています。
そして、発表記事のすみの方にこれまた小さく『(※1998年8月31日現在当社で調査、比較した結果による)』と書いてありました。
つまり、9月に発売されたATOK12との比較を行っていない状態での「変換効率No.1」ということです。
どうせなら、ATOK12との比較もきちんと行ってNo.1といえば説得力があると思うのですが、なぜそうしなかったのでしょうか...
ところで、先日発表のあったWXG Ver.4もかなり鼻息があらく、『前バージョン比15%変換精度アップ』と記述されています。
本当だとするとものすごい性能向上ですが、ちょっと変に思うことがあります。
月刊ASCII3月号特別企画「決定!最新日本語IMEの覇者はこれだ!!」によると、前バージョンWXG Ver.3の変換率は平均で86.0%です。
これに15%を足すと、WXG Ver.4の変換率は100%を越えてしまうことになります。
いくら何でもこれは変でしょう。
そもそも最近のIMEメーカ各社は、1%以下の単位での変換率の向上にしのぎを削っている状態だと思うので、15%アップという値は、かなり特殊な文章を変換させた場合の話なのではないでしょうか?
それに、ジャストシステムとIBMが共同開発するVoice ATOKが秋頃発売というのも気になりました。
7月にViaVoice98、9月にATOK12とバージョンアップした後で、
またすぐにVoice ATOKのためにバージョンアップというのはたまりません。
2社間にまたがる製品なので、Voice ATOKへのバージョンアップサービスがあるかどうかも不明です。
追記:やっぱりVoiceATOKへのバージョンアップサービスはありませんでしたね。ということで、VoiceATOKは買っていません
ということで、今回のViaVoice98を買わずにVoice ATOKがでるまで待とうと思っていたのですが、
製品版が比較的安く売ってあったので、結局買ってしまいました。値段は14,000円弱です。アップグレード版(12,000円)より2,000円高いですが、マイクがついている点と旧バージョンの認証が不要な点を考えると(相対的に)安いといえます。
まだほとんど使っていないのですが、以前と比べてずいぶんと重くなった印象があります。
しかし、重くなっただけの十分な理由があるようで、ViaVoice辞書内容調査をみてもわかるとおり、
辞書を含めたかなりのメジャーバージョンアップだと感じました。
VoiceType/ViaVoiceシリーズはバージョンアップのサイクルが早く、ユーザーとしては金銭的負担はかなりのものです。
しかし、VoiceTypeで実現された不特定話者の文章認識さえ衝撃的だったのに、ViaVoiceでは連続発声の認識に対応し、
さらにViaVoice98では大語彙化やインタフェースの改良など、すごいペースで改良が進んでいます。
最初の頃は、技術的にはものすごく高度でも、日常的に使うにはちょっとという感じが大きかったのですが、
バージョンアップの度に問題点が着実に解決されていくのはすごいと思います。
が、もう少しバージョンアップ料金は安くしていただきたいものです。
追記:アップグレード版も店頭で売っていました。値段は9,000円程度と、IBMに直接頼むよりもかなり安いです。
MS-IME98が発売された後にもきちんと旧バージョンのサポートを行う姿勢には好感がもてます。 ついでにWord97の方のアップデートもお願いしたいところです (^_^)
今まで発表されてきた3つのJava用仮名漢字変換は、すべてクライアントサーバー型でした。 一方、KKFEPはスタンドアロン型の仮名漢字変換だという点が大きな特徴です。 ただ、仮名漢字変換のエンジン部はJavaではなくネイティブコードで記述されているということです。 JDK1.1に独自対応ということも考えると、組み込み用途にターゲットをおいた仮名漢字変換システムのようです。
仮名漢字変換のエンジン部についてはプログラムサイズが96KBということ以外はっきりしたことはわかりません。 もし自社製でないとしたら、アプリックスはTRONも手がけているのでTRON用仮名漢字変換を使用しているか、もしかするとVACSがOEM組み込み用に開発したCompact VJEを使っている可能性もあるのではないでしょうか。
思ったことをつれづれに書いてみると:
5分野の文書での変換テストでは、IME98とATOK11が一位を分け合う結果になっています。IME98は情報処理や経済分野の文書で一位を、ATOK11はそれ以外(「不機嫌な果実」「成人病を防ぐ本」)で一位をとっています。
IME98は「大規模コーパスを使ってのチューニングの自動化」を特徴としてあげてます。 情報処理や経済関係の文書など、変換試験によく使われそうな文書で強いのはうなずける結果です。 逆に言うと、IME98は「変換ベンチマーク用にチューニングされている」ということでしょうか。
一方ATOK11の方は、小説や実用書などの様々な分野の文章をオールマイティーにこなしているという感じです。用例の充実度などが効いているのでしょう。 これで、情報処理関係などの専門分野がもっと強ければいうことないのですが...。
パソコン関連文書での変換率は、IME98が92.9%, ATOK11が92.5%という結果がでています。 テスト用文書の文字数は1万字なので、字数にして約40文字程IME98が勝っていることになります。
ところで、初期状態のATOK11辞書を調べてみると、「ビル・ゲイツ」や「エクセル」といったマイクロソフト用語が辞書に入っていないのに気づきます(わざとなのでしょうか?)。 当然ですが、MS-IMEには入っています。
この差は、パソコン関連の文章の変換結果に対して、無視できない影響を与えると思います。 もしかすると、インターネットやパソコン関連の文書でIME98が僅差で勝っている理由は、「ビル・ゲイツ」氏の有無だけなのかもしれません (^^;
IME98開発者の話によると「『上位−下位概念』を辞書に取り込んだ」とのことですが、WX3あたりで既にこの手の概念を単語に付加していたはずで、どうも新しさを感じません。 さらに、用例変換テストの結果ではIME98の成績は最下位となっていて、これでは見かけ倒しの感があります。
IMEに限りませんが、どうも「××方式」などと機能名をやたらとうたっている場合に限って、大したことない場合が多いように思えるのは気のせいでしょうか...。
四字熟語の変換テスト結果はWXG3 > IME98 > Delta > ATOK11 > OAK5の順になっています。 しかし、テストされているのは「こんなの使うんだろうか?」という知らない熟語ばかりです(もちろん私の無知もあるとは思いますが)。
難解な四字熟語が辞書に入っているかどうかよりも、もっと重要なポイントがあると思います。 たとえば、よく使われる「ことわざ」がきちんと変換できるかどうかの方が大切ではないでしょうか。
ちなみに、「過ぎたるは及ばざるがごとし」ということわざが変換できるかどうかというと、
四字熟語の「拈華微笑」が変換できるかどうか、などというのは上のことわざに比べたらどうでもいいというのは言い過ぎでしょうか? 次回は是非「ことわざ変換テスト」をやっていただきたいものです。
「こざとへん」に「登」という漢字を探すテストでは、Delta2.5, OAK V5, WXG3, IME98の順で調べてみても目的の漢字が見つからず、最後にATOK11で見つかったという結果になっています。
「ATOKの漢字検索ってそんなにすごいのか」と思ったら、実は探そうとしている漢字はUnicodeにしかない文字で、UnicodeをサポートしているATOKだけがこの漢字を出せるという落ちでした。 これでは「読みがわからない漢字を検索する能力」の比較にはなっていません。 各IMEのUnicodeへの対応状況がどうかというのは、別項目として取り扱うべきものでしょう。
読みのわからない漢字を検索する機能というのは、各IMEがいろいろ独自に工夫している分野だと思うのですが、その辺の差がわからないテストになっているのは残念です。
今回比較されている5つのIMEのうち、VJE-Deltaはもっとも前に発売されています。 新しい製品の方が当然有利と思われる中で、VJEは変換率では同点2位になる分野もあり、また用例の充実度ではWXG3やIME98を押さえて2位と、さすが老舗のIMEメーカーとうならせる結果です。
しかし、記事中でVJEに触れることはほとんどなく、IME98とATOK11以外は眼中になしという感じです。 「よい製品=売れる製品」というわけでないのはこの世の常ですが、せめて雑誌記事ではもう少し注目してあげてもいいのではないでしょうか...。
以前PC Watchで行われた「日本語入力システム(FEP)について」のアンケート結果では、ユーザー数が上から順にATOK, MS-IME, WX(G), VJE-Delata, OAK, そしてWnnという結果になっています。 ちょうど上位5つが今回のIME比較の対象になっていて、その点から考えると今回の記事では妥当な選択がされているといえるのかもしれません。
しかし、PC Watchのアンケートが行われたのは97年7月で、しかも5位のOAKは59人、6位のWnnが40人と割と僅差な(というかほとんど誤差範囲の)結果になっています。 WnnがWindows上に新規参入してまだそれほどたっていないこと、そしてなかなか意欲的な製品を出していることを考えると、OAKとWnnの順位は逆転していることも十分あり得ます。 また、OAKはOASYS用IMEの意味合いが強く、ほかのIMEとは位置づけがやや異なると思います(使う人は使うが使わない人は使わない)。
体験版をさわっただけですが、Wnn95はなかなか良さそうな感じでした。どうせなら、OAKの代わりにWnn95を5番目のIMEとして取り上げてもらいたかったものです。
しかし、本当に大変そうなのは、ATOK以外のIMEです。 すでに、MS-IME97よりも変換率が劣っているIMEも少なくない状態のようです。カスタマイズや付加機能がいくら優れていても、肝心の変換性能が悪ければ長期的には生き残れない状況は明らかでしょう。なんといっても、MS-IMEは見かけ上無料なのですから...。
Copyright 2003 力野 健(Ken Tikarano)