2000/09/17

eTypist V6.0 プラスファイリング

パソコンを使う最大のメリットは、データを効率良く管理してペーパレスを推進し、ネットワークを使ったデータの共有を行うことではないかと思います。

私の場合、PC系の雑誌を毎月何冊か買っているのですが、古い雑誌も捨てられずにたくさん残ってしまっています。どうして捨てられないかというと、大抵の雑誌は毎号特集を組んでいて、どの特集を見てもなかなか有用で後から必要になりそうだからです。といっても、特集記事は雑誌のほんの一部で、あとは捨ててもいいような広告だったり、一度読めばいいような記事だったりします。かといって、必要な部分だけを切り取ってファイルしても今度は探すのが大変になるので、結局は雑誌ごと本棚に並んでいるという状態です。しかし、本棚のスペースにも限りがあるので、なんとかしなければなりません。

私が使っているイメージスキャナはシャープのXJ-250とい400dpiのSCSIモデルで、購入してから既に3年以上経っています。当初はプリントした写真の整理に使っていましたが、最近はデジタルカメラで撮影することが多いので、あまり出番がなくなってしまいました。で、このスキャナに付属のOCRソフト、e.Typist LE2を使って、新聞や雑誌のスクラップのテキスト化というのにトライしてみたのですが、結構誤認が多くて使おうという気にはなりませんでした。

先日電気屋さんに行ったときに、ソフトコーナーを見てみるとe.Typistのバージョンが6.0までアップしており、「飛躍的な性能アップ」などと書いてありちょっとグラッときました。値段を見てみると、正規版は2万6千円ほどするのですがアップグレード版は約半額というのでまたグラグラッときてつい買ってしまいました。


パッケージにはe.Typistのほかに、画像管理ソフトの「やさしくファイリング2」、名刺管理ソフトの「e.Contactエントリー」、英日翻訳ソフトの「Pocket Transer EJ eco」がバンドルされています。

プログラムをインストールして、早速使ってみます。以前使っていたLE2は、ライト版ということもあり、機能にいくつかの制限がありました。メニューを開くと、選べない項目があります。今回購入したものはもちろんフルバージョンなので、すべての機能が使用可能です。

単純なレイアウトの原稿なら、読み取りから認識まで自動でやってくれる「オート」で作業を行うのが簡単です。この場合でも、原稿の種類は手動で行います。スキャンタイプとしては、「カラー」「グレー」「モノクロ」があり、デフォルトはカラーです。DPIはデフォルトで「400」に設定されていますが、「300」も選べます。「600」という設定もありますが、XJ-250は最大が400DPIなので、この設定は意味がありません。また、スキャンタイプでモノクロを選んだときだけ、濃度を選択することが出来ます。濃度の種類は「新聞」「濃い原稿」「雑誌・書籍」「薄い原稿」「レーザープリンタ」「ユーザ設定」「自動」の7種類です。ちなみに、LE2は「モノクロ」のみです。

これらの設定を選択して、プレスキャンを行い、スキャン範囲を確定してから本番のスキャンを行います。スキャン終わったら「終了」ボタンを押すと、続けて認識を行い、テキストファイルが出力されます。


認識率がどれだけ良くなったかを検証する為、これまでのLE2と最新版の6.0で同じ原稿を認識させ、どれだけの差があるのかテストしてみました。

テスト原稿は、前回の「10倍速DVD-ROMドライブ」をWordに読み込み、一部編集してレーザープリンタのLP-1500Sで印刷したものです。原稿は、画像を削除して、本文のフォントサイズを全て「8」にセットしました。途中に赤文字の部分と最後の「戻る」の青文字はそのままモノクロ印刷したので、ハーフトーンで表現されています。もともと、このプリンタはフォントが細く、一部にかすれもあるので、認識する条件としてはかなり厳しいものと思います。

読み取りのモードは条件を合わせる為、「モノクロ」の「薄い原稿」にセットしました。

認識結果:eTypist 6.0

認識結果:eTypist LE2

結果を見ると、6.0の方は小さい「ッ」が「・ソ」と変換されているのが目立ちます。またアルファベットでの認識ミスも多いようです。これは印刷のかすれが原因ということもあるのですが、もう少し正確に認識してくれるとありがたいところです。一方、LE2の方はそのまま使うのはちょっとつらいものがあります。全体的に訳のわからないコードが多いですし、文章として使えるものではありません。カラーを白黒印刷した部分は、どちらも訳のわからない文章になってしまっています。

6.0の方は、雑誌や新聞記事の認識もとても良好で、原稿の背景が白で、本文が黒文字で文字の品質も良好なら、99%以上の認識率といっても過言ではありません。ただし、雑誌などでは背景に薄い色や模様を使っている場合や、白黒反転している原稿もあるので、このような場合はあきらめるしかありません。

バンドルされているソフトの「やさしくファイリング2」は画像とテキストを一括管理できるソフトです。このソフトを使えば、雑誌のスキャン画像を認識したテキストで検索するなど、ペーパレスを効率良く実現することが出来そうです。この辺は今月号の「日経クリック」にもノウハウが掲載されていました。この記事を読んで研究したいと思います。


認識した本文を読み上げてくれるソフトがあったらいいな〜なんて思っていたら、NECの音声認識・合成ソフトで良さそうなものがありました。次のターゲットはこれかな!?

雑誌やメールを読ませてMP3に変換して、あとでMP3プレーヤーで聞くなんてことを考えていると、だんだん人間的な欠陥が大きくなっていきそう...。


戻る