こんにちはゲストさん。会員登録(無料)して質問・回答してみよう!

解決済みの質問

OCRソフトの活用方法など

1.仕事で紙の資料が山積みになってしまいます。
  スキャナーはEPSONのものがあります。
  機種名はおぼえていません。
  OCRのソフトを使えると便利に思うのですが
  おすすめのソフトはありますか?

2.使い方で疑問に思うのですが
  スキャナーで読み取ると通常画像イメージに
  なると思うのですが、OCRってそこからどのように
  やるとデータなどになるのでしょうか?
  原理というか手順みたいなことを教えてください。

3.ちなみにEXCELやWORDなどの罫線などは
  無視されてしまうのでしょうか?

4.おすすめのものがあればプライベートでも
  活用したいと思います。
  便利な活用方法があれば教えてください。

ご回答をいただける方はどれか1つでも全然かまいません。大歓迎です。
たくさんのアドバイスを参考にしたいと思います。

投稿日時 - 2003-10-14 01:02:04

QNo.679003

困ってます

質問者が選んだベストアンサー

僕は、紙である必要のない文書は「読んde!!ココ」で透明テキスト付きPDFにしています。
OCRで認識した文字をPDFにするのですが、背景に読み込んだ画像が入っていて、文字色が透明になっています。そのため、見た目はただのスキャン画像なので印刷するともとの紙を再現できます。しかし、OCRの認識結果が入っているので検索することができます。
OCRは認識率が100%ではない(汚い印刷だと非常に厳しい)のですが、検索するときのキーワードとして使うなら、認識率が低くてもあまり困りません。
僕はこれを特定のフォルダにため込んで、サーチクロスで検索をかけています。便利ですよ。

投稿日時 - 2003-10-14 01:08:54

お礼

へえっ!!という感じです。
面白そうですねえ。
近いうちに試してみたいと思います。
ありがとうございました。

投稿日時 - 2003-10-21 21:20:52

このQ&Aは役に立ちましたか?

0人が「このQ&Aが役に立った」と投票しています

回答(2)

ANo.2

(1)スキャナで読み取り-->イメージ
(2)特徴の抽出
正規化(回転・縮小ほか)をする。その後
XX法といったメソド(アルゴリズム)が古くから大学や企業で研究されている。(不勉強で○○法を列挙できません。)
CPUスピードアップと機器安価化で日の目をみた理論もあろう。昔1980年代後半では手書きOCRは数千万円した。
数学的処理(計算)がなされて、指標が出てくるものが多い。
そして予め判っている文字等のその指標と比べて一致率が高い
とそれを文字候補とする。
どう言う点を捉えてどう計算するかがミソです。
下記語句(術語)でWEB照会してください。
パターンマッチング OCR
パターン認識
正規化相関
文字認識
http://www.ipsj.or.jp/members/Magazine/Jpn/1701/article002.html
http://www2.tokai.or.jp/nandemo/exp/neuro_01.html
http://www.yam.info.gifu-u.ac.jp/intro/intro_word.html
http://www.mars.dti.ne.jp/~igusa/mojiken.htm
http://it.jeita.or.jp/document/ocr_scanner/sakuin/honmon/ocr834c.html
(3)辞書の併用
辞書を持って、その中の熟語や係り結びなどを手掛かりに、曖昧部分を推定する。
(「微○法」と読めれば○は辞書を調べ、「分」が入ると類推するようなこと。)
(4)OCR文字の認識・バーコード認識-一般印刷文字認識-手書き文字認識と困難が増すが、認識率を上げる難しさがある。現在は90%
の半ばぐらいか?

投稿日時 - 2003-10-14 07:02:51

お礼

ありがとうございます。
お礼が大変遅れてしまいました。
なるほどいろいろな手法の歴史があるのですね。

投稿日時 - 2003-10-21 21:18:42

あなたにオススメの質問