こんにちはゲストさん。会員登録(無料)して質問・回答してみよう!

-広告-

解決済みの質問

OCR とはこんなものか

必要があって昔来た手紙(手書き)のコピーをとったのですが、ためしにとスキャナー(キャノン)に付帯してきたOCRを動かしたのです。結果は散々で、結局単純なコピーになったのですが、OCRとはどのような場合に有用なのでしょうか。OCR って20年以上前からあったようですが。

ワープロの文書が有効らしいのは分かります。これは元の記憶媒体がなくなった場合に使うのでしょう。
手書きの文字は、やはり無理なのでしょうか。もっと先端的な(おそらく有料の)ソフトが常識的に流布しているのでしょうか?

手書きといっても楷書体で、丁寧な文章でした。OCRが有用なのは常識人が読めない古文書とか、草書体でなければならないと思うのですが、考え違いなのでしょうか。

今でも作家などは手書きで出稿されていますが、やはり人間がタイピングしているのですよね。

投稿日時 - 2016-01-23 19:10:47

QNo.9115956

暇なときに回答ください

質問者が選んだベストアンサー

手書きの文字でも良く認識できるものはあります。ただしお値段もかなりします。
業務用の専門の解析ソフトが搭載されている帳票関係のシステムなんかは手書き文字の認識率がかなり優れているモノがあります。逆に、スキャナに付いてくる程度のものは認識率もそれなりです。ただ、こんなのでも十分役に立つ事はあります。

私は仕事で特許や技術論文を数多く取り扱いますが、この世界ではまだPDFでは提供されないモノが数多くあり、未だにコピーされた紙で資料を入手する事があります。こうしたものをデジタル化する際にOCRを利用しますが、最近のは非常に精度良く認識してくれます。活字やプリントアウトされた文字のように綺麗な文字であれば(特に数字やアルファベット)ほぼミス無く変換してくれます。

手書き文字というのはどんなに丁寧に書いても、結局は人に拠って違いが生じる事と、感じの種類の多さがどうしても認識上のネックになります。

でも、何時までも難しいままではないでしょう。例えば音声認識は格段の進歩を遂げました。GoogleやAppleのCMで見た事もあると思います。数年前には出来なかった事です。文字認識も近い将来、同じような進歩が待っていると思います。最後の質問もそうです。手書きの作家さんもまだまだいると思います。原稿はアシスタントの方や編集の方などが打ち直します。ただ、これも将来はOCRにできたり、あるいはペンで書いていく端から自動的にデジタル化されて入力(「私」とペンで書くと自動的にPC上に「私」と入力される)するようなオンライン文字認識の技術も発展していく事でしょう。

参考URL:http://mediadrive.jp/products/formocr/

投稿日時 - 2016-01-23 19:40:37

お礼

ご丁寧なご回答ありがとうございます。
>手書きの文字でも良く認識できるものはあります。ただしお値段もかなりします。

そうなんですね。ずいぶん昔からあるソフトだと思っていたのですが、限られた需要しかなければなかなか安くはならないのですね。
>こうしたものをデジタル化する際にOCRを利用しますが、最近のは非常に精度良く認識してくれます。活字やプリントアウトされた文字のように綺麗な文字であれば(特に数字やアルファベット)ほぼミス無く変換してくれます。

なるほど、活字なら実用段階なのですね。参考になりました。

音声認識のほうがリードしているのは、やはり需要が大きいからでしょうね。私は画像処理とか動画の進歩を見ていてもっとよくなっているのかと思っていたのです。音声のほうがむづかしいものと勘違いしていました。これはペン入力がそうであるように、ひとつのくくりがはっきりしているのがりゆうなのかもしれません。
>手書きの作家さんもまだまだいると思います。原稿はアシスタントの方や編集の方などが打ち直します。ただ、

なるほど、NO・1の方の仰る意味がわかりました。
ありがとうございました。

投稿日時 - 2016-01-23 20:47:46

このQ&Aは役に立ちましたか?

1人が「このQ&Aが役に立った」と投票しています

-広告-
-広告-

回答(5)

ANo.5

オマケのソフトはそんなものですよ。おそらくはそもそも活字用だと思いますし。

手書き用のOCRもあります。郵便番号だけなら50年前から使われています。昔は数字とアルファベットだけでしたが、30年位前から日本語もほぼ読み取れるようになりました。

今は郵便の仕分けは郵便番号だけではなく住所やあて先も読み取りますし、選挙の投票用紙もOCRで読み取ります。

古文書のOCRは20年位前から取り組みが始まっていますが、今はまだ8割程度らしいです。それでもかなり助かるとは思います。

オマケのソフトがOCRの世界水準だと思わないでください。
「オマケのソフトだからこの程度」と考えるようにしましょう。

OCRの能力|【認識率】手書き文字 93%、手書き数字 99.5%
https://www.fk-data.com/abilityofocr.html
手書きOCRソフトウェア FormOCR | 大塚商会
http://www.otsuka-shokai.co.jp/products/ods/scan/solution/formocr.html

ASCII.jp:凸版印刷、江戸以前のくずし字を高精度にOCRする技術を開発
http://ascii.jp/elem/000/001/025/1025165/

投稿日時 - 2016-01-23 20:55:32

お礼

ご回答ありがとうございます。
>古文書のOCRは20年位前から取り組みが始まっていますが、今はまだ8割程度らしいです。それでもかなり助かるとは思います。

ほう、やはりその方向もあるのですね。私は草書体が読めるようなソフトを出したら一般的に売れるだろうと思っているのですが、どんなものでしょうか。

>オマケのソフトがOCRの世界水準だと思わないでください。
「オマケのソフトだからこの程度」と考えるようにしましょう。
はい、そう考えます。でもおもったよりひどかったので、質問したのです。

枠の中に一字づつ入れたら、確かに識字率は高まると思います。それでも93%なのですね。

要はまだにんげんんパター認識のように考えられるソフトは出来ていないのですね。
むずかしいものですね。

すみません、ベストアンサー決定後に受け取ったので、お礼とありがとうポイントでご勘弁を。

投稿日時 - 2016-01-23 21:09:12

ANo.4

市販のソフトでもスキャナー付属のおまけ程度のでも認字率はほとんど変わりありません。
雑誌などをOCRにかけても1割程度は誤認があるので必ず手直しが必要になります。
手書きならほよど綺麗なものでなければ誤認だらけですね。
達筆ならまともに認識できない。

スキャンする時に解像度は300dpi以上で行っていますか?
読み取り解像度が低いとそれだけOCRの精度は劣ります。
極端に大きくしても無駄にデータ量が増えるだけだけども。

郵便番号とか特化したものならかなり汚い文字でも識別できるけど、あらゆる文字を識別させるのは難しいです。

> 手書きで出稿されていますが、やはり人間がタイピング
OCRにかけても誤認があるし、人の目で確認が必要だから、最初から人が打った方が効率的です。


手書きのも含めて紙の資料をそのまま電子化するなら、OCRは有効ですよ。
PDF形式で基本は画像で、OCRで認識したデータを透明テキストとして埋め込んでおくと、あとでキーワード検索できるようになるから。
誤認だらけだとまともに検索できないないけど、最悪画面上で画像としては見れる。

投稿日時 - 2016-01-23 19:57:25

お礼

クリヤーなご回答ありがとうございます。
>市販のソフトでもスキャナー付属のおまけ程度のでも認字率はほとんど変わりありません。

そうなんですね。やはり何十万もするのは市販しても買わないでしょうし。

>手書きならほよど綺麗なものでなければ誤認だらけですね。

確かに。300dpi でしたが達筆と言うより良く分かる丁寧な文面でしたが、殆ど読めず、識字率0でした。

>PDF形式で基本は画像で、OCRで認識したデータを透明テキストとして埋め込んでおくと、あとでキーワード検索できるようになるから。
誤認だらけだとまともに検索できないないけど、最悪画面上で画像としては見れる。

なるほど、そんな利用法があるのですね。

いろいろ参考になりました。ありがとうございました。

投稿日時 - 2016-01-23 20:55:13

ANo.2

 OCR(光学的文字読み取り装置)は活字の読み取りの為に作られた技術で、筆記の読み取りは人工知能を使っても限界が多いと言われています。

 イメージスキャナーで活字を読み取れば、僅かな誤植があるでしょうが、ほとんどは読み取れるはずです。

 活字と筆記では、細かい特徴がまるで違い、活字を100%近い確率で読み取れるOCRでも、筆記は読み取り率が低くなるのが普通です。

 理由はスキャンした文字を拡大して見るとわかりますが、文字の周辺に滲んだ部分があって、それを認識するのが難しく、活字では滲んだ部分が無いので、認識しやすいわけです。

投稿日時 - 2016-01-23 19:36:44

お礼

>活字の読み取りの為に作られた技術で、筆記の読み取りは人工知能を使っても限界が多いと言われています。

やはりそうだったのですね。
>僅かな誤植があるでしょうが、ほとんどは読み取れるはずです。

いまのところ必要がないのでやっていませんが、テストした手書きの書面がほぼ100%不能だったので、愕然としたのです。せめて読みやすい半分くらいは、と思っていたので、まるきり使い物にならないとは、と想定外でした。

>文字の周辺に滲んだ部分があって、それを認識するのが難しく、活字では滲んだ部分が無いので、認識しやすいわけです。

そうなんですね。まだパターン認識まではいっていないのですね。

よくわかりました。

投稿日時 - 2016-01-23 20:35:49

ANo.1

ワープロ文書などは元データが提供されるとは限りません。OCRは結構活躍してます。
確定申告、これは数字のみですが、OCRにかけるようです。その後、手作業で修正。
なので、電子申告を推奨するわけです。最初からデータなら御の字。
webでプリントアウトさせるのも、手書きよりはよほど認識しやすいからでしょう。
税務署だけにコスト意識が高いです。だったら、電子申告ももっと割引すりゃ使ってやるのに。w

手書きは、ペン入力などもできるので、それなりに認識できるようです。
ただ、1文字ずつではなく、スキャンとなるとやはりもうちょい難しいようで。
でも、何十万もするソフトにすればだいぶ良くなるようです。

今どきの作家はほとんどワープロというかpcですよ。何と言っても修正が簡単ですから。
手書きもいるでしょうけど、タイピングなんかしてくれるのはトップクラスだけで、ほとんどはそんな余裕は無いと思います。

投稿日時 - 2016-01-23 19:32:23

お礼

早速のご回答ありがとうございます。
数字は郵便などで、使われているなと感じていました。形が単純ですからソフトもラクなのでしょうね。
>1文字ずつではなく、スキャンとなるとやはりもうちょい難しいようで。
でも、何十万もするソフトにすればだいぶ良くなるようです。

一文字づつならラクなのは分かります。でもソフトが¥何十万!?
やはりそのくらいはするのですね。いずれ一般では買えない特注そふとなのではないでしょうか。

>今どきの作家はほとんどワープロというかpcですよ。何と言っても修正が簡単ですから。
あっ、そうなんですか。確かにそうかもです。村上春樹なんかは想像できますが、大江健三郎などは見るからにやっていなさそうです。でも
>タイピングなんかしてくれるのはトップクラスだけで、ほとんどはそんな余裕は無いと思います。
だれかはしなければ出版できないと思いますが。それとも植字室へ送られるのでしょうか。

ともかくありがとうございました。

投稿日時 - 2016-01-23 20:29:36

-広告-
-広告-
-広告-
-広告-