Engadget さんの記事。音声認識がスマートフォンや PC で当たり前のように使われるようになったが、意外に文字認識はメジャーになってきていない気がする。個人的には、音声認識より文字認識の方が簡単な気がするのだが(画像処理系が好きなだけかも)。
ということでこの「もじかめ」を試してみた。結論から言うと、(認識が始まれば)活字の認識精度はかなり高いが使える場面は結構限られてきそう。使い方をよくわかっていないのかもしれないが、余りに、一度に対象にできる文字数が少ない感じ。まず、行数が少ない。カメラで撮影している画像がリアルタイムで表示されるのだが、非常に横長な画面である。これは、何度も認識して、他のアプリにどんどんコピペしていけば、まぁ、いいのだが、横方向の制限がきつい。行全体が撮影できるように離れると、文字が小さい、と言われて認識できない。行の途中で切って認識して、後で繋げるのは結構難しいと思われる。
後、こちらは端末のカメラ性能の問題になるかもしれないが、小さい文字にも弱い。というのは、文字の小ささに制限があるので、結構近づいて撮影する必要があるのだが、そうなるとフォーカスが合いにくくなって、文字認識がいつまでたっても始まらなかったり。
一度文字認識が始まると、非常に高い精度で文字認識されるのだが、そこへたどり着くまでと、認識結果をまとめる部分にもう一歩欲しい所。そうすれば実用性が上がる気がするのだが。パノラマ写真のように、文書を複数回撮影しながら、文字認識して全体をデータ化できると素晴らしいのだが。それは結構難しいのかな。
贅沢を言うと、写真の上の白い文字とか、縦持ちにも対応とか、上記画像貼りあわせなんかに対応すれば、非常に実用性が上がると思われる。この認識精度をもっと活かせるようなアプリになるといいなぁ、と思ったり。