ホーム > タグ > Evernote OCR

Evernote OCR

EvernoteでOCRを活用した手書きノートのコツと活用法

Evernoteには手書き文字の検索機能もついてます。

推測ではありますが背景の線が強すぎたりすると文字認識の精度を下げる可能性があるかもしれません。

特に背景が必要な場合を除いて、シンプルな状態での保存をしておいた方が良いと思います。

 

Evernoteの OCR 技術は、PDF 内のタイプされたテキストを検索可能にするだけでなく、

画像内の手書き文字の検索とインデックス作成も可能です。

手書き文字が見つかりインデックス付けされる確率を高めることもできます。

PDF内のテキスト検索はプレミアム版へのアップグレードが必要となります。

無料版でEvernote内で手書きテキストを検索するならJPGでの保存となります。

 

Evernote でのOCRの仕組み

手書きの単語に対して唯一の一致結果を生成するのでなく、

一致する可能性のある単語をいくつか候補として生成します

 

例えば「flat」と書かれた JPG は「flat」「float」「fiat」などとして複数インデックスされます

Mac ユーザと Android ユーザ、最近はiPadやiPhoneでもアプリが出てますが、

Skitchを使えば画像にメモを書き込むだけでなく書き込みを Evernote の OCR 技術で処理できます。

 

  • 手書き文字を含む画像はPDF ではなく JPG画像として Evernote に追加して下さい。PDF ファイルは、タイプされたテキストを含む文書やスキャンしたページに適したフォーマットです。一方手書きのテキストはPDF ファイルではインデックスが作成されません。
  • 手書きの文字の場合筆跡が明瞭なほど、正確に検索用インデックスされる可能性が高いです文字が雑に書かれ、読みとりにくい場合は、Evernote でも書かれた文字を判別できない場合が多くなります。
アプリを使う場合、手書きノートアプリには最低でも5〜6色くらい色が用意されていると思いますが、

色は多いと見た目も楽しくカラフルな印象を持ちますが、使っているうちに配色が散漫になりやすく見にくくなってしまいます。
Evernoteの1ページを見ている範囲では良いのかもしれませんが数ページにわたって色にばらつきがあると、

見にくくなって統一性も欠けてしまいます。

1~2色くらいに決めて手書きメモをするのがオススメです。

EvernoteのOCR機能でノートを検索する活用術

まずは、EvernoteでOCR機能を使ってノートを検索する方法を説明します。

OCR機能を使えば、画像として保存しておいた名刺や手書きのメモなどを文字として認識させ、
検索をかけることができます。

「OCR」とは画像内の文字を識別することのできる機能です

Evernote内での検索の仕方

1.検索フォームに見つけたいキーワードを入力します。

2.検索結果が表示されてキーワードが黄色いマーカーをひかれた状態で表示されます

ローマ字はかなりの精度で認識してくれます
画像内の文字を認識するには2、3分ほどかかりますので、
作成してすぐには検索にヒットしませんので気をつけてください。

ビジネスマンの活用法 名刺もEvernoteで楽々管理!

ビジネスにおいての名刺。裏にメモを書いたり、特徴や会話の内容を書いたり、
日付順にスクラップしたりと、ビジネスマンは人それぞれの活用をしていると思います。
ですが、これが大変厄介な作業になっていることは、皆さんも感じているでしょう

名刺をもらった後に「あれ?この人、誰だっけ?」という事態になっても
「もう一回名刺ください」なんてことは言えません・・・
取り扱い方や整理方法はとても大事です。

もらった名刺を、ドキュメントスキャナScanSnapでデータ化してEvernoteに取り込めば、
EvernoteのOCR機能で、会社名・名前・役職・住所・電話番号・メールアドレスなど、

うる覚えでも検索できます。

溜め込んだ名刺もScanSnapでまとめてスキャンして、Evernoteへ。数年ぶりに連絡が来ても、
探す時間のムダや名前を間違えてしまう、ということも解消できます。

紙で溜まっている資料も、Evernoteで解消!

iPadやタブレットが数多く増えている現在でも未だに、資料を紙でもらうという行為は続いています。
困ったことに、そうやってプリントアウトした紙で渡される資料は束になってすぐに見つからなかったり
ホッチギスで留められてて、外して処理する手間もかかります。
もらった紙の資料を読みながら、今まで何度頭の中で 『Ctrl+F』できたら・・と思うこともあります。
そんな紙の資料へのモヤモヤは、ScanSnapとEvernoteで解決しましょう。

まずは、資料をScanSnapでPDF化。その際にScanSnapが持つOCR機能を使ってテキスト情報を
取り出しておけば、これでひとまずPC上での『紙のCtrl+F』問題は乗り越えられます。

また、ScanSnap側でOCRを行わず、スキャンしたデータをそのままEvernoteに保存しておけば

Evernote上でのOCR機能が働くので、いつでもどこでも、テキスト検索で目的のデータを

カンタンに見つけ出せるのです。

Evernot無料版ではJPEGデータにしかOCR機能は働きませんが、

Evernoteプレミアム会員ならPDFもOCR検索が可能。
最初は「もらった紙」だったものが、いつの間にかいつでもどこでも参照できる「自分の資料」として
活用できるのです!
初回にEvernoteアカウントを設定する必要はあるものの、
ScanSnapのクイックメニュー画面にある「ドキュメントをEvernoteに保存」を押すだけで、
データ化された資料がEvernoteに取り込まれます。手軽な上にScanSnap S1500は

スキャンスピードが速いため作業が進みます。

Evernoteに取り込んだら、紙の資料はゴミ箱へ。これでデスク周りも整理され
もらった資料を紛失したり探すのに時間がかかってしまうこともありません。

気になった記事やデータはすべてScanSnapでEvernoteにスクラップ

Web上の記事や資料はもちろん、新聞や雑誌、カタログといった紙ベースの記事もはさみで切り取り、
ScanSnapを使ってEvernoteに取り込んで「資料」というタグを付けて保存しています。
これで前出の紙の資料と同じように、紙ベースの記事でも「自分の資料」にできます。

これが習慣になると、新聞や雑誌、Webサイトを読む際もとりあえずクリップしてアウトプットも
カンタンにできる情報収集が可能になります。

こうして集めた「自分の資料」をEvernoteに大量にストックしておけば、
ある日突発する「こんな資料ある?」という相談にも、「こんなデータがありますよ」と
すかさず情報を差し出すことでビジネスチャンスを逃しませんし、良き相談者になることもできます。

Evernoteを使いこなすなら、プレミアム版へ

Evernoteの無料版でも工夫すれば可能ではありますが、
月ごとのアップロード容量を調整したり、PDFでの検索機能はローカルPCにダウンロードして、
Acrobat Readerを利用したりとちょっとした作業を必要とします。
そんな作業も塵も積もれば結構な時間になります。
そこでEvernote活用の上級者を目指すならプレミアム版を利用すると圧倒的に便利になります。

Evernoteプレミアム版とは、月額450円または年額4,000円を払うことで、

無料版では1ヶ月間に60MBまでしか利用できなかったアップロード容量が1GBまでに拡大できたり、

ノートブックがオフラインでも参照できたり、広告が非表示になったりといろいろ違いがあります。

最も便利なのが、取り込んだPDFファイルがテキスト検索できること。
エクセルファイルなどの資料はとりあえずPDFに変換してEvernoteに取り込んでおくと、
外出先なんかでもサクッと資料をテキスト検索して、欲しい情報が取り出せるのです。
Evernoteプレミアム版ならオフラインでも活用ができます。

EvernoteでOCR処理したテキストデータを抽出する

Evernoteは、文字列を含む画像をアップロードするとサーバ側でOCR処理をするので、
テキストでの検索が可能です。このテキストデータを抽出する方法を紹介します。

Evernoteは、文字列を含む画像をアップロードするとサーバ側でOCR処理をします。
それにより、テキストでの検索が可能となっている。任意の語句で検索をすると、
画像上の文字列を黄色くハイライト表示するので、文字列をテキストデータとして

認識しているのが分かるというわけです。

画像からテキストデータを取り出したければ、わざわざOCRソフトを使わなくとも
EvernoteにアップロードしてOCR処理すればよいでしょう。
だが、残念ながらOCR処理したテキストデータを画面上で範囲選択してコピーすることはできません。
こうした場合、OCRしたノートをエクスポートした後ちょっと加工することで、
テキストデータを取り出せます。

その手順は、

1.Evernote上で対象のノートを選択し、メニューから「ファイル」?「エクスポート」を選択
2.”ENEXフォーマットファイルでエクスポート”を選択しローカルに拡張子が.enexというファイルで保存
3.これをテキストエディタなどで開くと、画像やタグなどを含むデータをテキストで表示
4.データの前半は画像のバイナリデータで、後半にOCR処理したテキストデータを含んでいる
5.これを取り出してテキストデータ抽出完了

これには、実は難点が2つあります。
1つはこのテキストデータにXMLのタグを含んでいること。
部分的に使用するだけなら必要な文字列だけを手動でピックアップすればよいのですが、
長文ともなると煩わしい・・。この場合、正規表現で<>で囲んだタグのみを除去するか、
GUGEN ARKがオンラインで提供している「HTMLタグ除去ツール」などを使って

取り除いてやりましょう。

もう1つは、そっくりな文章が何度も繰り返し出てくること。
よく見れば分かりますが、これらはまったく同じ文章というわけではなく、
「原縞が」「原稲が」「原絹が」「原積が」と、外見がよく似た文字がすこしずつ違った状態で
並んでいます。
恐らくEvernote内の検索でヒットしやすくするために、OCRで判断が付きにくい文字の
候補語全てを埋め込んでいるものと思われます。

ですので、これらのテキストデータを利用するためには、不正解の文字列を除去する作業が必要です。
長文を処理するのはややつらいが、あからさまに間違った文字を1つずつ直していくのに比べ、
高い確率で「正解」が含まれているぶん手間が省けます。

Home > Tags > Evernote OCR

Evernote記事検索
Feeds
Meta

ページ上部へ戻る