【便利すぎた】画像から文字（テキスト）を抽出する方法

その他

2022.02.01 2021.02.12

この記事は約4分で読めます。

画像やPDFから文字起こしができるとは、便利な時代になりましたね。

今更？と思うかもしれませんが、まだまだ知らない人や知ってるけど未体験な人、はたまた使い方までは知らないという人いますよね？

そう、あなたです。私もですけど。

2021年の現在、画像からの文字認識は、なかなかの精度らしいので使ってみました。

備忘録として、利用方法を画像でわかりやすくまとめておきます。

目次

画像・PDFから文字をテキスト化（文字起こし）する仕組み
画像から文字を読み取りテキストデータにする方法
まとめ

画像・PDFから文字をテキスト化（文字起こし）する仕組み

OCR（Optical character recognitionの略）日本語では光学文字認識という技術によって、紙の書類や画像・PDFから文字をテキストデータとして出力できます。

光学文字認識（こうがくもじにんしき、英:Optical character recognition）は、活字、手書きテキストの画像を文字コードの列に変換するソフトウェアである。画像はイメージスキャナーや写真で取り込まれた文書、風景写真 (風景内の看板の文字など)、画像内の字幕 (テレビ放送画像内など)が使われる。一般にOCRと略記される。
出典: フリー百科事典『ウィキペディア（Wikipedia）』

SIA

SIA

超便利ですね。

ナマけもん

ナマけもん

楽できるなあ。ラクラクlife最高〜

画像から文字を読み取りテキストデータにする方法

手書きのメモや書類・本類の紙ベースのものと画像、PDFを文字のテキストデータとして取り出す方法は、いくつもあります。

媒体も多様でスマホやPCでアプリを利用するパターンもありますが、今回は実際に私が利用している

無料
簡単
高精度

という三拍子揃った方法のまとめです。

先ず、私の環境からPCの作業時に利用します。

PCでSS（スクリーンショット）を撮る→SSをOCRツールで文字起こし（テキスト化）する

こんな流れです。

実際の具体的な方法は、

「Googleドライブ」にアップロードした画像を「Googleドキュメント」で開く

たったこれだけです。

やすゆき君

やすゆき君

まじでー。

画像でOCRサービスの手順を見ていきましょう。

Googleドライブにアクセスする

Googleの検索画面トップ右上にあるGoogleアプリにマウスカーソルをあて

ドライブをクリックします。

Googleドライブにアクセスできました。

左のマイドライブをクリックします（最初からマイドライブの場合もあります）。

テキスト化（OCR）したい画像ファイルを中央にドラッグ＆ドロップします。

すると、アップロードが開始されます。

目的の画像ファイルを右クリで

アプリで開く　＞　Googleドキュメント　をクリックで開きます。

Googleドキュメント

すると、画像ファイルのデータ量にもよりますが、OCR中（文字として認識中）少し待ちます。

Google検索窓のサジェストをSSした画像ファイルが、今回のテストサンプルです。

OCR後のテキストデータ画面がこちら。

ここで直接、編集もできます。

文字に変換されたテキストデータは画像ファイルの上に生成されました。

ダウンロードやコピペなどして活用しましょう。

編集画面から好みの形式でダウンロードできます。

いかがでしょうか。

鮮明な画像で角度が合っているなどその他推奨されている条件はあるものの、今回の画像テストでは完全一致の１００点ですね。

SIA

SIA

おおお。便利！

おまけ

試しに、余計なもの（文字以外）が画像ファイルに含まれていたらどうなるのか？

赤色の□枠のSSをOCRで取り込むと、こんな感じのテキストデータ画面になりました。
文字だけ取り出したい時には、虫メガネは余計ですね。

不要なデータならば、撮影の仕方には注意したいところです。

次のヒントを参考にするとファイルを最適な状態で準備できます。
形式: .JPEG、.PNG、GIF、PDF（複数ページのドキュメント）の各ファイル。
ファイルサイズ: ファイルは 2 MB 以下にします。
解像度: テキストの高さは 10 ピクセル以上にします。
向き: ドキュメントは正しい向きにします。画像の向きが間違っている場合は、回転させてから Google ドライブにアップロードします。
言語: Google ドライブではドキュメントの言語は検出されません。
フォントと文字セット: 最適な結果を得るには、Arial や Times New Roman のような一般的なフォントを使用します。
画質: 明るさが均一でコントラストがはっきりしたシャープな画像が最適です。
出典：Googleドライブヘルプ

推奨の画像ファイルが↑こちら。

まとめ

画像から文字をテキスト化する光学文字認識（OCR）が便利で使えること。

簡単で高精度な「Googleドライブ→Googleドキュメント」でテキスト化する方法を画像付きでまとめました。

利用シーンは様々かと思いますが、著作権のあるものなど取り扱いにはご注意ください。

自分メモ兼、何処かの誰かのお役になれば。

To be is to do.

コメント

タイトルとURLをコピーしました