文字認識されていないPDFファイルの文字認識をする(せこい)方法
ときたま、文字認識されていないPDFファイルしか手に入らないことがある。
文章をただ目で見て読むだけならそれでもかまわないが、文章読み上げソフトを使いたいときや、文章内検索を行いたいときには不便である。
なんとかして、PDFの文字認識をしたい(OCR処理)。
また、課金するのは最終手段として、できれば無料で行いたい。
怪しいソフトやWebサイトを使わず、正規ソフトだけを用いた安全な方法があれば最高である。
正攻法
文字認識を行う方法の正解は、PDFを開発したAdobeが出している、Adobe Acrobat Proで素直に変換することである。一番安全、一番確実。
が、この機能は有料サービス部分であるのでここでは保留する。
お金持ちになったら使います。許して。
蛇の道
怪しげなフリーソフトに頼る方法もあるが、ちょっと怖いので最終手段にしたい。
(もちろん善意100%で作られたフリーソフトもあるだろうが……)
ググると出てくる他の方法としては、Google Driveなどでテキスト化するやりかたもある。
単純な一段組のフォーマットであれば、それでも良いだろう。
しかし、論文や雑誌などの、2段組み、3段組み、ボックスによる記述などが複雑に配置されたフォーマットでは、出力においてその構造が保たれず、文章がずたずたになってしまった。
この記事で提案する方法
ということで試行錯誤した末に、以下の方法にたどり着いた。
1.PDFを手元のデバイスで画面表示し、スクリーンショット、画像として保存する
JPGなら確実なようだが、おそらくたいていのファイル形式でいけると思う
PDF画像以外の余計な部分はトリミングする
2.無料スキャンアプリAdobe Scanの「写真からPDF」の機能を使って、スクリーンショットした画像を選び、再PDF化する
このとき、勝手に文字認識されるはず
以上である。
簡単・安全かつ無料でPDFの文字認識ができる。
スクリーンショットの方法とAdobeScanの方法はわからなければ各自ググってください。
弱点は1枚1枚スクショしないといけないので、分量が多い場合は面倒なこと。
また、新しくできたPDFファイルでは元のPDFにある作成日などのメタ情報は当然失われるので、大切な書類ならば元のファイルは破棄せずにとっておいたほうが良いし、新しいファイルは個人での利用にとどめたほうがよいだろう。