光学文字認識(Optical Character Recognition)。
イメージスキャナなどで読み取った文書画像を解析し文字データを抽出し、電子テキスト化すること。
類似文字 OCR3→GIANT製の自転車の名称、光学文字認識できる自転車ではない。
私は、仕事で会社の事務全般を見ている感じなのですが、その中で、ずっーと変わらないものがあります。 画像の電卓なのですが、縦18cm、横13cmの大型のサイズで、時代が変わりつつもこの電卓を使用しています。事務処理的にある程度の大きさがないと操作・見やすさが仕事に影響する為です。 AI、DX、PCの進化などありますが、現状この電卓が手放せない感じでいます。今後は、もう少し進化してくれれば、もっと変わるかもしれないなぁって思ったりしますが、まだ少し時間が掛かりそうですかね? ランキング参加中雑談・日記を書きたい人のグループ ランキング参加中雑談 ランキング参加中アクセスの輪
スマホやPCで撮った写真、スクリーンショット、PDF化された手書きメモなど、画像に含まれる文字を そのままデジタルのテキストに変換したい と思ったことはありませんか?書類や本の一部分を保存した画像から文字を抜き出したい場面は意外と多く、そんな時に役立つのが 画像 から文字を読み取るサイト(OCRツール) です。 この記事では、画像内の文字を自動で認識し テキスト化できる無料サイト・サービス をピックアップして比較しました。操作が簡単で認識精度が高いものだけを厳選して紹介しているので、目的や用途に合わせて最適なOCRツールを見つけてください。 Part1. 画像から文字を読み取る無料サイトおすす…
はじめに 請求書の明細表をOCRによって自動で読み取ることができると、経理業務自動化の実現に役立ちます。 ところが実際には、多様なフォーマットの存在や OCR の誤読が積み重なり、AIモデルとルールベース後処理だけでは思った以上に精度が出ない、という壁にぶつかることがあります。 AI モデルそのものの改修となると、学習データの追加やモデル更新など、時間もコストも必要になります。また、ルールベース後処理を増やし続けるのは、将来の保守を重くする心配がつきまといます。 そこで、「大規模言語モデル(LLM)を後処理に加えたら、より柔軟に・より構造的に・まるで人間が行うように誤りを補正できるのではないか…
前回、ローカルのOCRやLM Studio経由で文字認識を試してみた。今回は追加としてテストしたYomiTokuを紹介する。 はじめに YomiTokuはMLism株式会社が開発しているOCRになる。先日の文字認識の比較対象として、Tesseractとは別のOCRを探していて見つけた。見つけた記事の検証は行政的な出版の文書を対象としていて、手書きではないため対象にするか悩んだが、試してみたところ高精度、かつレイアウトの分析も素晴らしく感じたので紹介したい、となった。 ライセンス的には個人利用や検証目的は無償で可能な CC BY-NC-SA(非営利目的)。商用利用したい場合は別途商用版を契約して…
こんにちは、バクラク事業部AI・機械学習部の飯田 (@frkake) です。 こちらはLayerXアドベントカレンダー1日目の記事です。初日は @izumin5210 さんの記事との二本立てです。 最近、DeepSeek-OCRの登場など、OCR界隈がにわかに活気づいていますね。LLMやVLMの進化に伴い、OCRも単なる「文字起こし」から「構造の読み取り」、さらには「内容の理解」へと進化しているのを感じます。 そこで本記事では、改めてOCR技術の変遷を振り返りつつ、各モデルを自作のサンプルデータを使って検証してみたいと思います。 本記事での用語の整理をあらかじめしておきます。 テキスト認識:そ…
PDFファイルからのテキスト抽出は、データ活用や情報再利用の効率を劇的に向上させる重要な作業です。 この記事では、PDFからテキストを抽出する最適な方法と、目的別におすすめのツールを詳しく解説します。 PDFからテキストを抽出する方法|無料・高精度ツールも紹介 1. テキスト型PDFの場合:ブラウザで手軽に抽出 2. 画像型PDF(スキャンPDF)の場合:OCRでテキスト化 高精度OCRツール「Tenorshare PDNob」の活用 高精度OCRツールTenorshare PDNob PDFからテキストが抽出できない原因と解決策 まとめ PDFからテキストを抽出する方法|無料・高精度ツールも…
手書き文字起こし、わかりやすく言えばOCRなのだが、の比較をしてみることにした。今回は自分の環境で動作するVLM (Vision Language Model の意図)とクラウドLLMサービス、OSSのOCRとしてはTesseractを比較した。 (追記 2025/12/8) OCRとしてYomiTokuを追加した。 はじめに 実は自分は普段手書き派で、文房具も好きで万年筆を使ったりしている。そのうち、文房具枠をブログに作るかもしれないが…今回はそこは深掘りせず、ノートなどへの手書きをいかにデータとして残すかの検討となる。 10年くらい前から Tesseract (本家GitHub、日本語Wi…
お疲れ様です。 前回の記事でTrOCRの調査内容をまとめたので、今回は実装のお話。 fallpoke-tech.hatenadiary.jp ソースコード コード内容補足 モデル データセット 前処理 実行結果 学習 推論 ソースコード ソースコードはこちらのGithubリポジトリにまとめています。mainブランチの方を使用する想定です。 プロジェクト全体の構造や使用方法などはREADMEを参照ください。 GitHub Copilotに作成させたのでおかしな点などあるかもしれませんが…。 github.com 下記のサイトのソースコードをベースに日本語対応をしたものになります。 https:/…
こんにちは。東証プライム上場企業で情報システム部のセキュリティ担当をしている城咲子です。 企業のDX推進が叫ばれて久しいですが、特に経理部門の請求書処理は、自動化による効果が最も期待される領域の一つです。AI-OCRを導入して「月末月初の残業時間が劇的に減りました!」という成功事例を目にする一方で、「なぜかウチのOCRは精度が低くて、結局手作業で修正している…」という嘆きの声が聞こえてくるのも事実です。 この差は、どこから生まれるのでしょうか? 実は、AIによるデータ抽出のパフォーマンスは、入力されるデータの「質」に大きく左右されます。 高価なツールを導入しても、入り口となるデータが不適切であ…
お疲れ様です。 今月の半ばくらいまで会社の勉強会の関係でAI OCRの手法の1つのTrOCRの調査と実装をしていました。 今回はそちらの内容をまとめて備忘録を書いておきます。 論文 arxiv.org 要約(from ChatGPT) TrOCR:Transformerベースの革新的なOCR技術 TrOCRは「Transformer Optical Character Recognition」の略で、Microsoftが開発した、Transformerアーキテクチャに基づく先進的な光学文字認識(OCR)モデルです。 従来のOCR技術が主に畳み込みニューラルネットワーク(CNN)を利用していたの…