タグ

OCRに関するmisshikiのブックマーク (72)

  • Kindle + DeepLでデザインの名著を自動翻訳して読む|鈴木慎吾 / TSUMIKI INC.

    インタラクションデザインの名著と言われていますが、長らく絶版となっていて中古価格は年々高騰する一方です。なかなか手を出しづらい値段ですが、原著の最新版である以下なら普通の価格で購入できます。 About Face: The Essentials of Interaction Design (English Edition) www.amazon.co.jp この原著を自動翻訳し日語で読めないかと試してみました。その手順を説明します。 注意事項今回説明する手順は、著作物の複製にあたります。著作権法では「私的使用のための複製」のみ認められており、これを超える目的での複製は著作権法に違反する可能性があります。ご注意ください。 使用環境使用したのは以下の環境です。 Macbook Air Automator(Mac標準搭載の自動処理ソフト) Adobe Photoshop Adobe Acrob

    Kindle + DeepLでデザインの名著を自動翻訳して読む|鈴木慎吾 / TSUMIKI INC.
    misshiki
    misshiki 2025/05/26
    “翻訳後のPDFファイルでは文字サイズが妙に大きかったり、図版部分が崩れたりなど、読みづらい部分があり、長時間読むにはストレスを感じる部分が多いです。”
  • AI-OCRサービス「DX Suite」がAIエージェントを正式提供、データ入力の前後工程をまとめて自動化可能に

    AI-OCRサービス「DX Suite」がAIエージェントを正式提供、データ入力の前後工程をまとめて自動化可能に
    misshiki
    misshiki 2025/05/15
    “AI inside株式会社は13日、AI-OCRサービス「DX Suite」において、データ入力業務の前後工程をまとめて自動化するAIエージェント機能を標準搭載した”
  • 生成AI向けのドキュメント変換技術 rokadoc 〜高い精度をどのように実現しているのか〜 - NTT Communications Engineers' Blog

    こんにちは。イノベーションセンター Generative AI チームの安川です。 今回は私の所属するチームで開発しているrokadocというプロダクトの内部で利用している技術要素に重点を置いて紹介します。 記事では「ドキュメント変換技術」であるrokadocについて、内部で利用している技術について紹介します。 rokadocはドキュメントをアップロードするとそれを生成AIで扱いやすいテキストへ変換するという機能を持ちます。 ユーザはドキュメントの内容に応じて自身で複雑な処理を考える必要がないというメリットがありますが、一方でその内部ではレイアウト解析やAI-OCRなどの複雑な処理を行っています。 記事では実例を挙げつつrokadocの内部でどのような処理を行っているのかについて紹介します。 rokadocの基的な使い方に関しては別途公開している「生成AI向けのドキュメント変換技術

    生成AI向けのドキュメント変換技術 rokadoc 〜高い精度をどのように実現しているのか〜 - NTT Communications Engineers' Blog
    misshiki
    misshiki 2025/05/14
    “ドキュメント解析技術である rokadoc について、内部で利用されている技術要素に重点を置いて紹介”
  • 複雑なレイアウトや方程式、多言語も読み取れる「Mistral OCR」の実力とは

    Mistral AIは2025年3月6日(仏国時間)、OCR(Optical Character Recognition:光学的文字認識)API「Mistral OCR」を発表した。同社は以下のように紹介している。 Mistral OCRは、ドキュメント理解の新たな標準となる光学式文字認識APIだ。他のモデルとは異なり、Mistral OCRはドキュメントの各要素(メディア、テキスト、表、数式)をかつてない精度と認識力で理解する。Mistral OCRは画像やPDFを入力とし、テキストと画像を順序よくインターリーブしてコンテンツを抽出する。 Mistral OCRは、マルチモーダル文書(スライドや複雑なPDFなど)を入力とするRAG(検索拡張生成)システムと組み合わせて使用するのに理想的なモデルといえる。 当社では、対話型AIアシスタント「Le Chat」の数百万人のユーザーが文書を理解で

    複雑なレイアウトや方程式、多言語も読み取れる「Mistral OCR」の実力とは
    misshiki
    misshiki 2025/03/31
    “Mistral OCRは、ドキュメント理解の新たな標準となる光学式文字認識API。他のモデルとは異なり、ドキュメントの各要素(メディア、テキスト、表、数式)をかつてない精度と認識力で理解する。”
  • 国立国会図書館のOCRライブラリが凄くよかった件(Windows向け) - Qiita

    はじめに 日語OCR, 有料の業務用ソフトには色々と高性能なものがあるんですが、無料の場合の選択肢は意外に限られてます。最近ではGeminiなどにOCRさせることも試みてますが、縦書きに弱いのが欠点。加えて、私がやっているような著作権が切れた戦前ののデジタル化の場合、認識率の低い旧字体が多いのが悩みの種。 そこで最近知ったのが、国立国会図書館が公開しているOCRライブラリ、NDLOCRです。国会図書館のデジタル資料(国立国会図書館デジタルコレクション)から全文テキストデータを作成するために開発されたとのこと。 NDLOCRは、現在ver2.1がGithubに公開されています。古いが多い国会図書館の資料向けに作られているだけあって、旧字体でも高い精度で認識してくれます。今回は、このライブラリを試してみました。基Githubサイトに書いてある通りなんですが、いくつか注意すべき点をメモ

    国立国会図書館のOCRライブラリが凄くよかった件(Windows向け) - Qiita
    misshiki
    misshiki 2025/03/27
    “国立国会図書館が公開しているOCRライブラリ、NDLOCR...このライブラリを試してみました。基本、Githubサイトに書いてある通りなんですが、いくつか注意すべき点をメモ”
  • 画像や数式、多言語も対応できるOCR「Mistral OCR」

    画像や数式、多言語も対応できるOCR「Mistral OCR」
    misshiki
    misshiki 2025/03/10
    “複雑な文書を高速かつ正確に解析できる新しい光学式文字認識(OCR)「Mistral OCR」をリリースした。同社のチャットプラットフォーム「Le Chat」に統合済みで無料で試せるほか、APIとしても提供”
  • 高速かつ高精度な文字認識AIモデル「Mistral OCR」が登場、LaTeXで書かれた数式や図表入りPDFのレイアウトを崩さずマークダウン形式で出力できてJSONへのデータ抽出も簡単に

    AI開発企業のMistral AIが、画像に含まれるテキストを認識してテキストデータに変換できるAIモデル「Mistral OCR」を発表しました。Mistral OCRはLaTeXで書かれた複雑な数式も認識できるのに加え、文書に含まれる図や表の位置関係を崩さずマークダウン形式で出力できます。 Mistral OCR | Mistral AI https://mistral.ai/news/mistral-ocr Mistral AIはMistral OCRの能力を示す例を複数公開しています。まず、処理前のオリジナルデータが以下。テキストだけでなく図や表も含まれています。 Mistral OCRで処理した結果はこんな感じ。図とテキストの位置関係を崩さずに変換できました。また、表の内容も行や列の関係を崩さずに変換できています。OCR結果はマークダウン形式で出力され、出力結果をJSONなどの構

    高速かつ高精度な文字認識AIモデル「Mistral OCR」が登場、LaTeXで書かれた数式や図表入りPDFのレイアウトを崩さずマークダウン形式で出力できてJSONへのデータ抽出も簡単に
    misshiki
    misshiki 2025/03/07
    “Mistral OCRはLaTeXで書かれた複雑な数式も認識できるのに加え、文書に含まれる図や表の位置関係を崩さずマークダウン形式で出力できます。”
  • Mistral OCR | Mistral AI

    Mistral OCRIntroducing the world’s best document understanding API. Throughout history, advancements in information abstraction and retrieval have driven human progress. From hieroglyphs to papyri, the printing press to digitization, each leap has made human knowledge more accessible and actionable, fueling further innovation. Today, we’re at the precipice of the next big leap—to unlock the collec

    Mistral OCR | Mistral AI
    misshiki
    misshiki 2025/03/07
    “Mistral OCR は、マルチモーダル ドキュメント (スライドや複雑な PDF など) を入力として受け取る RAG システムと組み合わせて使用​​する理想的なモデルとなります。”
  • Mistral、PDF文書をマルチモーダルでAI対応ファイルに変換するOCRのAPI提供開始

    AI企業のMistral AIは3月6日(現地時間)、PDFや画像から、マルチモーダルな要素を高精度で抽出し、構造化された形式で出力する新API「Mistral OCR」を発表した。有償で提供する他、AIチャットbot「Le Chat」で無料で試すこともできる。 生成AIの基盤となるLLMは、プレーンなテキストデータに特化しており、PDFに含まれる画像や複雑なレイアウトを十分に理解することができない。Mistral OCRがPDFのようなマルチモーダルドキュメントを抽出、出力することで、PDFを直接理解するのが困難なLLMでも、PDFに含まれる情報を効果的に活用できるようになる。 Mistral OCRは、PDFの内容を単にテキスト化するのではなく、Markdown(リンクやヘッダなどの書式設定要素を追加するための書式設定構文)でフォーマットする。 PDFからデータを抽出するサービスは既

    Mistral、PDF文書をマルチモーダルでAI対応ファイルに変換するOCRのAPI提供開始
    misshiki
    misshiki 2025/03/07
    “Mistral AIは3月6日(現地時間)、PDFや画像から、マルチモーダルな要素を高精度で抽出し、構造化された形式で出力する新API「Mistral OCR」を発表した。有償で提供する他、AIチャットbot「Le Chat」で無料で試すこともできる。
  • 日本語に特化したAI OCR「YomiToku」の紹介 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? OCR(Optical Character Recognition)というのは、手書きや印刷された文字を読み取り、デジタルデータに変換する技術です。スキャナーや、スマホアプリなどで使ってみた経験がある方も多いかと思います。 OCRはさまざまな場面で利用されていますが、たとえば既存の紙データのデジタル化であったり、ビジネス上やり取りされる帳票を使ったシステムの自動処理などで活用されています。 YomiTokuもそんなOCRソフトウェアの一つです。日語に特化しており、複雑な表組みなども読み取れるのが特徴です。 今回は、YomiTokuの簡

    日本語に特化したAI OCR「YomiToku」の紹介 - Qiita
    misshiki
    misshiki 2025/02/25
    “YomiTokuもそんなOCRソフトウェアの一つです。日本語に特化しており、複雑な表組みなども読み取れるのが特徴です。 今回は、YomiTokuの簡単な使い方を紹介します。”
  • Gemini 2.0 Flashは大量のPDFをAIで使用できるよう変換する作業でコスト・パフォーマンスの両面で劇的に優れている

    プレゼンテーションや配布資料がPDFで共有されることがありますが、このPDFをテキストベースのデータに変換することは、大規模言語モデル(LLM)の出力を最適化するプロセスである検索拡張生成(RAG)にとって頭痛の種です。PDFをテキストベースのデータに変換してRAGで利用できるようにするためのソリューションにはさまざまなものが存在しますが、精度・拡張性・コスト効率を考慮すると微妙な選択肢が多い模様。しかし、Googleの「Gemini 2.0 Flash」を使えばこの作業が劇的に楽になると、Matrisk.aiのCTOを務めるデータサイエンティストのセルゲイ・フィリモノフ氏が解説しています。 Ingesting Millions of PDFs and why Gemini 2.0 Changes Everything - Sergey's Blog https://www.sergey.

    Gemini 2.0 Flashは大量のPDFをAIで使用できるよう変換する作業でコスト・パフォーマンスの両面で劇的に優れている
    misshiki
    misshiki 2025/02/10
    “前モデルのGemini 1.5 FlashではOCR精度に難があったものの、Gemini 2.0 Flashは「Matrisk.aiの内部テストではほぼ完ぺきなOCR精度を実現していることが確認されました」”
  • Claude.aiをつかって画像内の文字を正確に抽出する方法を見つけました - Qiita

    例えば、こちらのブログですが、グラフィカルな解説部分が、画像になっています。 Claudeはマルチモーダルに対応しているので、画像を添付した状態で「文字を抽出して」というと文字を抽出してくれますが、日語で要約して回答したり、元の文章を正確に抽出する のは、意外と難しいと感じていました。 以下は、Claude.aiを使って「添付画像から文字を抽出して」と依頼した際の結果です。 原文そのままを正確に抽出したいときってありますよね?それを解決する方法を編み出しました。 方法は、「 HTMLで再現させる 」です! 投稿の先頭の画像を添付して「添付画像をHTMLで再現して」と依頼した際の結果がこちらです。 感動!!! (注:右側が画像をもとに生成したHTMLを、プレビューした状態です。Claude.aiのArtifactsという機能です) アイコンがちょっと違うとか省略されてるとかはありますが、

    Claude.aiをつかって画像内の文字を正確に抽出する方法を見つけました - Qiita
    misshiki
    misshiki 2025/02/04
    “本投稿の先頭の画像を添付して「添付画像をHTMLで再現して」と依頼した際の結果がこちらです。 感動!!!”
  • LLMを悩ませる"Excel文書"をうまく扱う方法

    はじめに 株式会社ファースト・オートメーションCTOの田中(しろくま)です! 弊社では製造業向けのRAGを使ったチャットボットの開発を行っていますが、 RAGで読み取りづらいなと感じているドキュメントが"Excel文書"です。 LLMを悩ませる"Excel文書"とは ここで"Excel文書"と呼んでいるドキュメントは、 「構造化されたテーブルを保存しているExcelファイル」 ではなく、 「 セルに文書を書いたり、オブジェクトや画像を挿入することで、いわゆる一般的な文書を作成しているExcelファイル 」 のことを呼んでいます。 そもそも一般的な文書作成においてはExcelではなく、Wordを使えばよいのでは?と思われるかもですが、以下の点でExcelで文書の資料を作成することはそれなりに便利な部分があると思っています。 枠を使って、グルーピングすることでドキュメントの構成が見やすくなる

    LLMを悩ませる"Excel文書"をうまく扱う方法
    misshiki
    misshiki 2024/12/09
    “RAGとLLMのシステムで扱いの難しい"Excel文書"をうまく扱うための手法をいくつか紹介さ”
  • 国会図書館が古典籍資料からテキスト抽出する軽量OCRツールを公開 ~GPUなしでも動作/「NDL古典籍OCR-Lite」のソースコードとバイナリが「GitHub」で公開

    国会図書館が古典籍資料からテキスト抽出する軽量OCRツールを公開 ~GPUなしでも動作/「NDL古典籍OCR-Lite」のソースコードとバイナリが「GitHub」で公開
    misshiki
    misshiki 2024/11/28
    “国立国会図書館が実験的に開発した「NDL古典籍OCR」を改良し、GPUなしでも利用できるようにしたもの。「NDL古典籍OCR ver.3」と比べると精度が2%程度低下してしまうが、ノートPCなどでも問題なく動作するのが魅力。”
  • GitHub - ndl-lab/ndlkotenocr-lite: NDL古典籍OCR-Liteのアプリケーションのリポジトリ(ソースコードを含む)

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - ndl-lab/ndlkotenocr-lite: NDL古典籍OCR-Liteのアプリケーションのリポジトリ(ソースコードを含む)
    misshiki
    misshiki 2024/11/27
    “NDL古典籍OCR-Liteは、江戸期以前の和古書、清代以前の漢籍といった古典籍資料のデジタル化画像からテキストデータを作成するOCR。 GPUを必要としない...特徴があり、...一般的なPCにおいて高速に実行可能。”
  • NDL古典籍OCR-Liteの公開について | NDLラボ

    2024年11月26日 NDL古典籍OCR-Liteの公開について NDLラボ公式GitHub(外部サイト)から、NDL古典籍OCR-Liteを公開しました。 NDL古典籍OCR-Liteは、ノートパソコン等の一般的な家庭用コンピュータやOS環境で、江戸期以前の和古書、清代以前の漢籍といった古典籍資料のデジタル化画像からテキストデータが作成できる軽量なOCRです。 GPU(Graphics Processing Unit。画像描画等の高度な並列計算を処理する装置。)がなくとも軽量なOCR処理が可能となりました NDL古典籍OCR-Lite GitHubリポジトリ(https://github.com/ndl-lab/ndlkotenocr-lite ) これまで国立国会図書館が実験的に開発したプログラム(NDL古典籍OCR)では、実行環境にGPUを必須としていましたが、この点を「NDL古典

    misshiki
    misshiki 2024/11/27
    “NDL古典籍OCR-Liteは、ノートパソコン等の一般的な家庭用コンピュータやOS環境で、江戸期以前の和古書、清代以前の漢籍といった古典籍資料のデジタル化画像からテキストデータが作成できる軽量なOCRです。”
  • GitHub - kotaro-kinoshita/yomitoku: Yomitoku is an AI-powered document image analysis package designed specifically for the Japanese language.

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - kotaro-kinoshita/yomitoku: Yomitoku is an AI-powered document image analysis package designed specifically for the Japanese language.
    misshiki
    misshiki 2024/11/27
    “YomiToku は日本語に特化した AI 文章画像解析エンジン(Document AI)です。画像内の文字の全文 OCR およびレイアウト解析機能を有しており、画像内の文字情報や図表を認識、抽出、変換します。”
  • 日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました|Kotaro.Kinoshita

    はじめに最近、LLMへのRAGを用いた文書データの連携等を目的に海外を中心にOCRや文書画像解析技術に関連する新しいサービスが活発にリリースされています。 しかし、その多くは日語をメインターゲットに開発されているわけではありません。日語文書は、英数字に加えて、ひらがな、漢字、記号など数千種類の文字を識別する必要があったり、縦書きなど日語ドキュメント特有のレイアウトに対処する必要があったりと日語特有の難しさがあります。 ですが、今後、海外の開発者がこれらの課題に対処するため、日のドキュメント画像解析に特化したものをリリースする可能性は低く、やはり自国の言語向けのサービスは自国のエンジニアが開発すべきだと筆者は考えています。 もちろん、Azure Document Intelligenceをはじめとした、クラウドサービスのドキュメント解析サービスはありますが、クラウドを利用できないユ

    日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました|Kotaro.Kinoshita
    misshiki
    misshiki 2024/11/27
    “YomiTokuはPDFやカメラで撮影された文書画像を解析するためのPythonパッケージです。”
  • 手書きメモや領収書を自動で整理、OCRとChatGPTで簡単にデータ化する方法 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 1. はじめに 今回は、画像化した手書きのメモや領収書をテキスト化し、データとして整理できるシステムの開発方法について紹介します。このシステムを作ろうと思ったきっかけは、先日ある研究者の方と話していた時のことです。 その研究者は、スマホで撮影した手書きのメモや書籍のページ、領収書、請求書、契約書などをPCにたくさん保存しているものの、それらを整理するのが苦手だと言っていました。また、これらのデータをもっとわかりやすくまとめたいとも考えていましたが、画像として保存されているため、テキスト化するのが難しいと悩んでいました。 そこで、私が以前

    手書きメモや領収書を自動で整理、OCRとChatGPTで簡単にデータ化する方法 - Qiita
    misshiki
    misshiki 2024/11/26
    “Cloud Vision APIを使って、画像化された手書きメモや領収書をテキスト化し、整理するシステムの作り方を解説”
  • 工数6割削減! 生成AIとOCRを組み合わせ、店舗毎に形式が異なるレストランメニューを読み取らせてみた - Tabelog Tech Blog

    目次 目次 1. はじめに 2. プロジェクトの内容と成果 2.1. メニュー入稿業務の説明 2.2. 作業効率化のためのツール開発 2.3. 成果 3. メニュー抽出処理の詳細 3.1. OCR技術 3.2. 生成AIとOCRを組み合わせたメニューデータ抽出方法 3.3. ストリーミング対応 3.4. 斜め画像への対応 3.5. メニュー画像タイプごとの抽出精度 4. 成功の要因となったポイント 4.1. 生成AI領域だけでなく、幅広く解決案を模索したこと。 4.2. 作業効率化に直結するUIは徹底的な作り込みを実施したこと。 4.3. 最新動向を常にウォッチし、柔軟な方針転換ができたこと。 4.4. 作業の完全自動化を目指さなかったこと。 5. 生成AIを業務活用する鍵はフルスタックエンジニアにあり 6. べログの未来を一緒に変えてくれる人募集中! 1. はじめに 初めまして。べロ

    工数6割削減! 生成AIとOCRを組み合わせ、店舗毎に形式が異なるレストランメニューを読み取らせてみた - Tabelog Tech Blog
    misshiki
    misshiki 2024/11/19
    “レストランメニューのデータ入稿業務の効率化で作業工数を6割削減成功。 ポイントは、OCR技術の活用やUIの徹底的な作り込みなど、生成AIの範囲にとどまらず、幅広い技術を総動員して一つのツールを作り上げたこと”