OCRに関する論文・技術記事メモの一覧

OCR

[Paper Note] LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR, Said Taghadouini+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #MultiLingual #VisionLanguageModel #Initial Impression Notes Issue Date: 2026-01-22 GPT Summary- 1Bパラメータのエンドツーエンド多言語ビジョン・言語モデル「LightOnOCR-2-1B」は、文書画像をOCRなしで自然なテキストに変換します。スキャンやフランス語文書、科学的PDFに強力な対応を見せるこのモデルは、OlmOCR-Benchで最先端の成果を達成し、従来モデルより9倍小さく高速です。また、予測したバウンディングボックスを活用し、ローカリゼーションを強化。堅牢性向上のためにチェックポイント平均化とタスク算術を統合し、チェックポイントをApache 2.0の下で公開しました。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/lightonai/lightonocr-2

またしてもolmocr2超えのOCRが。高性能なOCRは様々な場面で活用（RAG, Agent, 埋蔵した学習データなど）できるので個人的に非常に強い需要があると思う。

元ポスト:

Loading…

[Paper Note] GutenOCR: A Grounded Vision-Language Front-End for Documents, Hunter Heidenreich+, arXiv'26, 2026.01

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #VisionLanguageModel #Initial Impression Notes Issue Date: 2026-01-22 GPT Summary- GutenOCRはQwen2.5-VL-3BとQwen2.5-VL-7BをファインチューニングしたグラウンデッドOCRシステムで、視覚言語モデルを通じて読取り、検出、グラウンディングを一元化します。ビジネス文書や科学記事に対応し、条件付きクエリへの応答が可能です。GutenOCR-7Bは新しい評価プロトコルで合成グラウンディングスコアを向上させ、特にOCRの精度を高めていますが、特定のレイアウトではトレードオフが存在することも示されました。 Comment

元ポスト:

Loading…

olmOCR2と比較しても性能が良さそうに見えるが果たして
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10

モデルはまだオープンになっていないように見える。

[Paper Note] HunyuanOCR Technical Report, Hunyuan Vision Team+, arXiv'25, 2025.11

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #OpenWeight #VisionLanguageModel Issue Date: 2025-11-26 GPT Summary- HunyuanOCRは、OCRタスクに特化した軽量な商業グレードのオープンソースVision-Language Model（VLM）であり、優れた性能を示し、従来のソリューションを上回っています。主な特徴は、スポッティング、パース、情報抽出、翻訳などの機能を統一した軽量フレームワーク、エンドツーエンドのアーキテクチャによるエラー伝播の解消、強化学習戦略による性能向上です。HunyuanOCRはHuggingFaceでオープンソース化され、産業応用の基盤を提供することが期待されています。 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

pj page: https://github.com/Tencent-Hunyuan/HunyuanOCR

HF: https://huggingface.co/tencent/HunyuanOCR

OmniDocBenchでSoTA
- [Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12

[Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12

Paper/Blog Link My Issue
#Pocket #Dataset #Evaluation #CVPR #DocParser Issue Date: 2025-10-21 GPT Summary- 文書内容抽出のための新しいベンチマーク「OmniDocBench」を提案。これは、9つの文書ソースにわたる高品質な注釈を特徴とし、エンドツーエンド評価やタスク特化型分析をサポート。異なる文書タイプにおける手法の強みと弱みを明らかにし、文書解析の公平で詳細な評価基準を設定。データセットとコードは公開されている。

Exploring OCR Capabilities of GPT-4V（ision） : A Quantitative and In-depth Evaluation, Yongxin Shi+, N_A, arXiv'23

Paper/Blog Link My Issue
#ComputerVision #Pocket #NLP #LanguageModel #MultiModal Issue Date: 2023-10-26 GPT Summary- この論文では、GPT-4Vという大規模マルチモーダルモデルの光学文字認識（OCR）能力を評価します。さまざまなOCRタスクにおいてモデルのパフォーマンスを評価し、ラテン文字の認識と理解において優れた性能を示す一方、多言語や複雑なタスクには苦戦することがわかりました。これに基づいて、専門のOCRモデルの必要性やGPT-4Vを活用する戦略についても検討します。この研究は、将来のLMMを用いたOCRの研究に役立つものです。評価のパイプラインと結果は、GitHubで利用可能です。 Comment

GPT4-VをさまざまなOCRタスク「手書き、数式、テーブル構造認識等を含む）で性能検証した研究。
MLT19データセットを使った評価では、日本語の性能は非常に低く、英語とフランス語が性能高い。手書き文字認識では英語と中国語でのみ評価。

[Paper Note] DiT: Self-supervised Pre-training for Document Image Transformer, Junlong Li+, ACMMM'22

Paper/Blog Link My Issue
#ComputerVision #Pocket #Transformer #ACMMM #Backbone Issue Date: 2025-08-22 GPT Summary- 自己監視型事前学習モデルDiTを提案し、ラベルなしテキスト画像を用いて文書AIタスクにおける性能を向上。文書画像分類やレイアウト分析、表検出、OCRなどで新たな最先端結果を達成。コードとモデルは公開中。