OCR
[Paper Note] FireRed-OCR Technical Report, Hao Wu+, arXiv'26, 2026.03
Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #SyntheticData #OpenWeight #read-later #VisionLanguageModel #One-Line Notes #Pixel-based Issue Date: 2026-03-03 GPT Summary- FireRed-OCRは、一般的なビジョン-ランゲージモデルを特化した高性能OCRモデルへ変換するフレームワークです。VLMは一般的には優れた能力を示すものの、文書処理では「構造的幻視」が問題となります。FireRed-OCRでは、高品質な構造データの不足に対処するため、「Geometry + Semantics」データファクトリを構築し、幾何特徴のクラスタリングを利用して多様な文書タイプに対応したデータセットを作成します。3段階の訓練戦略を導入し、文書構造理解、形式的出力の標準化、強化学習による構文的整合性の確保を行います。OmniDocBench v1.5での評価結果から、FireRed-OCRは92.94%の性能を達成し、他のベースラインを大きく上回ることを示しました。コードとモデル重みをオープンソース化し、一般VLMから専門的な構造エキスパートへの変容を促進します。 Comment
元ポスト:
github: https://github.com/FireRedTeam/FireRed-OCR
- [Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12
においてSoTAとのこと。日本語はどのくらいいけるだろう。
[Paper Note] IRPAPERS: A Visual Document Benchmark for Scientific Retrieval and Question Answering, Connor Shorten+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#Embeddings #InformationRetrieval #Dataset #QuestionAnswering #Evaluation #MultiModal #Hybrid Issue Date: 2026-02-27 GPT Summary- 画像ベースの情報検索と質問応答の性能をテキストベースの手法と比較するために、IRPAPERSデータセットを用いて実験を実施。テキスト検索はRecall@1で46%を達成し、画像ベースは43%を達成。両手法は補完的で、マルチモーダルハイブリッド検索はRecall@1で49%の性能を示す。MUVERAを用いた画像埋め込みモデルの評価において、Cohere Embed v4が最も優れた性能を持つ。質問応答では、テキストベースのシステムが画像ベースより高い整合性を示し、複数文書検索が効果を発揮。両モダリティの限界と必要性を明確化。データセットと実験コードは公開。 Comment
元ポスト:
[Paper Note] CodeOCR: On the Effectiveness of Vision Language Models in Code Understanding, Yuling Shi+, arXiv'26, 2026.02
Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #Coding #VisionLanguageModel #2D (Image) #Compression Issue Date: 2026-02-05 GPT Summary- 大規模言語モデル(LLM)はソースコード理解で成功を収めていますが、計算効率が課題です。従来、LLMはコードをトークンの線形シーケンスとして扱い、計算コストが増加します。そこで、マルチモーダル大規模言語モデル(MLLM)による画像モダリティの利用が提案され、圧縮の可能性を探る研究を行いました。その結果、(1) MLLMは最大8倍のトークン削減を実現し、効果的にコードを理解できることが分かりました;(2) 構文ハイライトなどの視覚的手がかりを活用し、4倍の圧縮下でパフォーマンス向上;(3) クローン検出タスクは視覚的圧縮に対して耐性があり、圧縮比で生のテキストを上回る結果もありました。これにより、MLLMの効率的な推論可能性が示唆されています。 Comment
元ポスト:
textをimageとして扱う関連研究:
- [Paper Note] Language Modelling with Pixels, Phillip Rust+, ICLR'23, 2022.07
- [Paper Note] PixelWorld: Towards Perceiving Everything as Pixels, Zhiheng Lyu+, arXiv'25, 2025.01
- DeepSeek-OCR: Contexts Optical Compression, DeepSeek, 2025.10
literatureについては下記ポスト参考:
[Paper Note] LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR, Said Taghadouini+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #NLP #MultiLingual #VisionLanguageModel #Initial Impression Notes Issue Date: 2026-01-22 GPT Summary- 1Bパラメータのエンドツーエンド多言語ビジョン・言語モデル「LightOnOCR-2-1B」は、文書画像をOCRなしで自然なテキストに変換します。スキャンやフランス語文書、科学的PDFに強力な対応を見せるこのモデルは、OlmOCR-Benchで最先端の成果を達成し、従来モデルより9倍小さく高速です。また、予測したバウンディングボックスを活用し、ローカリゼーションを強化。堅牢性向上のためにチェックポイント平均化とタスク算術を統合し、チェックポイントをApache 2.0の下で公開しました。 Comment
元ポスト:
HF: https://huggingface.co/collections/lightonai/lightonocr-2
関連:
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10
- [Paper Note] GutenOCR: A Grounded Vision-Language Front-End for Documents, Hunter Heidenreich+, arXiv'26, 2026.01
またしてもolmocr2超えのOCRが。高性能なOCRは様々な場面で活用(RAG, Agent, 埋蔵した学習データなど)できるので個人的に非常に強い需要があると思う。
元ポスト:
[Paper Note] GutenOCR: A Grounded Vision-Language Front-End for Documents, Hunter Heidenreich+, arXiv'26, 2026.01
Paper/Blog Link My Issue
#ComputerVision #NLP #VisionLanguageModel #Initial Impression Notes Issue Date: 2026-01-22 GPT Summary- GutenOCRはQwen2.5-VL-3BとQwen2.5-VL-7BをファインチューニングしたグラウンデッドOCRシステムで、視覚言語モデルを通じて読取り、検出、グラウンディングを一元化します。ビジネス文書や科学記事に対応し、条件付きクエリへの応答が可能です。GutenOCR-7Bは新しい評価プロトコルで合成グラウンディングスコアを向上させ、特にOCRの精度を高めていますが、特定のレイアウトではトレードオフが存在することも示されました。 Comment
元ポスト:
olmOCR2と比較しても性能が良さそうに見えるが果たして
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10
モデルはまだオープンになっていないように見える。
[Paper Note] HunyuanOCR Technical Report, Hunyuan Vision Team+, arXiv'25, 2025.11
Paper/Blog Link My Issue
#ComputerVision #NLP #OpenWeight #VisionLanguageModel Issue Date: 2025-11-26 GPT Summary- HunyuanOCRは、OCRタスクに特化した軽量な商業グレードのオープンソースVision-Language Model(VLM)であり、優れた性能を示し、従来のソリューションを上回っています。主な特徴は、スポッティング、パース、情報抽出、翻訳などの機能を統一した軽量フレームワーク、エンドツーエンドのアーキテクチャによるエラー伝播の解消、強化学習戦略による性能向上です。HunyuanOCRはHuggingFaceでオープンソース化され、産業応用の基盤を提供することが期待されています。 Comment
元ポスト:
公式ポスト:
pj page: https://github.com/Tencent-Hunyuan/HunyuanOCR
HF: https://huggingface.co/tencent/HunyuanOCR
OmniDocBenchでSoTA
- [Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12
[Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12
Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #CVPR #Selected Papers/Blogs #DocParser #One-Line Notes Issue Date: 2025-10-21 GPT Summary- 文書内容抽出のための新しいベンチマーク「OmniDocBench」を提案。これは、9つの文書ソースにわたる高品質な注釈を特徴とし、エンドツーエンド評価やタスク特化型分析をサポート。異なる文書タイプにおける手法の強みと弱みを明らかにし、文書解析の公平で詳細な評価基準を設定。データセットとコードは公開されている。 Comment
OCR系のモデルの評価で標準的に用いられるベンチマーク
Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation, Yongxin Shi+, N_A, arXiv'23
Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal Issue Date: 2023-10-26 GPT Summary- この論文では、GPT-4Vという大規模マルチモーダルモデルの光学文字認識(OCR)能力を評価します。さまざまなOCRタスクにおいてモデルのパフォーマンスを評価し、ラテン文字の認識と理解において優れた性能を示す一方、多言語や複雑なタスクには苦戦することがわかりました。これに基づいて、専門のOCRモデルの必要性やGPT-4Vを活用する戦略についても検討します。この研究は、将来のLMMを用いたOCRの研究に役立つものです。評価のパイプラインと結果は、GitHubで利用可能です。 Comment
GPT4-VをさまざまなOCRタスク「手書き、数式、テーブル構造認識等を含む)で性能検証した研究。
MLT19データセットを使った評価では、日本語の性能は非常に低く、英語とフランス語が性能高い。手書き文字認識では英語と中国語でのみ評価。
[Paper Note] DiT: Self-supervised Pre-training for Document Image Transformer, Junlong Li+, ACMMM'22
Paper/Blog Link My Issue
#ComputerVision #Transformer #ACMMM #Backbone Issue Date: 2025-08-22 GPT Summary- 自己監視型事前学習モデルDiTを提案し、ラベルなしテキスト画像を用いて文書AIタスクにおける性能を向上。文書画像分類やレイアウト分析、表検出、OCRなどで新たな最先端結果を達成。コードとモデルは公開中。
ocr-bench, davanstrien, 2026.03
Paper/Blog Link My Issue
#Article #ComputerVision #Tools #NLP #Evaluation #Repository #LLM-as-a-Judge #One-Line Notes #Initial Impression Notes Issue Date: 2026-03-06 Comment
元ポスト:
自分が試したいドキュメントのコレクションに対して、5つほどのOpenなOCRで実際に書き起こしを行い、VLM-as-a-JudgeでスコアリングしELOでの当該ドキュメントセットに対するスコアボードを作成するツール
非常に興味深く実用的だが、個人的にOlmOCRもサポートして欲しいなぁと思うなど。あと、機密性の高い文書などを扱う場面では、セキュリティ面にどれだけ配慮されているのかが気になってしまう。
NDLOCR-Liteの公開について, NDL Lab, 2026.02
Paper/Blog Link My Issue
#Article #NeuralNetwork #ComputerVision #NLP #Blog #Repository #Japanese #Selected Papers/Blogs #Encoder-Decoder #One-Line Notes Issue Date: 2026-02-28 Comment
元ポスト:
江戸期以前の和古書、清代以前の漢籍といった古典籍資料のデジタル化画像からテキストデータを作成するOCRとのこと。以前はGPUで動作していたが、CPUで動作するようにした軽量版とのこと。すごい。
dots.ocr-1.5, rednote-hilab, 2026.02
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #MultiModal #StructuredData #SmallModel #OpenWeight #DocParser Issue Date: 2026-02-16 Comment
元ポスト:
GLM-OCR, Z.AI, 2026.02
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #OpenWeight #VisionLanguageModel #Initial Impression Notes Issue Date: 2026-02-03 Comment
元ポスト:
GLMのOCRがリリース。DeepSeekもOCRをリリースしているが、tokenを圧縮する目的や、モデルの学習データを担保する目的などで最終目的としては自分たちのモデルの強化に必要であり、その道中での副産物としてリリースしているのだろうか。それとも、OCRタスクの需要がシンプルに高いからリリースしているのだろうか。
公式ポスト:
関連:
- [Paper Note] LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR, Said Taghadouini+, arXiv'26, 2026.01
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10
- DeepSeek-OCR: Contexts Optical Compression, DeepSeek, 2025.10
- DeepSeek-OCR-2, DeepSeek-AI, 2026.01
DeepSeek-OCR-2, DeepSeek-AI, 2026.01
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Compression Issue Date: 2026-01-27 Comment
元ポスト:
関連:
- DeepSeek-OCR: Contexts Optical Compression, DeepSeek, 2025.10
Introducing Mistral OCR 3, Mistral AI, 2025.12
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #Proprietary #VisionLanguageModel #One-Line Notes Issue Date: 2025-12-19 Comment
元ポスト:
MistralによるOCR。他のOCRに比べてmulti-lingual, 様々なデータセットで高い性能を発揮。APIでのみ提供されている模様。
OCR Arena, extend.ai, 2025.11
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Evaluation #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-25 Comment
元ポスト:
OCRのアリーナ(=ユーザがPDFをアップロードし2モデルでOCRし優劣をユーザが判定しその結果からElo Rateを算出する)。
言語間の性能差はわからないので参考程度にすると良いと思われる。
NVIDIA-Nemotron-Parse-v1.1, NVIDIA, 2025.11
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #TabularData #OpenWeight #read-later #DocParser #VisionLanguageModel Issue Date: 2025-11-20 Comment
元ポスト:
olmocr2と比較して性能はどうだろうか、特に日本語
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10
Supercharge your OCR Pipelines with Open Models, merve+, 2025.10
Paper/Blog Link My Issue
#Article #Survey #ComputerVision #NLP Issue Date: 2025-10-24 Comment
元ポスト:
LightOnOCR-1B: The Case for End-to-End and Efficient Domain-Specific Vision-Language Models for OCR, Taghadouini+, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #DocParser #VisionLanguageModel Issue Date: 2025-10-24 Comment
元ポスト:
olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #MultiLingual #Japanese #GRPO #Selected Papers/Blogs #DocParser #VisionLanguageModel #One-Line Notes Issue Date: 2025-10-23 Comment
元ポスト:
モデル: https://huggingface.co/allenai/olmOCR-2-7B-1025-FP8
Apache2.0ライセンスでSoTA更新。そしてさすがの学習データとコードも公開
テクニカルレポート: https://github.com/allenai/olmocr/blob/main/olmOCR-2-Unit-Test-Rewards-for-Document-OCR.pdf
果たして日本語は…SFT Datasetのtop5にjaはなかったように見える
所見:
demoを試した見たが日本語スライドでも非常に性能が良い
DeepSeekOCRとの比較:
dots.ocr, rednote-hilab, 2025.07
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #SmallModel #MultiLingual #OpenWeight #DocParser #VisionLanguageModel Issue Date: 2025-10-22 Comment
100+言語のdots.ocr benchと呼ばれるものでの性能も報告されているが、日本語性能はどのくらいなのだろうか
MIT Licence
参考:VLMを使った多言語ドキュメントパーサ「dots.ocr」を試す, kun432, Zenn
https://zenn.dev/kun432/scraps/b91fce6fbeb30c
日本語もかなりいけてそう
Chandra, datalab-to, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiLingual #OpenWeight #DocParser Issue Date: 2025-10-22 Comment
元ポスト:
SoTA.だったdots.ocrというモデルをoutperformしている模様
40+ languagesをサポート
AI PUBS OpenRAIL-M Modifiedライセンス🤔
https://huggingface.co/datalab-to/chandra/blob/main/LICENSE
dots.ocrはMIT Licence
- dots.ocr, rednote-hilab, 2025.07
DeepSeek-OCR: Contexts Optical Compression, DeepSeek, 2025.10
Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiLingual #read-later #Selected Papers/Blogs #DocParser #Encoder-Decoder #Reference Collection #Compression Issue Date: 2025-10-20 Comment
元ポスト:
英語と中国語では使えそうだが、日本語では使えるのだろうか?p.17 Figure11を見ると100言語に対して学習したと書かれているように見える。
所見:
所見:
OCRベンチマーク:
- [Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12
(DeepSeek-OCRの主題はOCRの性能向上というわけではないようだが)
所見:
所見+ポイント解説:
所見:
textxをimageとしてエンコードする話は以下の2023年のICLRの研究でもやられているよというポスト:
- [Paper Note] Language Modelling with Pixels, Phillip Rust+, ICLR'23, 2022.07
関連:
- [Paper Note] Text or Pixels? It Takes Half: On the Token Efficiency of Visual Text
Inputs in Multimodal LLMs, Yanhong Li+, arXiv'25, 2025.10
- [Paper Note] PixelWorld: Towards Perceiving Everything as Pixels, Zhiheng Lyu+, arXiv'25, 2025.01
関連:
literature:
上記ポストでは本研究はこれらliteratureを完全に無視し “an initial investigation into the feasibility of compressing long contexts via optical 2D mapping.” と主張しているので、先行研究を認識し引用すべきだと述べられているようだ。
karpathy氏のポスト:
NVIDIA Releases 3 Million Sample Dataset for OCR, Visual Question Answering, and Captioning Tasks, NVIDIA, 2025.08
Paper/Blog Link My Issue
#Article #ComputerVision #Pretraining #NLP #Dataset #QuestionAnswering #ImageCaptioning #VisionLanguageModel Issue Date: 2025-08-13 Comment
元ポスト:
Llama Nemotron VLM Dataset V1
VQA, OCRの比率が多めで、Imase Captioningは少なめ。
NuMarkdown-8B-Thinking, numind, 2025.08
Paper/Blog Link My Issue
#Article #NLP #Reasoning #VisionLanguageModel Issue Date: 2025-08-08 Comment
元ポスト:
Qwen2.5-VL-7Bをsynthetia doc, Reasoning, Markdown exampleでSFTした後、レイアウトによってrewardを設計したGRPOで学習したとのこと
MIT License
YomiToku, Kotaro Kinoshita, 2024.11
Paper/Blog Link My Issue
#Article #ComputerVision #Library #Repository Issue Date: 2024-11-27 Comment
いわゆるAI-OCRで、縦書きの認識も可能で、表などの構造化された情報も認識可能とのこと。
手書きは認識できるのだろうか?
CC BY-NC-SA 4.0
元ツイート:
