OCR


Paper/Blog Link My Issue
#NLP #Dataset #Evaluation #Japanese #Selected Papers/Blogs #VisionLanguageModel #Initial Impression Notes #Author Thread-Post Issue Date: 2026-04-14 Comment

元ポスト:

Loading…

OCRは非常に重要なタスクであり、特に日本語OCR向けのwildなデータセットは、日本側が主体的に作らないとグローバル側では作成されない気がしており、非常に重要な研究と感じる。実際、現行のSLMのSoTAモデル群ではうまくいかないようだ。

Sarashinaは日本語のOCR向けにプロプライエタリなデータセットを作成して学習されていると記憶しており、それでもなおQwen3-VLの方がベンチマークスコアが高いのは意外だった。

関連:
- Sarashina2.2-Vision-3B: コンパクトかつ性能が高いVLMの公開, SB Intuitions, 2025.11
- sarashina2-vision-{8b, 14b}, SB Intuitions, 2025.03




Paper/Blog Link My Issue
#ComputerVision #NLP #OpenWeight #Selected Papers/Blogs #VisionLanguageModel #Initial Impression Notes Issue Date: 2026-03-18 GPT Summary- Qianfan-OCRは、文書解析と理解を統合した40億パラメータの視覚-言語モデルで、直接画像からMarkdownへの変換を実現。多様なタスクをサポートし、明示的なレイアウト分析を行うためにLayout-as-Thoughtを導入、複雑なレイアウトの精度を向上。OmniDocBenchやOlmOCR Benchでのパフォーマンスが優れており、他の一般的なモデルを上回る結果を示した。 Comment

HF: https://huggingface.co/baidu/Qianfan-OCR

元ポスト:

Loading…

VLMでOCRするタイプのモデルで様々なベンチマークでSoTA、かつ192 languageをサポートととのこと。試したい




Paper/Blog Link My Issue
#MultiModal #read-later Issue Date: 2026-03-17 GPT Summary- マルチモーダルOCR(MOCR)を利用した文書解析手法dots.mocrを提案。テキストとグラフィックスを同時に解析し、視覚要素も解析ターゲットとすることで、文書の再現性を向上。また、異種要素間の関係をモデルが活用できるように、エンドツーエンドで訓練。評価では、文書解析と構造化グラフィックス解析の両方で優れた性能を示し、既存システムを上回る結果を達成。なお、他の研究者向けにコードも公開。 Comment

元ポスト:

Loading…

OlmOCRBenchでSoTAとのこと:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #SyntheticData #OpenWeight #read-later #VisionLanguageModel #One-Line Notes #Pixel-based Issue Date: 2026-03-03 GPT Summary- FireRed-OCRは、一般的なビジョン-ランゲージモデルを特化した高性能OCRモデルへ変換するフレームワークです。VLMは一般的には優れた能力を示すものの、文書処理では「構造的幻視」が問題となります。FireRed-OCRでは、高品質な構造データの不足に対処するため、「Geometry + Semantics」データファクトリを構築し、幾何特徴のクラスタリングを利用して多様な文書タイプに対応したデータセットを作成します。3段階の訓練戦略を導入し、文書構造理解、形式的出力の標準化、強化学習による構文的整合性の確保を行います。OmniDocBench v1.5での評価結果から、FireRed-OCRは92.94%の性能を達成し、他のベースラインを大きく上回ることを示しました。コードとモデル重みをオープンソース化し、一般VLMから専門的な構造エキスパートへの変容を促進します。 Comment

元ポスト:

Loading…

github: https://github.com/FireRedTeam/FireRed-OCR

- [Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12

においてSoTAとのこと。日本語はどのくらいいけるだろう。




Paper/Blog Link My Issue
#Embeddings #InformationRetrieval #Dataset #QuestionAnswering #Evaluation #MultiModal #Hybrid Issue Date: 2026-02-27 GPT Summary- 画像ベースの情報検索と質問応答の性能をテキストベースの手法と比較するために、IRPAPERSデータセットを用いて実験を実施。テキスト検索はRecall@1で46%を達成し、画像ベースは43%を達成。両手法は補完的で、マルチモーダルハイブリッド検索はRecall@1で49%の性能を示す。MUVERAを用いた画像埋め込みモデルの評価において、Cohere Embed v4が最も優れた性能を持つ。質問応答では、テキストベースのシステムが画像ベースより高い整合性を示し、複数文書検索が効果を発揮。両モダリティの限界と必要性を明確化。データセットと実験コードは公開。 Comment

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #MultiModal #Coding #VisionLanguageModel #2D (Image) #Compression Issue Date: 2026-02-05 GPT Summary- 大規模言語モデル(LLM)はソースコード理解で成功を収めていますが、計算効率が課題です。従来、LLMはコードをトークンの線形シーケンスとして扱い、計算コストが増加します。そこで、マルチモーダル大規模言語モデル(MLLM)による画像モダリティの利用が提案され、圧縮の可能性を探る研究を行いました。その結果、(1) MLLMは最大8倍のトークン削減を実現し、効果的にコードを理解できることが分かりました;(2) 構文ハイライトなどの視覚的手がかりを活用し、4倍の圧縮下でパフォーマンス向上;(3) クローン検出タスクは視覚的圧縮に対して耐性があり、圧縮比で生のテキストを上回る結果もありました。これにより、MLLMの効率的な推論可能性が示唆されています。 Comment

元ポスト:

Loading…

textをimageとして扱う関連研究:
- [Paper Note] Language Modelling with Pixels, Phillip Rust+, ICLR'23, 2022.07
- [Paper Note] PixelWorld: Towards Perceiving Everything as Pixels, Zhiheng Lyu+, arXiv'25, 2025.01
- DeepSeek-OCR: Contexts Optical Compression, DeepSeek, 2025.10

literatureについては下記ポスト参考:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #OpenWeight #read-later #VisionLanguageModel #Initial Impression Notes Issue Date: 2026-02-03 GPT Summary- GLM-OCRは、0.9Bパラメータの多模态モデルで、実世界の文書理解に最適化されている。CogViT視覚エンコーダとGLM言語デコーダを組み合わせ、計算効率と性能のバランスを高めている。Multi-Token Prediction (MTP)メカニズムにより、OCRタスクのデコード効率が向上し、低メモリオーバーヘッドを実現。二段階パイプラインでレイアウト分析と認識を行い、公開ベンチマークで競争力のある性能を達成。リソース制約のある環境でも適用可能な設計。 Comment

元ポスト:

Loading…

GLMのOCRがリリース。DeepSeekもOCRをリリースしているが、tokenを圧縮する目的や、モデルの学習データを担保する目的などで最終目的としては自分たちのモデルの強化に必要であり、その道中での副産物としてリリースしているのだろうか。それとも、OCRタスクの需要がシンプルに高いからリリースしているのだろうか。

公式ポスト:

Loading…

関連:
- [Paper Note] LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR, Said Taghadouini+, arXiv'26, 2026.01
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10
- DeepSeek-OCR: Contexts Optical Compression, DeepSeek, 2025.10
- DeepSeek-OCR-2, DeepSeek-AI, 2026.01

GLM-V:
- [Paper Note] GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning, GLM-V Team+, arXiv'25, 2025.07




Paper/Blog Link My Issue
#ComputerVision #NLP #MultiLingual #VisionLanguageModel #Initial Impression Notes Issue Date: 2026-01-22 GPT Summary- 1Bパラメータのエンドツーエンド多言語ビジョン・言語モデル「LightOnOCR-2-1B」は、文書画像をOCRなしで自然なテキストに変換します。スキャンやフランス語文書、科学的PDFに強力な対応を見せるこのモデルは、OlmOCR-Benchで最先端の成果を達成し、従来モデルより9倍小さく高速です。また、予測したバウンディングボックスを活用し、ローカリゼーションを強化。堅牢性向上のためにチェックポイント平均化とタスク算術を統合し、チェックポイントをApache 2.0の下で公開しました。 Comment

元ポスト:

Loading…

HF: https://huggingface.co/collections/lightonai/lightonocr-2

関連:
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10
- [Paper Note] GutenOCR: A Grounded Vision-Language Front-End for Documents, Hunter Heidenreich+, arXiv'26, 2026.01

またしてもolmocr2超えのOCRが。高性能なOCRは様々な場面で活用(RAG, Agent, 埋蔵した学習データなど)できるので個人的に非常に強い需要があると思う。

元ポスト:

Loading…




Paper/Blog Link My Issue
#ComputerVision #NLP #VisionLanguageModel #Initial Impression Notes Issue Date: 2026-01-22 GPT Summary- GutenOCRはQwen2.5-VL-3BとQwen2.5-VL-7BをファインチューニングしたグラウンデッドOCRシステムで、視覚言語モデルを通じて読取り、検出、グラウンディングを一元化します。ビジネス文書や科学記事に対応し、条件付きクエリへの応答が可能です。GutenOCR-7Bは新しい評価プロトコルで合成グラウンディングスコアを向上させ、特にOCRの精度を高めていますが、特定のレイアウトではトレードオフが存在することも示されました。 Comment

元ポスト:

Loading…

olmOCR2と比較しても性能が良さそうに見えるが果たして
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10

モデルはまだオープンになっていないように見える。




Paper/Blog Link My Issue
#ComputerVision #NLP #OpenWeight #VisionLanguageModel Issue Date: 2025-11-26 GPT Summary- HunyuanOCRは、OCRタスクに特化した軽量な商業グレードのオープンソースVision-Language Model(VLM)であり、優れた性能を示し、従来のソリューションを上回っています。主な特徴は、スポッティング、パース、情報抽出、翻訳などの機能を統一した軽量フレームワーク、エンドツーエンドのアーキテクチャによるエラー伝播の解消、強化学習戦略による性能向上です。HunyuanOCRはHuggingFaceでオープンソース化され、産業応用の基盤を提供することが期待されています。 Comment

元ポスト:

Loading…

公式ポスト:

Loading…

pj page: https://github.com/Tencent-Hunyuan/HunyuanOCR

HF: https://huggingface.co/tencent/HunyuanOCR

OmniDocBenchでSoTA
- [Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12




Paper/Blog Link My Issue
#ComputerVision #NLP #Dataset #Evaluation #CVPR #Selected Papers/Blogs #DocParser #One-Line Notes Issue Date: 2025-10-21 GPT Summary- 文書内容抽出のための新しいベンチマーク「OmniDocBench」を提案。これは、9つの文書ソースにわたる高品質な注釈を特徴とし、エンドツーエンド評価やタスク特化型分析をサポート。異なる文書タイプにおける手法の強みと弱みを明らかにし、文書解析の公平で詳細な評価基準を設定。データセットとコードは公開されている。 Comment

OCR系のモデルの評価で標準的に用いられるベンチマーク




Paper/Blog Link My Issue
#ComputerVision #NLP #LanguageModel #MultiModal #EMNLP #One-Line Notes #Reading Reflections Issue Date: 2023-10-26 GPT Summary- GPT-4VのOCR機能を評価し、シーンテキスト、手書き文字、数学式や表構造認識などの幅広いタスクへの性能を検討。ラテン文字では高性能だが、多言語や複雑なタスクでは限界を示す。専門的なOCRモデルの必要性を強調し、今後の研究の指針を提供。評価結果は公開されている。 Comment

GPT4-VをさまざまなOCRタスク「手書き、数式、テーブル構造認識等を含む)で性能検証した研究。
MLT19データセットを使った評価では、日本語の性能は非常に低く、英語とフランス語が性能高い。手書き文字認識では英語と中国語でのみ評価。
image

現在では非常に性能が向上していると考えられるが、初期VLMのOCR性能を示している文献として興味深い。




Paper/Blog Link My Issue
#ComputerVision #Transformer #ACMMM #Backbone Issue Date: 2025-08-22 GPT Summary- 自己監視型事前学習モデルDiTを提案し、ラベルなしテキスト画像を用いて文書AIタスクにおける性能を向上。文書画像分類やレイアウト分析、表検出、OCRなどで新たな最先端結果を達成。コードとモデルは公開中。

Paper/Blog Link My Issue
#Article #ComputerVision #Tools #NLP #Evaluation #Repository #LLM-as-a-Judge #One-Line Notes #Initial Impression Notes Issue Date: 2026-03-06 Comment

元ポスト:

Loading…

自分が試したいドキュメントのコレクションに対して、5つほどのOpenなOCRで実際に書き起こしを行い、VLM-as-a-JudgeでスコアリングしELOでの当該ドキュメントセットに対するスコアボードを作成するツール

非常に興味深く実用的だが、個人的にOlmOCRもサポートして欲しいなぁと思うなど。あと、機密性の高い文書などを扱う場面では、セキュリティ面にどれだけ配慮されているのかが気になってしまう。




Paper/Blog Link My Issue
#Article #NeuralNetwork #ComputerVision #NLP #Blog #Repository #Japanese #Selected Papers/Blogs #Encoder-Decoder #One-Line Notes Issue Date: 2026-02-28 Comment

元ポスト:

Loading…

江戸期以前の和古書、清代以前の漢籍といった古典籍資料のデジタル化画像からテキストデータを作成するOCRとのこと。以前はGPUで動作していたが、CPUで動作するようにした軽量版とのこと。すごい。




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #MultiLingual #Japanese #GRPO #Selected Papers/Blogs #DocParser #VisionLanguageModel #One-Line Notes Issue Date: 2025-10-23 Comment

元ポスト:

Loading…

モデル: https://huggingface.co/allenai/olmOCR-2-7B-1025-FP8

Apache2.0ライセンスでSoTA更新。そしてさすがの学習データとコードも公開

テクニカルレポート: https://github.com/allenai/olmocr/blob/main/olmOCR-2-Unit-Test-Rewards-for-Document-OCR.pdf

果たして日本語は…SFT Datasetのtop5にjaはなかったように見える

所見:

Loading…

demoを試した見たが日本語スライドでも非常に性能が良い

DeepSeekOCRとの比較:

Loading…




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #SmallModel #MultiLingual #OpenWeight #DocParser #VisionLanguageModel Issue Date: 2025-10-22 Comment

100+言語のdots.ocr benchと呼ばれるものでの性能も報告されているが、日本語性能はどのくらいなのだろうか

MIT Licence

参考:VLMを使った多言語ドキュメントパーサ「dots.ocr」を試す, kun432, Zenn
https://zenn.dev/kun432/scraps/b91fce6fbeb30c

日本語もかなりいけてそう




Paper/Blog Link My Issue
#Article #ComputerVision #NLP #LanguageModel #MultiLingual #read-later #Selected Papers/Blogs #DocParser #Encoder-Decoder #Reference Collection #Compression Issue Date: 2025-10-20 Comment

元ポスト:

Loading…

英語と中国語では使えそうだが、日本語では使えるのだろうか?p.17 Figure11を見ると100言語に対して学習したと書かれているように見える。

所見:

Loading…

所見:

Loading…

OCRベンチマーク:
- [Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12

(DeepSeek-OCRの主題はOCRの性能向上というわけではないようだが)

所見:

Loading…

所見+ポイント解説:

Loading…

所見:

Loading…

textxをimageとしてエンコードする話は以下の2023年のICLRの研究でもやられているよというポスト:
- [Paper Note] Language Modelling with Pixels, Phillip Rust+, ICLR'23, 2022.07

Loading…

関連:
- [Paper Note] Text or Pixels? It Takes Half: On the Token Efficiency of Visual Text Inputs in Multimodal LLMs, Yanhong Li+, arXiv'25, 2025.10
- [Paper Note] PixelWorld: Towards Perceiving Everything as Pixels, Zhiheng Lyu+, arXiv'25, 2025.01

関連:

Loading…

関連:
- [Paper Note] Glyph: Scaling Context Windows via Visual-Text Compression, Jiale Cheng+, arXiv'25, 2025.10

literature:

Loading…


上記ポストでは本研究はこれらliteratureを完全に無視し “an initial investigation into the feasibility of compressing long contexts via optical 2D mapping.” と主張しているので、先行研究を認識し引用すべきだと述べられているようだ。

karpathy氏のポスト:

Loading…

Loading…