OCR

#Pocket
Issue Date: 2025-11-26 [Paper Note] HunyuanOCR Technical Report, Hunyuan Vision Team+, arXiv'25, 2025.11 GPT Summary- HunyuanOCRは、OCRタスクに特化した軽量な商業グレードのオープンソースVision-Language Model(VLM)であり、優れた性能を示し、従来のソリューションを上回っています。主な特徴は、スポッティング、パース、情報抽出、翻訳などの機能を統一した軽量フレームワーク、エンドツーエンドのアーキテクチャによるエラー伝播の解消、強化学習戦略による性能向上です。HunyuanOCRはHuggingFaceでオープンソース化され、産業応用の基盤を提供することが期待されています。 Comment

元ポスト:

Loading…


#Pocket #Dataset #Evaluation #CVPR #DocParser
Issue Date: 2025-10-21 [Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12 GPT Summary- 文書内容抽出のための新しいベンチマーク「OmniDocBench」を提案。これは、9つの文書ソースにわたる高品質な注釈を特徴とし、エンドツーエンド評価やタスク特化型分析をサポート。異なる文書タイプにおける手法の強みと弱みを明らかにし、文書解析の公平で詳細な評価基準を設定。データセットとコードは公開されている。 #ComputerVision #Pocket #NLP #LanguageModel #MultiModal
Issue Date: 2023-10-26 Exploring OCR Capabilities of GPT-4V(ision) : A Quantitative and In-depth Evaluation, Yongxin Shi+, N_A, arXiv'23 GPT Summary- この論文では、GPT-4Vという大規模マルチモーダルモデルの光学文字認識(OCR)能力を評価します。さまざまなOCRタスクにおいてモデルのパフォーマンスを評価し、ラテン文字の認識と理解において優れた性能を示す一方、多言語や複雑なタスクには苦戦することがわかりました。これに基づいて、専門のOCRモデルの必要性やGPT-4Vを活用する戦略についても検討します。この研究は、将来のLMMを用いたOCRの研究に役立つものです。評価のパイプラインと結果は、GitHubで利用可能です。 Comment

GPT4-VをさまざまなOCRタスク「手書き、数式、テーブル構造認識等を含む)で性能検証した研究。
MLT19データセットを使った評価では、日本語の性能は非常に低く、英語とフランス語が性能高い。手書き文字認識では英語と中国語でのみ評価。
image



#ComputerVision #Pocket #Transformer #ACMMM #Backbone Issue Date: 2025-08-22 [Paper Note] DiT: Self-supervised Pre-training for Document Image Transformer, Junlong Li+, ACMMM'22 GPT Summary- 自己監視型事前学習モデルDiTを提案し、ラベルなしテキスト画像を用いて文書AIタスクにおける性能を向上。文書画像分類やレイアウト分析、表検出、OCRなどで新たな最先端結果を達成。コードとモデルは公開中。 #Article #ComputerVision #NLP #Evaluation #VisionLanguageModel #One-Line Notes Issue Date: 2025-11-25 OCR Arena, extend.ai, 2025.11 Comment

元ポスト:

Loading…

OCRのアリーナ(=ユーザがPDFをアップロードし2モデルでOCRし優劣をユーザが判定しその結果からElo Rateを算出する)。

言語間の性能差はわからないので参考程度にすると良いと思われる。



#Article #ComputerVision #NLP #TabularData #OpenWeight #read-later #DocParser #VisionLanguageModel Issue Date: 2025-11-20 NVIDIA-Nemotron-Parse-v1.1, NVIDIA, 2025.11 Comment

元ポスト:

Loading…

olmocr2と比較して性能はどうだろうか、特に日本語
- olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10



#Article #Survey #ComputerVision #NLP Issue Date: 2025-10-24 Supercharge your OCR Pipelines with Open Models, merve+, 2025.10 Comment

元ポスト:

Loading…


#Article #ComputerVision #NLP #DocParser #VisionLanguageModel Issue Date: 2025-10-24 LightOnOCR-1B: The Case for End-to-End and Efficient Domain-Specific Vision-Language Models for OCR, Taghadouini+, 2025.10 Comment

元ポスト:

Loading…


#Article #ComputerVision #NLP #Supervised-FineTuning (SFT) #ReinforcementLearning #MultiLingual #Japanese #GRPO #Selected Papers/Blogs #DocParser #VisionLanguageModel #One-Line Notes Issue Date: 2025-10-23 olmOCR 2: Unit test rewards for document OCR, Ai2, 2025.10 Comment

元ポスト:

Loading…

モデル: https://huggingface.co/allenai/olmOCR-2-7B-1025-FP8

Apache2.0ライセンスでSoTA更新。そしてさすがの学習データとコードも公開

テクニカルレポート: https://github.com/allenai/olmocr/blob/main/olmOCR-2-Unit-Test-Rewards-for-Document-OCR.pdf

果たして日本語は…SFT Datasetのtop5にjaはなかったように見える

所見:

Loading…

demoを試した見たが日本語スライドでも非常に性能が良い

DeepSeekOCRとの比較:

Loading…


#Article #ComputerVision #NLP #SmallModel #MultiLingual #OpenWeight #DocParser #VisionLanguageModel Issue Date: 2025-10-22 dots.ocr, rednote-hilab, 2025.07 Comment

100+言語のdots.ocr benchと呼ばれるものでの性能も報告されているが、日本語性能はどのくらいなのだろうか

MIT Licence

参考:VLMを使った多言語ドキュメントパーサ「dots.ocr」を試す, kun432, Zenn
https://zenn.dev/kun432/scraps/b91fce6fbeb30c

日本語もかなりいけてそう



#Article #ComputerVision #NLP #LanguageModel #MultiLingual #OpenWeight #DocParser Issue Date: 2025-10-22 Chandra, datalab-to, 2025.10 Comment

元ポスト:

Loading…


SoTA.だったdots.ocrというモデルをoutperformしている模様

40+ languagesをサポート

AI PUBS OpenRAIL-M Modifiedライセンス🤔
https://huggingface.co/datalab-to/chandra/blob/main/LICENSE

dots.ocrはMIT Licence
- dots.ocr, rednote-hilab, 2025.07



#Article #ComputerVision #NLP #LanguageModel #MultiLingual #read-later #Selected Papers/Blogs #DocParser #Encoder-Decoder #Reference Collection Issue Date: 2025-10-20 DeepSeek-OCR: Contexts Optical Compression, DeepSeek, 2025.10 Comment

元ポスト:

Loading…

英語と中国語では使えそうだが、日本語では使えるのだろうか?p.17 Figure11を見ると100言語に対して学習したと書かれているように見える。

所見:

Loading…

所見:

Loading…

OCRベンチマーク:
- [Paper Note] OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations, Linke Ouyang+, CVPR'25, 2024.12

(DeepSeek-OCRの主題はOCRの性能向上というわけではないようだが)

所見:

Loading…

所見+ポイント解説:

Loading…

所見:

Loading…

textxをimageとしてエンコードする話は以下の2023年のICLRの研究でもやられているよというポスト:
- [Paper Note] Language Modelling with Pixels, Phillip Rust+, ICLR'23, 2022.07

Loading…

関連:
- [Paper Note] Text or Pixels? It Takes Half: On the Token Efficiency of Visual Text Inputs in Multimodal LLMs, Yanhong Li+, arXiv'25, 2025.10
- [Paper Note] PixelWorld: Towards Perceiving Everything as Pixels, Zhiheng Lyu+, arXiv'25, 2025.01

関連:

Loading…

関連:
- [Paper Note] Glyph: Scaling Context Windows via Visual-Text Compression, Jiale Cheng+, arXiv'25, 2025.10

literature:

Loading…


上記ポストでは本研究はこれらliteratureを完全に無視し “an initial investigation into the feasibility of compressing long contexts via optical 2D mapping.” と主張しているので、先行研究を認識し引用すべきだと述べられているようだ。

karpathy氏のポスト:

Loading…

Loading…


#Article #ComputerVision #Pretraining #NLP #Dataset #QuestionAnswering #ImageCaptioning #VisionLanguageModel Issue Date: 2025-08-13 NVIDIA Releases 3 Million Sample Dataset for OCR, Visual Question Answering, and Captioning Tasks, NVIDIA, 2025.08 Comment

元ポスト:

Loading…

Llama Nemotron VLM Dataset V1

VQA, OCRの比率が多めで、Imase Captioningは少なめ。
image



#Article #NLP #Reasoning #VisionLanguageModel Issue Date: 2025-08-08 NuMarkdown-8B-Thinking, numind, 2025.08 Comment

元ポスト:

Loading…

Qwen2.5-VL-7Bをsynthetia doc, Reasoning, Markdown exampleでSFTした後、レイアウトによってrewardを設計したGRPOで学習したとのこと

MIT License



#Article #ComputerVision #Library #Repository Issue Date: 2024-11-27 YomiToku, Kotaro Kinoshita, 2024.11 Comment

いわゆるAI-OCRで、縦書きの認識も可能で、表などの構造化された情報も認識可能とのこと。
手書きは認識できるのだろうか?
CC BY-NC-SA 4.0

元ツイート:

Loading…