光学文字認識 - yuuk1's Digital Garden

# 光学文字認識 ## 定義光学文字認識(Optical Character Recognition; OCR)は、文書画像から文字情報を認識・転写する技術の総称である。伝統的には平文転写に特化した手工芸ルールベースの多段パイプラインが用いられたが(Tesseract, EasyOCR 等)、近年はマルチモーダル大規模言語モデルを活用した統合アプローチへ移行している。OCR は本質的に決定論的タスクであり、強い局所依存性と明示的な構造的監視を持つという特性が、LLM 的な自己回帰デコードとの整合に独自の課題を生む。(Source: [[@2026__arXiv__GLM-OCR Technical Report]]) OCR の現代的スコープは以下のサブタスクに広がっている: - **テキスト認識**: 印刷・手書きテキストのトランスクリプション - **表構造復元**: 行・列・セルの構造を保持した Markdown/CSV 変換 - **数式認識**: 数学表現から LaTeX への変換 - **キー情報抽出(KIE)**: 請求書・フォームからの構造化 JSON 生成 - **レイアウト解析**: 文書を段落・表・数式・図などのリージョンに分解 ## 横断的知見 - **OCR の決定論的特性が MTP に適合する**: 標準的な LLM デコードの 1 トークン/ステップ生成は確率的テキスト生成には適するが、高い局所依存性と構造的一貫性が要求される OCR タスクでは非効率である。GLM-OCR は MTP(マルチトークン予測)をパラメータ共有ドラフトヘッドで実装することで、平均 5.2 トークン/ステップを達成し約 50% のスループット向上を得た。これは MTP が「文書理解ドメインに特化した効率化技術」として汎用 LLM 利用を超えた活用価値を持つことを示す。(Source: [[@2026__arXiv__GLM-OCR Technical Report]]) - **特化 0.9B モデルが 235B 汎用 VLM を凌駕**: GLM-OCR(0.9B)は OmniDocBench v1.5(94.62)で Qwen3-VL-235B(89.15)・Gemini-3 Pro(90.33)を上回った。OCR は視覚理解と構造的生成の特殊な組み合わせであり、汎用大規模スケーリングより、タスク固有のアーキテクチャ・訓練戦略・データカリキュラムの整合が性能を左右する。(Source: [[@2026__arXiv__GLM-OCR Technical Report]]) - **印鑑認識という特殊サブタスク**: 実世界 OCR では印鑑(seal)のような円形・傾斜・重畳レイアウトを持つオブジェクトの認識が産業上重要であるが、汎用 VLM は極めて苦手(dots.ocr 63.0)。GLM-OCR の RL 訓練(GRPO)が構造的出力信頼性を向上させ、この特殊タスクで 90.5 という突出した性能を示した。(Source: [[@2026__arXiv__GLM-OCR Technical Report]]) ## 未解決の問い - OCR の産業 SOTA は今や 0.9B 前後の特化モデルと Gemini-3 Pro/GPT-5.2 クラスのクローズドモデルに二極化しているが、オープンソースの中規模(7B-70B)特化 OCR VLM のニッチはあるか。 - 手書きテキスト認識(Handwritten Text)ではイメージ多様性が高く、大規模・多様なデータが引き続き重要と思われる。GLM-OCR が PaddleOCR-VL-1.5 にわずかに劣った理由はデータカバレッジか、アーキテクチャか。 - 多言語 OCR での劣後(GLM-OCR 69.3 vs Gemini-3-Pro 86.2)は、低リソース言語の訓練データ不足が主因か、それとも視覚エンコーダの文字形状表現の限界か。 - 2 ステージパイプラインのレイアウト検知誤りが下流認識に与えるカスケード誤差の定量的評価はまだ行われていない。 ## 関連 - ソース: [[@2026__arXiv__GLM-OCR Technical Report]] - 概念: [[文書理解]] / [[ビジョン言語モデル]] / [[マルチトークン予測]] - エンティティ: [[Zhipu AI]] / [[Jie Tang]] / [[Wenmeng Yu]] / [[Xiaotao Gu]] ## 出典 - [[@2026__arXiv__GLM-OCR Technical Report]](GLM-OCR: 0.9B マルチモーダル OCR モデル。MTP・2 ステージパイプライン・GRPO RL を統合し OmniDocBench v1.5 SOTA を達成)