文書理解 - yuuk1's Digital Garden

# 文書理解 ## 定義文書理解(Document Understanding / Document Intelligence)は、金融レポート・科学論文・契約書・請求書などのビジュアルリッチで複雑レイアウトな文書から知識を抽出・構造化する能力を指す。OCR によるテキスト転写にとどまらず、レイアウト解析・表構造復元・数式認識・キー情報抽出・読み取り順序復元など複数のサブタスクを統合的に処理することを要求する。現代の情報システムにとっての基盤的能力であり、産業 OCR の最前線課題でもある。(Source: [[@2026__arXiv__GLM-OCR Technical Report]]) ## 横断的知見 - **スケールより専門化**: GLM-OCR(0.9B)が Qwen3-VL-235B・Gemini-3 Pro などの汎用 VLM を文書パースで上回った。文書理解タスクでは汎用的な大規模スケールより、OCR 特化のアーキテクチャ設計とデータカリキュラムの方が性能効率で優れる可能性が示された。(Source: [[@2026__arXiv__GLM-OCR Technical Report]]) - **2 ステージ分解の有効性**: 小規模モデルは複雑レイアウトの文書処理時に幻覚と繰り返し生成を起こしやすい。レイアウト解析モジュールを事前に導入して複雑なレイアウト構造を単純サブ問題に分解することで、幻覚を抑制し並列処理によるスループット向上も実現する。(Source: [[@2026__arXiv__GLM-OCR Technical Report]]) - **文書パースと KIE の統一**: 文書パース(Markdown/JSON 全構造復元)とキー情報抽出(タスク固有 JSON フィールド)はいずれも視覚入力に条件付けた構造化生成問題として定式化でき、プロンプト制御のみで統一アーキテクチャで扱える。パラメータ効率とクロスタスク知識転移を促進する。(Source: [[@2026__arXiv__GLM-OCR Technical Report]]) ## 未解決の問い - 2 ステージパイプライン(レイアウト解析 + 認識)はクロスページ依存や不規則なマルチカラム構造に弱い。エンドツーエンドの単一ステージ文書理解モデルとのトレードオフはどこにあるか。 - OmniDocBench v1.5 などの公開ベンチマークで SOTA であっても、特定産業ドメイン(医療記録・法的文書・政府書類)での頑健性は別途評価が必要。言語カバレッジの不均一さもある。 - マルチモーダル LLM の文書理解性能向上は、訓練データの質・量・多様性 vs. アーキテクチャ最適化のどちらに起因するか。GLM-OCR の SOTA 性能を分析する研究はまだない。 - 長大文書(複数ページ)でのクロスページ依存(参照表・通し番号・ヘッダー引き継ぎ)への対応は 2 ステージ設計の課題として残っている。 ## 関連 - ソース: [[@2026__arXiv__GLM-OCR Technical Report]] - 概念: [[光学文字認識]] / [[ビジョン言語モデル]] / [[マルチトークン予測]] - エンティティ: [[Zhipu AI]] / [[Jie Tang]] ## 出典 - [[@2026__arXiv__GLM-OCR Technical Report]](0.9B の GLM-OCR による文書パース・KIE の統一フレームワーク、OmniDocBench v1.5 全モデル中 1 位)