@2025__arXiv__A Survey of LLM × DATA - yuuk1's Digital Garden

> [!abstract] 概要 > 大規模言語モデル(LLM)とデータ管理(DATA)の統合は、両分野を急速に再定義しつつある。本サーベイでは双方向の関係を包括的にレビューする。一方では DATA4LLM として、大規模データの処理・保存・提供が事前学習・後訓練・RAG・エージェントワークフローの各段階で LLM に多様性・高品質・サニタイズされたデータ(「IaaS」概念に沿う)を供給する仕組みを扱う。(i) LLM 向けデータ処理はスケーラブルな取得・重複排除・フィルタリング・選択・ドメイン混合・合成データ拡張を含む。(ii) LLM 向けデータ保存は効率的なデータ・モデル形式、分散・異種ストレージ階層、KV キャッシュ管理、耐障害チェックポイントに焦点を当てる。(iii) LLM 向けデータ提供は RAG における知識後処理、LLM 推論におけるプロンプト圧縮やデータ来歴、訓練戦略におけるデータパッキングやシャッフリングの課題に取り組む。他方では LLM4DATA として、LLM が汎用エンジンとしてデータ管理に活用されつつある最近の進展をレビューする。(i) データ操作(自動データクリーニング・統合・発見)、(ii) データ分析(構造化・半構造化・非構造化データに対する推論)、(iii) システム最適化(構成チューニング・クエリ書き換え・異常診断)を、検索拡張プロンプト・タスク特化ファインチューニング・マルチエージェント協調などの LLM 技術で実現する手法を対象とする。 ## 論文情報 - **タイトル**: A Survey of LLM × DATA - **著者**: [[Xuanhe Zhou]]¶・Junxuan He¶・Wei Zhou¶・Haodong Chen¶・Zirui Tang¶・Haoyu Zhao¶・Xin Tong・[[Guoliang Li]]†・Youmin Chen・Jun Zhou・Zhaojun Sun・Binyuan Hui‡・Shuo Wang†・Conghui He§・Zhiyuan Liu†・Jingren Zhou‡・Fan Wu（¶ Co-first、† [[Tsinghua University]]、‡ [[Alibaba Group]]、§ [[Shanghai AI Laboratory]]、無印 [[Shanghai Jiao Tong University]]） - **媒体**: arXiv プレプリント（cs.DB） - **投稿日**: 2025-05-24（v3: 2025-06-01） - **arXiv ID**: 2505.18458 - **コード**: https://github.com/weAIDB/awesome-data-llm ## 概要 400 超の論文を調査し、LLM とデータ管理の双方向的関係を DATA4LLM（データ処理・保存・提供）と LLM4DATA（データ操作・分析・システム最適化）の 2 軸で体系化した包括サーベイである。独自貢献として IaaS（Inclusiveness・Abundance・Articulation・Sanitization）というデータ品質評価の原理的枠組みを提案し、LLM ライフサイクル全段階のデータ特性と技術を統一的に俯瞰する。 ## 問題設定 LLM の訓練・推論・RAG 等の各段階で必要なデータの特性は大きく異なる。一方、LLM がデータ管理タスクを自動化する能力も急速に高まっている。本サーベイの入力は 2 つのリサーチクエスチョンである。(1) データ管理技術はいかにして LLM の各段階を支えるか(DATA4LLM)。(2) LLM はいかにしてデータ管理タスクを強化するか(LLM4DATA)。 **Figure 2: 事例** ![[_attachments/arxiv-2505.18458/fig2-case-study.png]] (Figure 2. Example Data Characteristics に関する事例を示す。) **Figure 3: 事例** ![[_attachments/arxiv-2505.18458/fig3-case-study.png]] (Figure 3. Example LLM Data Distributions - (a) General Domain (SFT)[110], (b) General Domain (Eval) [244], (c) Law (SFT)[447], (d) に関する事例を示す。) ## 提案手法 ### IaaS 概念（LLM データ品質評価の 4 次元） 400 超の論文の調査から帰納的に導かれた LLM データセット品質評価フレームワークであり、以下の 4 次元で構成される。 1. **Inclusiveness（包括性）**: ドメイン・タスク種別・データ源・言語・表現スタイル・モダリティの広範なカバレッジ。 2. **Abundance（充足性）**: 過学習を防ぐための適切な量とバランスの取れた構成。2 段階混合、ソースリバランシング、エントロピーベース重み付けなど。 3. **Articulation（明瞭性）**: 書式の整備、文脈の自己充足性、ステップバイステップ推論の明示。 4. **Sanitization（浄化性）**: プライバシー準拠・毒性除去・倫理的一貫性・リスク緩和の 4 次元。 ### DATA4LLM のタクソノミー LLM ライフサイクルを 7 段階（事前学習・継続事前学習・SFT・RL・RAG・エージェント・評価）に分け、各段階のデータ特性と 3 技術群を網羅する（表 1）。 - **データ処理**: 取得（ウェブクロール・レイアウト解析・エンティティリンキング）→重複排除（完全一致・ハッシュ(MinHash/SimHash/DotHash)・頻度ベース・埋め込みクラスタリング）→フィルタリング（サンプルレベル(パープレキシティ・影響度・クラスタリング)とコンテンツレベル(プライバシー・画像動画)）→選択（類似度・最適化・モデルベース）→混合（ヒューリスティック・二重水準最適化・分布的ロバスト最適化・モデルベース）→合成（知識蒸留・推論データ生成・アラインメント拡張）→エンドツーエンドパイプライン(Data-Juicer/Dataverse、MDR/DCLM/FineWeb の 3 代表パイプライン)。 - **データ保存**: データ形式（TFRecord/MindRecord/Safetensors/ONNX）、分散ストレージ（JuiceFS/[[3FS]]）、データ組織化（ベクトル系(チャンキング・埋め込み・圧縮・Faiss/Milvus/LanceDB)とグラフ系(GraphRAG/LightRAG/MiniRAG、Neo4j/Neptune/ArangoDB)）、データ移動（キャッシュ(Quiver/Fluid)・オフロード(ZeRO-Infinity/ProTrain)・計算ストレージ重畳）、耐障害（チェックポイント・冗長計算）、KV キャッシュ（メモリレイアウト・オフロード・圧縮・インデキシング）。 - **データ提供**: シャッフリング（サンプルスコアリング・プルーニング、RAG の知識フィルタリングとリランキング）、圧縮（RAG 知識圧縮・プロンプト圧縮）、パッキング（短系列挿入・系列組合せ最適化・セマンティックパッキング）、データ来歴（埋め込みマーカー(Bileve/UPV)・統計的来歴(透かし)）。 ### LLM4DATA のタクソノミー - **データ操作**: データクリーニング（標準化(プロンプトベース/エージェントベース)・誤り処理(CoT/コンテキスト強化/ファインチューニング)・欠損値補完(RAG 支援)）、データ統合（エンティティマッチング(プロンプト/マルチモデル協調/マルチタスクファインチューニング)・スキーママッチング(RAG/知識グラフ/エージェント)）、データ発見（プロファイリング・アノテーション）。 - **データ分析**: 構造化データ（NL2SQL/コード生成・マルチステップ QA(TAPERA/ReAcTable)・エンドツーエンド QA(TableGPT2/CABINET)・テーブル画像解析(Table-LLaVA/TabPedia)）、グラフデータ（NL2GQL・意味的分析(UniKGQA/GraphGPT)）、半構造化データ（SPREADSHEETBENCH 等で SOTA と人間の 20〜50% のギャップ）、非構造化データ（文書解析(OCR 依存/OCR フリー)・プログラム解析(脆弱性検知/コード要約/リポジトリレベル補完)）。 - **システム最適化**: 構成チューニング（プロンプト工学/RAG/目的整合チューニング）、クエリ最適化（プロンプト/RAG/タスク特化訓練）、**異常診断**（(1) 直接 LLM プロンプト、(2) RAG ベースの履歴経験強化、(3) マルチエージェント協調）。 **Figure 1: 全体像** ![[_attachments/arxiv-2505.18458/fig1-overview.png]] (Figure 1. Overview of LLM × DATA (with “IaaS” Concept) に関する全体像を示す。) **Figure 10: ワークフロー** ![[_attachments/arxiv-2505.18458/fig10-workflow.png]] (Figure 10. General Workflows - (a) Multi-Step Relational Data QA. (b) End-to-End Relational Data QA に関する処理フローを示す。) ## 新規性 - **IaaS 概念の提案**: 先行サーベイが個別技術（重複排除・フィルタリング等）に焦点を当てる中、データセット品質の原理的評価レンズを初めて提示した。 - **ライフサイクル横断的 DATA4LLM**: 事前学習のみをカバーする先行研究に対し、SFT・RL・RAG・エージェントまで含む完全なライフサイクルの技術地図を提供する。 - **双方向の統一視点**: DATA4LLM と LLM4DATA を単一のサーベイで俯瞰し、相互依存を浮き彫りにした初の試みである。 ## 実験設定サーベイ論文のため体系的な実験評価はない。400 超の文献の分析に基づく分類と比較表（表 1〜表 10）を提示する。 ## 実験結果サーベイのため定量結果は個々の引用論文に委ねられるが、以下の横断的知見を報告する。 - RAG において、ベクトル類似度のみに依存すると 10,000 ページ文書で精度が著しく低下し、100,000 ページでは最大 12% 劣化する（EyeLevel.ai の報告）。 - 推論データにおいて、推論ステップの全体構造が内容より重要であり、67% のステップをシャッフルすると AIME 2024 で 13.3% の精度低下を招く（正解→不正解に変えても 3.2% の低下に留まる）。 - 半構造化テーブルの分析では、SOTA モデルと人間性能の間に 20〜50% のギャップが残存する。 **Table 1: ワークフロー** ![[_attachments/arxiv-2505.18458/table1-workflow.png]] (Table 1. Technique Comparison - Data Processing, Storage, and Serving Techniques for Different LLM Stages. “N/A” indicates that n に関する処理フローを示す。) ## 考察本サーベイの主たる価値は、LLM 分野とデータベース分野の研究者を繋ぐ共通語彙の提供にある。DATA4LLM 側ではデータパイプラインの設計が依然として経験的であり、Data-Juicer Sandbox のような「探索→分析→精製」の自動化が初期段階にある。LLM4DATA 側ではスケーラビリティ（数千万行のテーブル処理にかかるコスト）と秘匿性（プライベートドメイン知識の活用）が主要ボトルネックである。 ## 将来方向 ### DATA4LLM 側 1. **効率的データ評価**: モデルを訓練する前にデータセット品質を予測する手法の開発。 2. **スケーラブルなマルチモーダルストレージ**: 異種モダリティを統合する RAG 基盤の構築。 3. **知識更新とバージョン管理**: 動的ドメイン（医療・法律）の即時反映とデータセットのバージョン管理プラットフォーム。 4. **統合 RAG データベース**: ベクトル・グラフ・知識フィルタリングを統合するハイブリッド RAG プラットフォーム。 ### LLM4DATA 側 1. **統一データ分析システム**: 構造化・半構造化・非構造化データを単一モデルで処理。 2. **プライベートドメイン知識**: RAG やファインチューニングでは対処困難な新規・複雑なドメインへの対応。 3. **非逐次・非テキストデータの表現**: テーブルの平坦化による情報損失を補うマルチモーダル LLM やテーラーメイドエンコーディング。 4. **予算制約下の効率的 LLM 利用**: 従来手法とのハイブリッド戦略やコスト性能トレードオフに基づくスケジューリング。 ## 強み - 400 超の文献を体系的に整理した網羅性。IaaS 概念という独自のレンズで統一している。 - DATA4LLM と LLM4DATA を単一の枠組みで双方向的に俯瞰した初のサーベイ。 - LLM ライフサイクル 7 段階 × データ管理 3 層(処理・保存・提供)の表 1 が技術マップとして有用。 ## 弱点・課題 - サーベイの広さの代償としてシステム最適化(§3.3)の深掘りが浅く、異常診断は 3 カテゴリの列挙に留まる。 - 実験的検証が一切無いため、分類の妥当性は引用論文の個別結果に依存する。 - プライバシー・安全性の扱いが定義にとどまり、GDPR/CCPA 等の法的要件との対応が不十分。 - arXiv プレプリントであり査読を経ていない。