> [!abstract] 概要
> 大規模言語モデル(LLM)とデータ管理(DATA)の統合は、両分野を急速に再定義しつつある。本サーベイでは双方向の関係を包括的にレビューする。一方では DATA4LLM として、大規模データの処理・保存・提供が事前学習・後訓練・RAG・エージェントワークフローの各段階で LLM に多様性・高品質・サニタイズされたデータ(「IaaS」概念に沿う)を供給する仕組みを扱う。(i) LLM 向けデータ処理はスケーラブルな取得・重複排除・フィルタリング・選択・ドメイン混合・合成データ拡張を含む。(ii) LLM 向けデータ保存は効率的なデータ・モデル形式、分散・異種ストレージ階層、KV キャッシュ管理、耐障害チェックポイントに焦点を当てる。(iii) LLM 向けデータ提供は RAG における知識後処理、LLM 推論におけるプロンプト圧縮やデータ来歴、訓練戦略におけるデータパッキングやシャッフリングの課題に取り組む。他方では LLM4DATA として、LLM が汎用エンジンとしてデータ管理に活用されつつある最近の進展をレビューする。(i) データ操作(自動データクリーニング・統合・発見)、(ii) データ分析(構造化・半構造化・非構造化データに対する推論)、(iii) システム最適化(構成チューニング・クエリ書き換え・異常診断)を、検索拡張プロンプト・タスク特化ファインチューニング・マルチエージェント協調などの LLM 技術で実現する手法を対象とする。
## 論文情報
- **タイトル**: A Survey of LLM × DATA
- **著者**: [[Xuanhe Zhou]]¶・Junxuan He¶・Wei Zhou¶・Haodong Chen¶・Zirui Tang¶・Haoyu Zhao¶・Xin Tong・[[Guoliang Li]]†・Youmin Chen・Jun Zhou・Zhaojun Sun・Binyuan Hui‡・Shuo Wang†・Conghui He§・Zhiyuan Liu†・Jingren Zhou‡・Fan Wu(¶ Co-first、† [[Tsinghua University]]、‡ [[Alibaba Group]]、§ [[Shanghai AI Laboratory]]、無印 [[Shanghai Jiao Tong University]])
- **媒体**: arXiv プレプリント(cs.DB)
- **投稿日**: 2025-05-24(v3: 2025-06-01)
- **arXiv ID**: 2505.18458
- **コード**: https://github.com/weAIDB/awesome-data-llm
## 概要
400 超の論文を調査し、LLM とデータ管理の双方向的関係を DATA4LLM(データ処理・保存・提供)と LLM4DATA(データ操作・分析・システム最適化)の 2 軸で体系化した包括サーベイである。独自貢献として IaaS(Inclusiveness・Abundance・Articulation・Sanitization)というデータ品質評価の原理的枠組みを提案し、LLM ライフサイクル全段階のデータ特性と技術を統一的に俯瞰する。
## 問題設定
LLM の訓練・推論・RAG 等の各段階で必要なデータの特性は大きく異なる。一方、LLM がデータ管理タスクを自動化する能力も急速に高まっている。本サーベイの入力は 2 つのリサーチクエスチョンである。(1) データ管理技術はいかにして LLM の各段階を支えるか(DATA4LLM)。(2) LLM はいかにしてデータ管理タスクを強化するか(LLM4DATA)。
## 提案手法
### IaaS 概念(LLM データ品質評価の 4 次元)
400 超の論文の調査から帰納的に導かれた LLM データセット品質評価フレームワークであり、以下の 4 次元で構成される。
1. **Inclusiveness(包括性)**: ドメイン・タスク種別・データ源・言語・表現スタイル・モダリティの広範なカバレッジ。
2. **Abundance(充足性)**: 過学習を防ぐための適切な量とバランスの取れた構成。2 段階混合、ソースリバランシング、エントロピーベース重み付けなど。
3. **Articulation(明瞭性)**: 書式の整備、文脈の自己充足性、ステップバイステップ推論の明示。
4. **Sanitization(浄化性)**: プライバシー準拠・毒性除去・倫理的一貫性・リスク緩和の 4 次元。
### DATA4LLM のタクソノミー
LLM ライフサイクルを 7 段階(事前学習・継続事前学習・SFT・RL・RAG・エージェント・評価)に分け、各段階のデータ特性と 3 技術群を網羅する(表 1)。
- **データ処理**: 取得(ウェブクロール・レイアウト解析・エンティティリンキング)→重複排除(完全一致・ハッシュ(MinHash/SimHash/DotHash)・頻度ベース・埋め込みクラスタリング)→フィルタリング(サンプルレベル(パープレキシティ・影響度・クラスタリング)とコンテンツレベル(プライバシー・画像動画))→選択(類似度・最適化・モデルベース)→混合(ヒューリスティック・二重水準最適化・分布的ロバスト最適化・モデルベース)→合成(知識蒸留・推論データ生成・アラインメント拡張)→エンドツーエンドパイプライン(Data-Juicer/Dataverse、MDR/DCLM/FineWeb の 3 代表パイプライン)。
- **データ保存**: データ形式(TFRecord/MindRecord/Safetensors/ONNX)、分散ストレージ(JuiceFS/[[3FS]])、データ組織化(ベクトル系(チャンキング・埋め込み・圧縮・Faiss/Milvus/LanceDB)とグラフ系(GraphRAG/LightRAG/MiniRAG、Neo4j/Neptune/ArangoDB))、データ移動(キャッシュ(Quiver/Fluid)・オフロード(ZeRO-Infinity/ProTrain)・計算ストレージ重畳)、耐障害(チェックポイント・冗長計算)、KV キャッシュ(メモリレイアウト・オフロード・圧縮・インデキシング)。
- **データ提供**: シャッフリング(サンプルスコアリング・プルーニング、RAG の知識フィルタリングとリランキング)、圧縮(RAG 知識圧縮・プロンプト圧縮)、パッキング(短系列挿入・系列組合せ最適化・セマンティックパッキング)、データ来歴(埋め込みマーカー(Bileve/UPV)・統計的来歴(透かし))。
### LLM4DATA のタクソノミー
- **データ操作**: データクリーニング(標準化(プロンプトベース/エージェントベース)・誤り処理(CoT/コンテキスト強化/ファインチューニング)・欠損値補完(RAG 支援))、データ統合(エンティティマッチング(プロンプト/マルチモデル協調/マルチタスクファインチューニング)・スキーママッチング(RAG/知識グラフ/エージェント))、データ発見(プロファイリング・アノテーション)。
- **データ分析**: 構造化データ(NL2SQL/コード生成・マルチステップ QA(TAPERA/ReAcTable)・エンドツーエンド QA(TableGPT2/CABINET)・テーブル画像解析(Table-LLaVA/TabPedia))、グラフデータ(NL2GQL・意味的分析(UniKGQA/GraphGPT))、半構造化データ(SPREADSHEETBENCH 等で SOTA と人間の 20〜50% のギャップ)、非構造化データ(文書解析(OCR 依存/OCR フリー)・プログラム解析(脆弱性検知/コード要約/リポジトリレベル補完))。
- **システム最適化**: 構成チューニング(プロンプト工学/RAG/目的整合チューニング)、クエリ最適化(プロンプト/RAG/タスク特化訓練)、**異常診断**((1) 直接 LLM プロンプト、(2) RAG ベースの履歴経験強化、(3) マルチエージェント協調)。
## 新規性
- **IaaS 概念の提案**: 先行サーベイが個別技術(重複排除・フィルタリング等)に焦点を当てる中、データセット品質の原理的評価レンズを初めて提示した。
- **ライフサイクル横断的 DATA4LLM**: 事前学習のみをカバーする先行研究に対し、SFT・RL・RAG・エージェントまで含む完全なライフサイクルの技術地図を提供する。
- **双方向の統一視点**: DATA4LLM と LLM4DATA を単一のサーベイで俯瞰し、相互依存を浮き彫りにした初の試みである。
## 実験設定
サーベイ論文のため体系的な実験評価はない。400 超の文献の分析に基づく分類と比較表(表 1〜表 10)を提示する。
## 実験結果
サーベイのため定量結果は個々の引用論文に委ねられるが、以下の横断的知見を報告する。
- RAG において、ベクトル類似度のみに依存すると 10,000 ページ文書で精度が著しく低下し、100,000 ページでは最大 12% 劣化する(EyeLevel.ai の報告)。
- 推論データにおいて、推論ステップの全体構造が内容より重要であり、67% のステップをシャッフルすると AIME 2024 で 13.3% の精度低下を招く(正解→不正解に変えても 3.2% の低下に留まる)。
- 半構造化テーブルの分析では、SOTA モデルと人間性能の間に 20〜50% のギャップが残存する。
## 考察
本サーベイの主たる価値は、LLM 分野とデータベース分野の研究者を繋ぐ共通語彙の提供にある。DATA4LLM 側ではデータパイプラインの設計が依然として経験的であり、Data-Juicer Sandbox のような「探索→分析→精製」の自動化が初期段階にある。LLM4DATA 側ではスケーラビリティ(数千万行のテーブル処理にかかるコスト)と秘匿性(プライベートドメイン知識の活用)が主要ボトルネックである。
## 将来方向
### DATA4LLM 側
1. **効率的データ評価**: モデルを訓練する前にデータセット品質を予測する手法の開発。
2. **スケーラブルなマルチモーダルストレージ**: 異種モダリティを統合する RAG 基盤の構築。
3. **知識更新とバージョン管理**: 動的ドメイン(医療・法律)の即時反映とデータセットのバージョン管理プラットフォーム。
4. **統合 RAG データベース**: ベクトル・グラフ・知識フィルタリングを統合するハイブリッド RAG プラットフォーム。
### LLM4DATA 側
1. **統一データ分析システム**: 構造化・半構造化・非構造化データを単一モデルで処理。
2. **プライベートドメイン知識**: RAG やファインチューニングでは対処困難な新規・複雑なドメインへの対応。
3. **非逐次・非テキストデータの表現**: テーブルの平坦化による情報損失を補うマルチモーダル LLM やテーラーメイドエンコーディング。
4. **予算制約下の効率的 LLM 利用**: 従来手法とのハイブリッド戦略やコスト性能トレードオフに基づくスケジューリング。
## 強み
- 400 超の文献を体系的に整理した網羅性。IaaS 概念という独自のレンズで統一している。
- DATA4LLM と LLM4DATA を単一の枠組みで双方向的に俯瞰した初のサーベイ。
- LLM ライフサイクル 7 段階 × データ管理 3 層(処理・保存・提供)の表 1 が技術マップとして有用。
## 弱点・課題
- サーベイの広さの代償としてシステム最適化(§3.3)の深掘りが浅く、異常診断は 3 カテゴリの列挙に留まる。
- 実験的検証が一切無いため、分類の妥当性は引用論文の個別結果に依存する。
- プライバシー・安全性の扱いが定義にとどまり、GDPR/CCPA 等の法的要件との対応が不十分。
- arXiv プレプリントであり査読を経ていない。