## Memo ## Memo with LLM ### 論文情報 - **論文のタイトル**: MemOS: A Memory OS for AI System - **著者と所属**: Zhiyu Li(第一著者、MemTensor Technology)他38名(上海交通大学、浙江大学、北京大学、人民大学、中国科学技術大学など多数の中国の主要研究機関) - **カンファレンス/ジャーナル名**: arXiv(プレプリント) - **発表年**: 2025年7月4日(初版投稿) ### 論文概要 本論文では、大規模言語モデル(LLM)向けのメモリオペレーティングシステム「MemOS」を提案している。従来のLLMが抱える静的パラメータと短期コンテキストの制約を解決し、メモリを管理可能なシステムリソースとして扱うことで、制御可能性、可塑性、進化性をLLMにもたらす革新的なアーキテクチャである。基本単位「MemCube」による統一的なメモリ管理を通じて、継続学習とパーソナライゼーションの基盤を提供する。 ### 詳細解説 #### 問題設定 従来のLLMは以下の4つの主要な問題を抱えている: 1. **長範囲依存関係モデリング**: 限定されたコンテキストウィンドウによる制約 2. **知識進化への適応**: 静的パラメータによる知識更新の困難さ 3. **パーソナライゼーションと多役割サポート**: セッション間での記憶の欠如 4. **クロスプラットフォーム メモリ移行**: プラットフォーム間での記憶共有の困難 入力として、ユーザーからの自然言語プロンプトや自動化されたタスクがあり、出力として一貫性があり文脈を理解した応答が求められる。必要なデータは、パラメトリックメモリ(モデルの重み)、アクティベーションメモリ(KVキャッシュ)、プレーンテキストメモリ(外部知識)の3つのメモリタイプを含む。 #### 提案手法 MemOSは以下の3層アーキテクチャを提案している: **1. Interface Layer(インターフェース層)** - MemReader: 自然言語入力を構造化されたメモリ操作に変換 - Memory API: 統一されたメモリ操作インターフェース - Memory Pipeline: 複雑なワークフロー用の操作チェーン **2. Operation Layer(操作層)** - MemOperator: セマンティック索引とグラフベース構造 - MemScheduler: 動的メモリ選択と統合戦略の最適化 - MemLifecycle: Generated → Activated → Merged → Archivedの状態遷移管理 **3. Infrastructure Layer(インフラストラクチャ層)** - MemGovernance: アクセス制御とコンプライアンス執行 - MemVault: 階層化されたメモリストレージ - MemLoader/MemDumper: プラットフォーム間のメモリ移行 **MemCube(メモリキューブ)**が中核概念として機能し、以下の要素で構成される: - Memory Payload: セマンティックコンテンツ - Metadata: 識別子、ガバナンス属性、行動使用指標 数式例:メモリスケジューリングの最適化 ``` S(m) = α·Relevance(m,q) + β·Frequency(m) + γ·Recency(m) ``` ここで、S(m)はメモリmのスケジューリングスコア、qは現在のクエリ、α,β,γは重み係数 #### 新規性 1. **初のLLM向けメモリオペレーティングシステム**: メモリを第一級のシステムリソースとして扱う 2. **統一的なメモリ抽象化**: 3つの異なるメモリタイプ(パラメトリック、アクティベーション、プレーンテキスト)の統合管理 3. **動的メモリ変換**: メモリタイプ間の自動変換(例:頻繁に使用されるプレーンテキストのKVキャッシュ化) 4. **ライフサイクル管理**: メモリの生成から廃棄までの完全な管理 5. **オペレーティングシステム設計原理の適用**: CPUやメモリ管理の概念をLLMメモリに応用 #### 実験設定 **評価ベンチマーク**: LCOMOベンチマーク(Long-Context Memory Operations) - シングルホップ推論 - マルチホップ推論 - オープンドメイン質問応答 - 時間的推論 **ベースライン手法**: - LangMem: 階層セマンティック検索 - Zep: 時間認識知識グラフ - OpenAI-Memory: 商用メモリモジュール - Mem0: スロットベース長期記憶 **評価指標**: LLM-Judgeスコア(主要)、F1、ROUGE-L、BLEU-1/2、METEOR、BERTScore-F1、コサイン類似度 #### 実験結果 MemOS(MemOS-0630)は全カテゴリで最高性能を達成: **LLM-Judgeスコア(主要結果)**: - Overall: 73.31±0.05(最高) - Single-hop: 78.44±0.11 - Multi-hop: 64.30±0.44 - Open-domain: 55.21±0.00 - Temporal reasoning: 73.21±0.25(特に大幅改善) **特筆すべき改善**: - 時間的推論においてOpenAIグローバルメモリに対して159%の改善 - 全体精度で38.97%の向上 - トークンオーバーヘッドで60.95%の削減 **KVメモリ加速実験**: - Qwen2.5-72Bモデルで最大91.4%のTTFT(Time To First Token)削減 - 長いコンテキストと短いクエリの組み合わせで特に効果的 **計算効率**: - 検索時間: P50で1758ms、P95で1969ms - 総実行時間: P50で4942ms、P95で7937ms - フルコンテキストベースラインよりも大幅に高速でありながら、同等以上の性能を実現 これらの結果は、MemOSのアーキテクチャ革新、特にハイブリッドセマンティック検索とメモリ中心設計の有効性を実証している。 ## Abstract 大規模言語モデル([[LLM]])は汎用人工知能(AGI)のための重要なインフラストラクチャとなっているが、明確に定義されたメモリ管理システムの欠如が、長期コンテキスト推論、継続的パーソナライゼーション、知識の一貫性の発展を妨げている。既存のモデルは主に静的パラメータと短期的なコンテキスト状態に依存しており、ユーザーの好みを追跡したり、長期間にわたって知識を更新したりする能力が限られている。Retrieval-Augmented Generation([[RAG]])はプレーンテキストで外部知識を導入するが、ライフサイクル制御や永続的表現との統合がない状態のない回避策のままである。最近の研究では、メモリ階層の観点からLLMの訓練と推論コストをモデル化し、パラメータメモリと外部検索の間に明示的なメモリ層を導入することで、特定の知識を外部化することによりこれらのコストを大幅に削減できることが示されている。計算効率を超えて、LLMは時間とコンテキストにわたって情報がどのように分散されるかから生じる広範囲の課題に直面しており、異なる時間スケールとソースにまたがる異質な知識を管理できるシステムが必要である。この課題に対処するため、我々はメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムであるMemOSを提案する。これは、プレーンテキスト、アクティベーションベース、パラメータレベルのメモリの表現、スケジューリング、進化を統合し、コスト効率的な保存と検索を可能にする。基本単位として、MemCubeは出所やバージョニングなどのメタデータとともにメモリコンテンツをカプセル化する。MemCubeは時間の経過とともに構成、移行、融合が可能で、メモリタイプ間の柔軟な遷移とリトリーバルとパラメータベース学習の橋渡しを可能にする。MemOSは、LLMに制御可能性、可塑性、進化性をもたらすメモリ中心のシステムフレームワークを確立し、継続学習とパーソナライズモデリングの基盤を築く。