## Memo

## Memo with LLM
### 論文情報
- **タイトル**: Barbarians at the Gate: How AI is Upending Systems Research
- **著者と所属**: Audrey Cheng, Shu Liu, Melissa Pan, Zhifei Li, Bowen Wang, Alex Krentsel, Tian Xia, Mert Cemri, Jongseok Park, Shuo Yang, Jeff Chen, Lakshya Agrawal, Aditya Desai, Jiarong Xing, Koushik Sen, Matei Zaharia, Ion Stoica (UC Berkeley)
- **発表媒体**: arXiv preprint (arXiv:2510.06189)
- **発表年**: 2025年
### 論文概要
本論文は、AIがシステム研究プロセスを変革し、性能指向アルゴリズムの自動発見を可能にするAI駆動システム研究(ADRS: AI-Driven Research for Systems)という新しいアプローチを提案している。OpenEvolveフレームワークを用いた複数のケーススタディにより、AIが人間の設計を上回るアルゴリズム(最大5.0倍の実行時間改善または50%のコスト削減)を発見できることを実証している。
### 詳細解説
#### 問題設定
システム研究における性能最適化問題を対象としており、入力は最適化対象のシステムと評価用ワークロード、出力は性能を改善するアルゴリズムである。従来、システム研究者は(1)問題定義、(2)解決策の設計、(3)実装、(4)評価、(5)論文執筆という5段階のプロセスで研究を行っていたが、本研究は特に解決策の設計と評価(研究時間の約40%)の自動化に焦点を当てている。必要なデータは、実システムまたはシミュレータ、性能測定のためのベンチマークワークロード、および初期アルゴリズムである。
#### 提案手法
提案するADRS(AI-Driven Research for Systems)は、反復的な生成・評価・改良サイクルで構成される:
1. **解決策生成器(Solution Generator)**: LLMを用いて多様なアルゴリズムを生成。プロンプトには問題の記述、API仕様、評価基準、既存のベースラインアルゴリズムを含む。
2. **検証器(Verifier)**: 生成されたアルゴリズムを実システムまたはシミュレータ上で実行し、事前定義されたワークロードに対する性能を測定。システム性能問題は自然に信頼できる検証器を持つという特性を活用。
3. **進化的探索**: OpenEvolveなどの既存フレームワークを利用し、MAP-Elitesアルゴリズムやアイランドベースの集団モデルを用いてアルゴリズム空間を効率的に探索。
具体的な実装では、例えばクラウドスケジューリング問題において、初期の単純なラウンドロビン方式から開始し、LLMが繰り返しアルゴリズムを改善していく。各反復で、LLMは現在のアルゴリズムと性能フィードバックを受け取り、改良版を生成する。
#### 新規性
先行研究と比較した本研究の新規性は以下の通り:
1. **システム研究への特化**: 従来のAIによるアルゴリズム発見研究(AlphaZero、AlphaTensorなど)は特定の問題に限定されていたが、本研究はシステム研究全般に適用可能な汎用的アプローチを提示。
2. **実践的評価**: 理論的提案に留まらず、4つの異なるシステムドメイン(マルチリージョンクラウドスケジューリング、Mixture-of-Experts推論、LLMベースSQL最適化、トランザクションスケジューリング)での実証評価を実施。
3. **ベストプラクティスの体系化**: プロンプト設計、評価器構築、抽象化レベルの選択、モデルアンサンブルの使用など、ADRSを効果的に適用するための実践的ガイドラインを提供。
4. **研究コミュニティへの影響分析**: AIがアルゴリズム設計の中心的役割を担うことで、人間の研究者の役割が問題定式化と戦略的ガイダンスへシフトする可能性を議論。
#### 実験設定
実験では以下の4つのケーススタディを実施:
1. **マルチリージョンクラウドスケジューリング**: Azure Functionsのワークロードを用いて、複数のクラウドリージョン間での関数実行の負荷分散を評価。評価指標は実行時間とコスト。
2. **Mixture-of-Experts(MoE)推論**: DeepSeekMoEモデルにおけるエキスパート間の負荷分散を最適化。評価指標はスループットとレイテンシ。
3. **LLMベースSQL最適化**: BIRDベンチマークを用いて、自然言語からSQLへの変換プロセスを最適化。評価指標はExecution Accuracy(実行精度)。
4. **トランザクションスケジューリング**: OLTPベンチマーク(Epinions、SmallBank、TPC-C、TAOBench、YCSB)を用いて、トランザクションの競合を最小化するスケジューリングを評価。評価指標はmakespan(完了時間)。
各ケーススタディでは、OpenEvolveフレームワークを使用し、50〜100回の反復で進化を実施。
#### 実験結果
具体的な数値結果は以下の通り:
1. **クラウドスケジューリング**: ADRSが発見したアルゴリズムは、単純なラウンドロビンベースラインと比較して**5.0倍の実行時間改善**を達成し、またコストを**50%削減**。
2. **MoE推論**: 既存のDeepSeek EPLB(Expert Parallelism Load Balancer)と同等以上の性能を達成し、特定のワークロードでは改善を示した。
3. **LLMベースSQL**: 従来手法と比較して、実行精度が向上し、より効率的なSQLクエリ生成を実現。
4. **トランザクションスケジューリング**: オンライン制約下では既存のSMF(Schedule by Marginal Footprint)アルゴリズムを再発見したが、オンライン制約を緩和した場合により良いスケジューリングを発見できることを示した。
論文では、ADRSの成功要因として(1)適切な抽象化レベルの選択、(2)モデルアンサンブルの使用、(3)効果的なプロンプト設計、(4)信頼性の高い評価器の構築を挙げている。また、失敗事例の分析から、問題の複雑さや制約条件によってはADRSの有効性が限定される可能性も指摘している。
## Abstract
人工知能(AI)は、新しい解決策の発見を自動化することで、私たちが知る研究プロセスを変革し始めている。タスクが与えられた場合、典型的なAI駆動アプローチは、(i)多様な解決策のセットを生成し、次に(ii)これらの解決策を検証して問題を解決するものを選択する、というものである。重要なことに、このアプローチは信頼できる検証器、すなわち解決策が与えられた問題を解決するかどうかを正確に判断できるものの存在を前提としている。私たちは、新しい性能指向アルゴリズムの設計と評価に長く焦点を当ててきたシステム研究が、AI駆動の解決策発見に特に適していると主張する。これは、システム性能問題が自然に信頼できる検証器を認めるためである:解決策は通常、実際のシステムまたはシミュレータに実装され、検証はこれらのソフトウェア成果物を事前定義されたワークロードに対して実行し、性能を測定することに帰着する。私たちはこのアプローチをシステムのためのAI駆動研究(ADRS)と呼び、これは解決策を反復的に生成、評価、改良する。既存のオープンソースADRSインスタンスであるOpenEvolveを使用して、マルチリージョンクラウドスケジューリングの負荷分散、Mixture-of-Experts推論、LLMベースSQLクエリ、トランザクションスケジューリングなど、多様なドメインにわたるケーススタディを提示する。複数のインスタンスにおいて、ADRSは最先端の人間の設計を上回るアルゴリズムを発見する(例えば、最大5.0倍の実行時間改善または50%のコスト削減を達成)。プロンプト設計から評価器構築まで、既存のフレームワークのためのアルゴリズム進化を導くベストプラクティスを抽出する。次に、システムコミュニティにとってのより広範な影響について議論する:AIがアルゴリズム設計において中心的な役割を担うにつれて、人間の研究者はますます問題定式化と戦略的ガイダンスに焦点を当てるようになるだろうと私たちは主張する。私たちの結果は、AI時代におけるシステム研究実践を適応させる破壊的な可能性と緊急の必要性の両方を浮き彫りにしている。