![[telemetry-research-diagram (1).svg]]
1. テレメトリーワークロードのスケーリング([[Scaling Telemetry Workloads]])
高解像度化に伴い増大する処理負荷に対し、計測・保存・解析の各層で負荷を抑制し、スケーラビリティを確保する。
2. SREエージェント
収集したテレメトリーデータとドキュメント/チャット等のテキストを対象に、古典的機械学習と基盤モデルを適用し、障害検出・原因特定・復旧・予兆検知を自動化する。
3. 自動スケーリング/チューニング/ヒーリング(Auto Scaling/Tuning/Healing)
テレメトリーに基づき、稼働中システムの制御パラメータを学習ベースの閉ループで動的最適化し、外乱下でも信頼性・性能・エネルギーの指標を維持する。
4. AIインフラの[[Observability|オブザーバビリティ]]
大規模AIの学習・推論基盤について、リソース利用の実態とボトルネックを高解像度に可視化し、(1)(2)に還元する。
本研究の意義は、AIの進展に伴い複雑化する情報システムが人手の理解・運用能力を超えて制御不能に陥ることを防ぐ点にある。最終的には、人間が内部を逐一理解せずとも、エラーバジェット内で制御された運用状態を維持できることを目指す。
— 各目標の意義 (クラウド事業者の観点)—
- 目標1:高解像度化が計算コストの急増を招き、しかも大半のデータが参照されないというジレンマを解消する。サービス利用者に余剰なリソース消費や過大な料金負担を与えない提供形態の実現可能性がある。
- 目標2:熟練者に依存していた高度なトラブルシューティングを自律化し、利用者が専門家不在でも問題解決と運用を進められるセルフサービス型の価値を提供できる。
- 目標3:膨大な設定パラメータに対する試行錯誤的な調整作業からエンジニアを解放し、利用者が調整負荷を負わず本来の目的に集中できるサービスにつながる。
- 目標4:AIインフラ特有の構成に起因する未解明のワークロード特性やリソース消費傾向を理解し、顧客には過大・過小なプロビジョニングを避ける判断材料を、自社には外資系ビッグテックの事例依存からの脱却と過剰投資回避の根拠を提供する。
---
オリジナルテキスト
本研究の目的は、動的かつ複雑な情報システムにおいて、適切なレベルの信頼性を構築するために、システムの状態やその変化を高解像度に理解可能とし、高度に制御することである。そのための中核技術は、システムの性能や利用に関するデータを収集・分析するテレメトリーである。2025年時点において、本研究ではテレメトリーを主軸に、次の4つの課題を解決することを主目標とする。
1. クラウドコンピューティングにおいて、昨今のテレメトリーの高解像度化に伴い、テレメトリーに関する情報処理負荷が増大している。負荷増大に対して、テレメトリーシステムの計測・保存・分析の各層の処理負荷を低減させ、スケールさせる。(Scaling Telemetry Workloads)
2. 収集されたテレメトリーデータとドキュメント・チャットなどのテキストデータを基に古典的機械学習や基盤モデルなどのAI技術を適用し、障害の検出・原因特定・回復・予兆検出を自動化する。(SRE Agent)
3. テレメトリーデータを基に、稼働中のシステムに内蔵された調節弁を機械学習技術により動的に調整することにより、外乱に対してシステムの信頼性や性能、エネルギー消費量などの目標指標を維持し続ける。(Auto Scaling/Tuning/Healing)
4. 大規模AI学習・推論のためのインフラストラクチャが、学習・推論アプリケーションのワークロードに対して効率よく資源を消費できているか、できていなければそのボトルネックを特定するために、テレメトリーの高解像度化を行う。その後、(1)と(2)へつなげる。
本研究の意義は、昨今のAI技術の進歩に沿ってますます複雑化する情報システムに対して、人間の理解が及ばなくなり、制御不能となることを防ぐことにある。最終的には、人間がシステムのブラックボックスを理解せずとも、システムは予算内のエラーを発生させながら制御された状態に置かれるだろう。
5. データの高解像度化が結果的に計算機コストが大きく増大させてしまうために高解像度化できないジレンマを解決することを意味する。また、そのデータのほとんどは参照されないという別のジレンマもある。さくらインターネットでは、サービス利用者が、利用者のシステムに余剰なリソース消費を与えない、または過度に料金を支払わずにすむサービス提供の可能性がある。
6. 熟練の専門家に依存していた高度なトラブルシューティングを熟練者へ依存せずに実行可能とする。さくらインターネットにおいては利用者がトラブルシューティングを自律的に行えるようになり、専門家不在であってもやりたいことができるためのサービスとして提供できる可能性がある。
7. 現代のシステムが保持する調節弁つまり設定パラメータなどが多すぎるために、エンジニアが半ば直感でパラメータを選定し調整し続ける労力からエンジニアを開放する。さくらインターネットでは、サービス利用者に対してこのような調整労力を課さずにやりたいことに集中できるサービス提供につながる。
8. AIインフラは典型的なクラウドコンピューティングに対して特殊なシステム構成をとることから、いまだ十分に理解されていないワークロードやリソース消費傾向を理解可能とする意義がある。さくらインターネットでは、大きな金銭的コストを支払う顧客にとって、事前に過大・過小な計算機資源の確保を避けるための情報を提供できる。また、企業として多額の投資が必要な中で、入手可能な情報が外資系ビッグテックの課題解決に限られ、それらを参考にするしかないがために、過剰なインフラ投資を避けることにつながる。