## タイトル クラウドのテレメトリーに関する博士論文とサイバネティクス サイバネティクスとSRE:クラウドを観測するテレメトリー技術の博士論文とその後 SREはサイバネティクスの夢をみるか?:クラウドにおけるテレメトリー技術の博士論文とその後 ## アブストラクト --- 1948年初版のウィーナー著者『サイバネティックス』には、制御できない変量と調節できる変量があるとき、制御できない変量の過去から現在までの値に基づいて調節可能な変量を適切に定め、われわれにとって最も都合のよい状況をもたらしたいという望みを実現する方法がCyberneticsであると記されています。 現代のクラウドにおけるシステム運用の最先端であるSRE(Site Reliability Engineering)の深化を通じて、私はこの望みの実現を今も探究し続けています。 本講演では、その探究の中核である「テレメトリー」、すなわちシステムの状態に関する変量を計測する技術を基軸とした私の博士論文とその後の研究を紹介します。具体的には、テレメトリーデータ量の増大がもたらす副作用、AIによる運用自動化、そしてAIスーパーコンピュータそのものを支えるテレメトリー技術について論じます。 加えて、9年前のIOTS2016で招待講演を務めさせていただいた後、エンジニアから研究者へと転向し、博士号を取得するまでの道中での思索についても交えたいと思います。 ## アウトライン 講演時間は合計85分 うち発表時間を60分程度とする。 1. はじめに (5分) - IOTS2016からIPSJ-ONE - SREは学術としての体系立てが薄く、既存体系との接続は自明ではない。 - 博士論文と並行して、SREという分野そのものを学術として帰着させるには? 2. SREの学術化 (15分) - ウェブオペレーション:技芸であり科学ではない。 - [[Site Reliability Engineering - Google|srebook]]序文では、 [[Mark Burgess]] 魔術的な文化に陥っていると指摘する。 - [[信頼性工学]]と[[Software Reliability Engineering|ソフトウェア信頼性工学]]からSREに至るまでの信頼性への考え方の変遷をみる。 - [[クラウドの耐障害性のためのオニオンモデル]]に見られるような Human Computer Engineering。 - 小まとめ - システム管理の世界に、工学のアプローチを持ち込んだ - 3. サイバネティクスとSRE (15分) - 学術としてのSREの思想的課題 - AI時代における、人間と機械の関係性 - サイバネティクス関連の基礎知識 - サイバネティクスのなかで、SREがどのように位置づけられるか? 4. 博士論文 Scaling Telemetry Workloads (15分) - 5. これからのSRE (5分) - 6. まとめ:博士とは (3分) - ## メモ [[SRE NEXT 2024 アウトライン]] と [[SRE NEXT 2025アウトライン - とあるSREの博士「過程」]]をあわせて、AIスパコン関係の話ができるといいかな。 [[YAPC Fukuoka 2025 アウトライン]]も混ぜるか? [[ウィーナー界面]]の、Cyberneticsの定義に向かって、現代の計算機システムの運用が改善されている。 [[Ironies of Automation]] VS フリーレン:人間はブラックボックスをブラックボックスとして扱うことに長けている ブラックボックス(ネットワークシステム)をブラックボックス(AI)で Computing as Pop Culture https://chatgpt.com/c/6907591f-6078-8322-a46d-1fa52dfbd984 [[Sociotechnology]] [[サイバネティックス|Cybernetics]] SREのテレメトリーは、情報世界から情報世界を構築する不思議な領域。 [[再魔術化]] [[基礎情報学の中にSREを位置付ける]] [[基礎情報学の中にオブザーバビリティを位置付ける]] [[DICOMO 2022 招待講演アウトライン]] [[なめらかなシステムと運用維持の終わらぬ未来]] - オブザーバビリティは事後的に意味を形成するため - 魔術化された世界でオブザーバビリティを高めるが、余分なデータをフィルター - SREにおける生命情報は、ユーザーの勤怠システムで定時1分前で応答が遅いときの「遅い」や、お腹がすいたときのウーバーイーツが遅いなどに相当し、文脈をもっている。しかしながら、現時点では応答時間やステータスコードのような機械情報をもとに、開発運用者が主観的に閾値を設定する。社会情報としてのユーザーサポートやSNSでのコメントなどがある。 AI時代においては、開発運用者に対して、機械情報から社会情報へと意味を変換している。機械情報が多すぎる問題を解決するのがScaling Telemetry Workloads。AIの自律的な存在へ。 - AIインフラの場合は、ユーザーの数が少ないし、インフラのコストがすごく大きいが、ユーザーや運用管理者が、ミスによる信頼性低下や、試行錯誤による時間の喪失を嫌い、インフラリソースを使い切らない問題もある。しかしこれは投資の回収の観点ではマイナスである。 基盤に興味がある。Scaling Telemetry Workloadsしかり、AIスパコンのオブザーバビリティしかり。電力やデータセンターの問題へ。 制御の階層性の問題 オブザーバビリティとAIOpsは、情報システムを観測者でもあり観測されるものでもあるようにする。 - 「ブラックボックスをブラックボックスのまま扱う。」 - 巫女のほうがいいかも - 巫女といいつつも工学的フレームではみている。 - 3つのブラックボックス関数がある。情報システム(ブラックボックス関数)と、運用管理者のコンテキスト(ブラックボックス関数) 、利用者のコンテキスト。 3つのブラックボックス関数を調整していく。 - ブラックボックスA:利用者の信頼性に関する主観性パラメータ - ブラックボックスB:情報システムの制御パラメータ - ブラックボックスC:情報システムの - 各パラメータを人間が理解することなく、循環的にコミュニケーションすることで、システムが安定することを目指す。 --- 2025年12月に開催された「Internet of Things Symposium 2025 (IOTS2025)」における坪内佑樹氏の招待講演「SREはサイバネティクスの夢をみるか?」の、口語表現を修正した全文テキストです。 --- ### IOTS2025 招待講演 **タイトル:SREはサイバネティクスの夢をみるか? 〜情報システムを運用する技術と、その学術的な位置付けについて〜** **登壇者:坪内 佑樹 氏(さくらインターネット株式会社 さくらインターネット研究所)** **司会:渡邊 亮輔 氏(鹿児島大学)** --- #### 導入 **渡邊:** 時間になりましたので、ここからは招待講演のセッションを開始いたします。本セッションの座長を務めます、鹿児島大学の渡邊です。よろしくお願いいたします。 本日の招待講演は、「SREはサイバネティクスの夢をみるか? 〜情報システムを運用する技術と、その学術的な位置付けについて〜」というタイトルで、さくらインターネットの坪内様にご講演いただきます。坪内様とご相談し、今回は80分の発表時間の中で定期的に質問時間を設けることとなりました。最後にまとめて質問するのではなく、途中の「質問タイム」で挙手やチャットを通じて声をかけていただければ、私が読み上げる形で進めさせていただきます。それでは坪内さん、よろしくお願いいたします。 #### 自己紹介と来歴 **坪内:** 渡邊先生、ご紹介ありがとうございます。講演資料のURLはスライドに表示しているQRコードから取得いただけます。後日、Speaker Deckなどでも公開する予定です。 本日のタイトルは「SREはサイバネティクスの夢をみるか?」という少し変わったものです。昨日の情報交換会で学生さんから「漫画やアニメのようなタイトルですね」と言われましたが、これはある有名なSF小説へのオマージュとして付けたものです。 私は坪内佑樹と申します。さくらインターネット研究所に所属しています。もともとは大阪大学大学院の情報科学研究科におりましたが、修士課程を中途退学し、新卒で株式会社はてなに入社しました。当時はソフトウェアエンジニアとしてWebサービスの開発に携わっていました。 その後、モニタリングSaaSである「Mackerel(マカレル)」の立ち上げに関わり、この時期から普及し始めたSRE(Site Reliability Engineering)に取り組むようになりました。2019年に研究職を志してさくらインターネット研究所へ転職し、翌年、コロナ禍の始まりと同時に京都大学大学院情報学研究科の博士後期課程に入学、岡部研究室にお世話になりました。そして、ようやく今年の3月に博士号を取得することができました。 最近の仕事では、さくらインターネットが保有する大規模なGPUクラスターの運用管理にSREとして関わっていますが、本日はその実務の話ではなく、博士論文の内容をベースに、これまでSREを通じて考えてきたことや、運用の未来についてお話しします。 IoT研究会との関わりは長く、2016年に初めて本シンポジウム(IOTS)で招待講演をさせていただきました。当時はまだエンジニアでした。翌年には情報処理学会のイベントでライトニングトークを行い、エンジニアを続けながら論文を執筆し、研究職に転じてからもIOTSでいくつかの賞をいただきました。今回は約3年ぶりの参加となりますが、お招きいただきありがとうございます。 私はソフトウェアエンジニアのコミュニティでも活動しており、「SRE Next」というカンファレンスでは第1回から継続して登壇しています。エンジニアコミュニティでありながら、論文や研究、あるいは博士号取得に関する話を積極的に行っており、2024年にはベストスピーカー賞をいただくなど、こうした学術的なトピックも意外と受け入れられています。 本日のアジェンダは大きく3つの構成になっています。各章の区切りで質疑応答の時間を設けます。 #### 第1章:サイバネティクスとの出会い まず会場の皆様に伺いたいのですが、「SRE(Site Reliability Engineering)」という言葉を聞いたことがある方はどのくらいいらっしゃいますか。……約3分の1から半分弱といったところでしょうか。ありがとうございます。 SREの一般的な説明としては「システムの信頼性を向上させるための運用アプローチ」や「ソフトウェアエンジニアリングの知識を用いて実現する運用」と言われます。しかし、実際に取り組んできた立場からすると、これだけでは本質が分かりにくいと感じていました。そこで私は「SREとは何なのか」を長年考え続けてきました。 その着想の源となったのが、柏崎先生が書かれたIOTS2016の開催案内です。そこには「機械のおかげで不快な卑しい仕事をやる必要がなくなるのは人間にとって非常な福祉かもしれないが、あるいはそうではないかもしれない」という一節がありました。これは後に知ったことですが、ノーバート・ウィーナーが1940年代に著した『サイバネティックス』からの引用です。 2年ほど前に『サイバネティックス』の日本語版序文を読み返し、非常に興味深い記述を見つけました。それは、「制御できない変数」の過去から現在までの値に基づき、「調節できる変数」の値を適当に定めることで、我々に最も都合の良い状況をもたらす、という趣旨の内容です。これこそがエンジニアリングやテクノロジーの目的そのものを語っているのではないか、という指摘もあります。 サイバネティクスはフィードバック制御を中心とした概念ですが、その構造を生物や社会システムにまで一般化しようとする試みです。近代科学の多くは「ブラックボックスを解析してホワイトボックス化する」ことを目指しますが、サイバネティクスのアプローチは「ブラックボックスをブラックボックスのまま扱う(Blackbox as a Blackbox)」点に面白さがあります。これは、ソフトウェアに限らず複雑な現代社会のシステムに立ち向かうための大きなヒントになると考え、本講演のテーマに据えました。 #### 第2章:工学としてのSRE ここからは、運用技術をどのように工学的な議論の土台に乗せるかをお話しします。 新卒エンジニアだった10年以上前、私は「リアクティブな課題解決」に明け暮れていました。システムが壊れたら直す、アラートが出たら対応する、手作業が増えたら自動化するといった「起きてから対応する」状態です。これを象徴する言葉に「Webオペレーションは技芸(アート)であり、科学ではない」というものがあります。かつてのシステム管理は「魔術的な文化」に囚われており、学術界では脇役として忘れ去られていた歴史があります。 一方で、1990年代から「ソフトウェア信頼性工学」という分野が存在していました。その大家であるミカエル・リュー先生は、信頼性を定量的に測定し設計することは、あらゆる工学分野において最も重要な要素であると述べています。 信頼性工学の歴史を振り返ると、1940年代のハードウェア時代から、2000年代以降のクラウド時代へと移り変わる中で、提供形態は「製品の配布」から「常時稼働するサービスの提供」へと変化しました。それに伴い、信頼性の考え方も「部品の故障を前提とし、低い信頼性のコンポーネントを組み合わせて高い信頼性を実現する」ものへと進化しました。 運用のライフサイクルも、開発(Dev)から運用(Ops)へ引き渡す従来の形から、常に開発とリリースを繰り返す「DevOps」へと移行しました。しかし、頻繁な変更は障害を誘発します。Googleの統計では、障害の約7割が変更に起因するとされています。 ここで「変更速度」と「信頼性」をどう両立させるかが課題となります。信頼性100%を目指すと変更ができなくなるため、SREでは信頼性の目標値(SLO)を設定し、それを下回らない範囲で開発を最大化します。つまり、「信頼性を制御対象と見なして、変更速度を最大化するアプローチ」こそがSREの本質です。 ここで重要なのが「SLI(Service Level Indicator)」と「SLO(Service Level Objective)」です。SLIは「全リクエストのうち、正常な応答を返した割合」などの計測可能な変量です。SLOは、例えば「過去28日間でSLIが99.5%以上であること」という目標値です。もし実測値が目標を下回れば、一時的に開発を止めて信頼性向上のためのアクションをとる、といった組織的な意思決定を行います。 私はSREを次のように定義しました。 「高頻度の変更を前提とするシステムを対象に、利用者視点での信頼性を計数可能な変量に帰着させ、信頼性を適切な値に制御可能とすることにより、開発速度などの他の変量を望ましい値に導くことを目的とするソフトウェア工学の一分野」 また、制御工学における「オブザーバビリティ(可観測性)」という概念もSREにおいて重要です。これは「外部出力から内部状態をどれだけ推測できるか」という尺度です。ソフトウェアの世界では、メトリクスやログなどの「テレメトリデータ」を用いて、エンジニアがシステムの内部状態を推測し、メンタルモデルを更新し続ける行為を指します。 現代のSREは、単なる管理作業者ではなく、システムという庭を整え、好奇心を持って異常を探し回る「庭師」のような存在であるといえます。かつての技芸的な運用から、目的志向を持った工学的な運用へと進化したのです。 **(質疑応答)** **柏崎:** 非常に興味深いお話です。坪内さんが実際に現場で向き合っている中で、一般的に想定されるメトリクス以外に「これは驚きの変数だ」と感じたものはありますか。 **坪内:** WebサービスではHTTPリクエストのレイテンシなどが一般的ですが、最近は「エンドポイントごと」にSLOを分けることが増えています。例えば決済APIは非常に高いSLOを設定するといった具合です。また、モビリティサービスなどでは「全車両のうち、正常に稼働している車両の割合」をSLIとして定義するケースもあり、今後ソフトウェアが現実世界に染み出していくにつれ、より多様で面白いSLIが登場するのではないかと期待しています。 #### 第3章:SREと「ブラックボックスの再魔術化」 第2章ではSREを工学的に定義しましたが、実際には多くの「ブラックボックス」が残っています。利用者体験をどうSLIに写像するか、複雑なシステムへの変更がどう影響するか、予期せぬ外乱がいつ起きるか。これらは依然として不確実です。 利用者の主観も複雑です。例えば、9時始業の直前に勤怠システムが落ちるのと、深夜に落ちるのとでは、利用者への影響は全く異なりますが、現在のSREではこうしたコンテキストを十分に扱えていません。 ここで、サイバネティクスのアプローチを再考します。観測者をシステムの一部と見なす「セカンドオーダー・サイバネティクス」や、全体の総和以上の何かが生まれる「創発性」といった視点です。 未来のアプリケーション開発では、利用者が自ら欲しいものを作る「セルフクラフト」や、個々の要求に応じてプロトコルやインデックスが動的に変化する「学習型システム」が普及するでしょう。 『世界の再魔術化』という本では、科学が進歩しすぎた現代は、逆に個人の理解を超えて「前近代的な魔術的世界」に引き戻されていると指摘されています。システムがあまりに複雑になった今、私たちは要素還元的に理解することを諦め、全体をエンド・ツー・エンドで捉える「再魔術化」の段階にいます。 ここで課題となるのが「自動化の皮肉」です。システムが高度化して自動化が進むほど、稀に起きる深刻な事態への対処には、より高度な人間の知識が必要になります。AIに全てを任せるのはまだ現実的ではありません。 そこで、AIエージェントがシステムと人間の間に入り、微細なコンテキスト(感情や直感)を流通させる「AIエージェントネットワーク」という構想が重要になります。これにより、人間が理解しきれないブラックボックス同士の相互作用を、エージェントを介して最適化していく。この世界観において、運用管理者は神や自然との対話を行う「巫女(みこ)」のような存在になるかもしれません。 巫女的運用者は、AIエージェントを媒介としてシステムを観測し、わざと異常を起こして反応を見る「カオスエンジニアリング」などの「実験」を通じて、自身のメンタルモデルを更新し続けます。 私はこうした「運用の再魔術化モデル」が今後の研究の着想になると考えています。利用者、システム、運用者がAIエージェントネットワークでつながり、フィードバックループが循環する。そこでは、理解しきれないブラックボックスと「付き合い続ける」ための工学が求められます。 **(質疑応答)** **会場:** 「メンタルモデルを更新する」という話がありましたが、それはエンジニアの「勘」を育てることですか。それとも、そのプロセスをテクノロジー化したいということでしょうか。 **坪内:** その中間だと考えています。メンタルモデルそのものをエージェントに移植し、データとして扱えるようにする。ただし、エージェントがどれだけ賢くなっても、人間がコンピュータサイエンスの素養を捨てていいわけではありません。エージェントとの対話を通じてメンタルモデルを更新し、より高度な次元でシステムと付き合うための能力が、今後も人間に求められるはずです。 #### 第4章:博士論文と今後の展望 最後に、私の博士論文「Scaling Telemetry Workloads(テレメトリ・ワークロードのスケーリング)」について、手短にお話しします。 システムのオブザーバビリティを確保するためには膨大な生データ(テレメトリ)を扱う必要がありますが、その「観測負荷」が人間にとってもシステムにとっても課題となります。私の研究では、計測・保存・分析の3つのフェーズにおいて、この負荷を低減する手法を提案しました。 1. **計測:** eBPFを用いてカーネルレベルで通信を捕捉し、短命なネットワークフローを効率的に集約して転送コストを抑える手法。 2. **保存:** メモリベースのKVSとディスクベースのKVSを統合し、書き込み効率と長期保存のコスト効率を両立させるアーキテクチャ。 3. **分析:** 障害発生時に、膨大なメトリクスの中から障害に関連するデータのみを「変化点の大域的な密集度」に基づいて抽出し、故障特定の精度を向上させる手法。 これらの研究は、もともとエンジニア時代に直面した課題から出発しています。博士課程では何度も論文を書き直し、提案手法や実験を刷新する苦労もありましたが、最終的に自分らしい体系を築くことができました。 「生成AI時代に博士号を取る意味があるのか」と問われることがあります。私は「イエス」と答えたい。生成AIを使えばアウトプットは簡単に出せますが、そこには「自分で積み重ねている感覚」が欠如し、虚無感が生まれる恐れがあります。博士課程での「アウトプットを泥臭く積み重ねる体験」は、自分の中に確固たる体系を作ることであり、AIの出す回答を自分の経験に照らして判断するための重要な土台になります。 現在は、GPUクラスターを用いたAIスパコンでのLLM学習など、Webサービスとはまた異なる領域のSREに取り組んでいます。この成果については、近いうちに別の場でもお話しする予定です。 最後になりますが、研究において多大なご助言をいただいたGMOペパボの三宅さんに深く感謝いたします。 締めくくりに、『葬送のフリーレン』からの一節を引用します。これは今日の「理解しきれないものと向き合い続ける」という話に非常にふさわしい言葉です。 ご清聴ありがとうございました。 --- **渡邊:** 坪内様、素晴らしいご講演をありがとうございました。最後に改めて、皆様の盛大な拍手をもって感謝の意を表したいと思います。ありがとうございました。