# SREはサイバネティクスの夢をみるか? ## 概要 情報処理学会 第18回インターネットと運用技術シンポジウム(IOTS2025、2025-12-05)の招待講演。[[坪内佑樹]]([[さくらインターネット研究所]])が、SRE を工学的に再解釈し、[[サイバネティクス]]・世界の再魔術化・[[なめらかなシステム]]を手がかりに「未知を未知のまま扱う」SRE の構想を提示したうえで、その技術的基盤であるテレメトリーワークロードのスケーリングに関する博士論文の 3 つの貢献を紹介した。全 137 ページ、5 章構成。 ## 主要メッセージ ### 第1章: はじめに(p.1-3) 9 年ぶりの IOTS 招待講演。博士論文の成果紹介に加え、博士課程で得た SRE の工学観・思想を語る構成を取る。 ### 第2章: 工学としての SRE(p.4-33) **信頼性工学の歴史**(p.4-10): ハードウェア(1940 年代〜)→ソフトウェア(1960 年代〜)→インターネット(1980 年代〜)→クラウド(2000 年代〜)の 4 段階で信頼性の対象と定義が変遷した。JIS Z 8115:2019 に基づき、クラウド時代の信頼性は「利用者目線の厳密な定義が確立されていない」段階にある。 **ウェブオペレーション**(p.11-13): Allspaw『ウェブオペレーション』(2010) の定義——ネットワーク・負荷分散・高可用性・障害復旧・TCP/UDP・NOC・ストレージ・暗号技術・キャパシティ計画の深い理解を要する分野——を引き、「ウェブオペレーションは技芸であり、科学ではない」点を強調。 **SRE の定義**(p.14-17): 共有されている定義「ソフトウェアエンジニアに運用チームの設計を依頼したときにできあがるもの」は How であり What ではない。*Becoming SRE* の「SRE は、組織がシステム、サービス、製品において持続可能な形で適切な信頼性レベルを達成できるよう支援する専門工学分野である」をより良い定義として採用。 **SRE モデルの 3 つのブラックボックス**(p.18-33): 利用者・情報システム・開発運用者の 3 者が相互作用する。各者はそれぞれブラックボックスであり、情報システムの変更は外乱として伝播する。エラーバジェットは開発と信頼性の均衡を取る仕組みである。 ### 第3章: SRE のための Black box as a Black box(p.34-72) ![[_attachments/iots2025_presentation/page-058.png]] サイバネティクスのアプローチ: フィードバックループ・セカンドオーダー・創発の 3 概念を提示(p.58)。 ![[_attachments/iots2025_presentation/page-059.png]] 世界の再魔術化: 魔術的世界(前近代)→脱魔術化(近代科学)→再魔術化の 3 段階。モリス・バーマン『デカルトからベイトソンへ ——世界の再魔術化』(文藝春秋, 2019) に基づく(p.59)。 ![[_attachments/iots2025_presentation/page-060.png]] 再魔術化の世界からの工学への要求: 要素還元→創発性、客観性→主観性、標準化志向→個別化志向、事前性→事後性。「Black box as a Black box」「End to End」で理解する(p.60)。 ![[_attachments/iots2025_presentation/page-061.png]] [[自動化の皮肉]]: Bainbridge (1983) の Ironies of Automation——制御システムが高度になるほど人間の貢献が重要になるが、自動化により人間の能力は低下する——ジレンマ。現行 AI の延長線上では「自動化の皮肉」から免れられない可能性がある(p.61)。 ![[_attachments/iots2025_presentation/page-062.png]] AI の性能予測: METR のグラフを引用し、現状は「人間が 31 分要するタスクを 80% の精度で実行可能」。運用は数年単位の一貫したコンテキスト維持を要する複雑なタスク集合であり、AI への丸投げは現実的ではない(p.62-63)。 ![[_attachments/iots2025_presentation/page-064.png]] [[なめらかなシステム]]: 栗林健太郎・[[三宅悠介]]・松本亮介『なめらかなシステムを目指して』(DICOMO2018) に基づき、利用者・情報システム・開発運用者を**総体としてのシステム**とみなす。利用者のコンテキスト(選好や目的)は情報システムとの継続的コミュニケーションを通じて事後的に形成される(p.64)。 ![[_attachments/iots2025_presentation/page-065.png]] AI エージェントネットワーク: 三宅悠介『なめらかなシステムと運用維持の終わらぬ未来』(DICOMO2025) を参照。多数のエージェントを媒介としてネットワークを張り巡らせ、コミュニケーションによって生じるコンテキストを流通させる。利用者の未表現の主観や感情、テレメトリー信号の変化の意味、運用者の経験に由来する直観がそれぞれ流通する(p.65)。 ![[_attachments/iots2025_presentation/page-067.png]] End to End パラメータ最適化: エージェントネットワーク内で深層学習の自動微分のようにパラメータが事後的に最適化される。ブラックボックス関数は人間が理解できない形で最適化されていく(p.67)。 ![[_attachments/iots2025_presentation/page-068.png]] SRE 視点での利点: 変更→外乱→不満の因果情報をコンテキストとして扱い、SLI/SLO をフィードバック循環から自動的に調整し続ける(p.68)。 **巫女 SRE**(p.69-70): 再魔術化の世界における開発運用者は「巫女」のような存在——自然のように複雑化した計算機システムのインターフェイスとして、エージェントを媒介に観測と実験を繰り返しメンタルモデルを更新していく。[[オブザーバビリティ]](異常値や好奇心をそそる軌跡を探し回る)と[[カオスエンジニアリング]](システムの弱点を明らかにするための実験の促進)が鍵。 **研究への接続**(p.71): 限定的に構想を実現し積み上げる 3 方向——(1) 利用者行動ベース SLO(Hauer+, NSDI2020 の Meaningful Availability)、(2) 実験の自動化(Kikuta+, arXiv2025 の ChaosEater)、(3) 高次の可観測性(庭師・巫女のメンタルモデル更新の支援)。 ### 第4章: 博士論文(p.73-112) テレメトリーシステムの 3 層——計測・保存・分析——のそれぞれでスケーリング課題を技術的に解決した。 ![[_attachments/iots2025_presentation/page-098.png]] **貢献①: 計測**(p.85-91)——eBPF ソケットベースのフロー集束法。ネットワークコールグラフ取得のための低オーバーヘッド計装。カーネルのソケット層で宛先が同一のフローを束ねる。従来のストリーミング法は TCP ラウンドトリップ増加に伴い CPU 使用率が最大 21.3% まで増加、カーネル内集約法は最大 11.5%。提案手法は **2.2% 以下の CPU 使用率**を維持。(Y. Tsubouchi, M. Furukawa, R. Matsumoto, JIP, 2022) ![[_attachments/iots2025_presentation/page-099.png]] **貢献②: 保存**(p.92-99)——[[HeteroTSDB]]: 異種分散 KVS 間の自動階層化による高性能時系列データベース。メモリベース KVS(Redis)で直近データの高速取り込み、ディスクベース KVS(Cassandra)で長期データの低コスト保存を両立。ベースライン比**最大 3.98 倍**のスループット(420k datapoints/s)。Slack の 12M/s ワークロード換算で必要ホスト数を 915→229 に削減。(坪内ほか, 情報処理学会論文誌, 2021) ![[_attachments/iots2025_presentation/page-109.png]] **貢献③: 分析**(p.100-110)——[[MetricSifter]]: 障害に関連しないメトリクスを教師なし機械学習で自動削減する前処理法。既存手法の 2 系統——異常性に基づく削減(偽陰性リスク)と冗長性に基づく削減(偽陽性リスク)——の課題に対し、変化点時間の集中性に着目して大域的な障害関連性を捉える。1000 超メトリクスの大規模データで他手法が現実的時間内に完了しない中、MetricSifter は処理可能。従来比平均 +4.5% の精度向上、End-to-End 実行時間 45-52% 向上。(Y. Tsubouchi and H. Tsuruta, IEEE Access, 2024) ![[_attachments/iots2025_presentation/page-111.png]] 博士論文の 3 貢献まとめ(p.111)。 ### 第5章: まとめ(p.118-125) **総括**: SRE は元々ブラックボックスの存在を前提とする。利用者・システム・運用者・AI がつくるフィードバックループによる事後的かつ継続的な最適化を通じて、理解しきれないままの世界=未知と付き合い続けるための工学へと進化させたい。そのために「**観測**」と「**実験**」が鍵になる。 **締めくくりの言葉**: 「人類は浮力の原理を解明する前から船を作り、風が起こる原理も分からないまま帆で船を操り、波が起こる原理も理解しないまま堤防を築き上げた。人類は古来より未知を未知のまま扱う能力を持っている。そしてそれは、最も原始的で論理的な行為の積み重ねによって生み出される。"観測"だよ。」(『葬送のフリーレン』第10巻より引用、p.125) ## 口頭説明・補足 口頭説明では以下の背景が補われた: - [[セルフクラフト]]の着想は伝統的な民芸からきている。農家は農業だけでなく日常品を自作・販売していた。 - 標準化志向から個別化志向への転換として、XR/AR/VR 時代の空間インタラクションにおける利用者の好みの影響を挙げた。学習型インフラ(データベースインデックスのニューラルネット化等、2018年〜)がエンドツーエンドで適応する世界を展望した。 - セルフクラフトの概念は 3 年前の DCOM IoT セッションで紹介したが当時はポカンとされたが、AI エージェント時代の今では現実的になった。 - AI の限界について、運用は「数年単位の一貫したコンテキスト維持を必要とする複雑なタスク集合」であり丸投げは現実的ではないと強調。 ## Q&A **柏崎先生の質問**: SLI/SLO の目的関数について、現場では驚くような変数はあるか。 **坪内の回答**: リクエストレイテンシーは一般的に使われる。ただし機能(エンドポイント)ごとに分け、決済 API は SLO を高く設定するなど運用上のブレを防いでいる。IoT 的なモビリティサービスでは「稼働中の車両数」を分母にした SLI を採用する例がある。今後、現実世界に情報システムが染み出すほど、より面白い SLI が出てくると予想。 ## 概念・実体への接続 - **登壇者**: [[坪内佑樹]]([[さくらインターネット研究所]]、[[京都大学]] 博士(情報学)) - **提案システム**: [[HeteroTSDB]]、[[MetricSifter]] - **思想的基盤**: [[サイバネティクス]]、[[自動化の皮肉]]、[[なめらかなシステム]]、[[セルフクラフト]] - **謝辞に挙がった人物**: [[三宅悠介]](GMO ペパボ[[ペパボ研究所]]) - **引用主要文献**: Bainbridge (1983) Ironies of Automation、モリス・バーマン『デカルトからベイトソンへ ——世界の再魔術化』、Thomas Kwa+ (2025) METR AI capability、Hauer+ (2020) Meaningful Availability、Kikuta+ (2025) ChaosEater - **関連既存概念**: [[テレメトリ]]、[[特徴量削減]]、[[Fault Localization]]、[[サービスレベル目標]]、[[オブザーバビリティ]] ## 限界・不確実点 - transcript は講演後半の一部(サイバネティクスの導入〜AI 性能予測〜セルフクラフトの説明)と Q&A のみ。前半(第1-2章の大部分)と博士論文紹介部分の口頭説明は欠落している。 - 接続トラブルにより約 44 分間の音声が中断・ループ再生された旨が transcript に記録されており、発表時間の実態は不明。 - IOTS2025 の正確な開催日は p.120 のスライド「目下取り組んでいること」に「2025年12月22日」の別講演予定が掲載されていることからシンポジウムは 2025 年 12 月上旬と推定されるが、正確な日付はスライドから確認できない。`date_published: 2025-12-05` は推定。