[SREcon25 Americas Conference Program \| USENIX](https://www.usenix.org/conference/srecon25americas/program) SREcon25 Americasの講演プログラムを、トピックの類似性に基づいてグルーピングし、それぞれのグループごとに要約します。膨大なセッションがあるため、主要なテーマごとにまとめて解説します。 --- ## AI・機械学習とSRE | セッション名 | 概要 | | | ------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------ | --- | | Safe Evaluation and Rollout of AI Models | AIモデルやプロンプトの安全なリリース方法について、Azure Copilotの事例を交え解説[3][1]。 | | | An SRE Approach to Monitoring ML in Production | MLシステムの運用監視の課題と、SREがどのようにML運用に取り組むべきかを解説[3][1]。 | | | Transformers in SRE Land: Evolving to Manage AI Infrastructure [[Transformers in SRE Land - Evolving to Manage AI Infrastructure at SREcon25 Americas]] | AIインフラ管理の新たな課題と、GPUクラスタ等の運用ノウハウを共有[3][1]。 | | | Running ML in Production | MLシステム運用の現場課題(インフラ、監視、ロールアウト等)を議論形式で深掘り[3][1]。 | | | Optimizing Machine Learning Training Infrastructure: A Governance Approach | MLトレーニングインフラの効率化とガバナンスによるコスト最適化事例[3][1]。 | | | Systems Thinking with Poisoned Systems | AI導入によるシステムの「毒される」リスク(バイアス、データ汚染等)とその対策[3][1]。 | | | AIOps: Prove It! An Open Letter to Vendors Selling AI for SREs | AIOpsの現状と課題、AIベンダーに対するSRE視点での評価基準[3][1]。 | | **要約**   AI・MLの導入がSREの現場に与える影響や、AIシステムの信頼性確保、監視、インフラ管理の新しい課題が多角的に議論される。AIOpsやML運用の現場ノウハウ、AIによるリスク(バイアスやブラックボックス化)への対処法など、AI時代のSRE実践知が集約されている。 --- ## オブザーバビリティ・監視・トレーシング | セッション名 | 概要 | |---|---| | Live, Laugh, Log | Fluent Bitを用いたログパイプライン運用と監視の実践[3][1]。| | Distributed Tracing in Action: Our Journey with OpenTelemetry | OpenTelemetryによる分散トレーシング導入事例と課題[3][1]。| | Beyond Sequential: A Recipe for Async Pipeline Observability and Alerting | 非同期パイプラインのためのSLO設計・監視手法[3][1]。| | OpenTelemetry Semantic Conventions and How to Avoid Broken Observability | OpenTelemetryのセマンティック規約と互換性問題への対処[3][1]。| | Observability(Breakout Discussion) | ログ・メトリクス・トレースを含むオブザーバビリティのゴールと成果指標を議論[3][1]。| | From HAR to OpenTelemetry Trace: Redefining Browser Observability | HARファイルをOpenTelemetryトレースに変換することでWeb観測性を強化[3][1]。| **要約**   分散システムの監視・トレーシング・ログ収集に関する最新事例やノウハウが集結。OpenTelemetryの実践、非同期システムの監視、セマンティック規約の運用課題、ブラウザ観測性の新手法など、オブザーバビリティの現場課題と解決策が幅広く共有される。 --- ## インシデント対応・レジリエンス・カオスエンジニアリング | セッション名 | 概要 | |---|---| | Learning from Incidents at Scale; Actually Doing Cross-Incident Analysis | インシデントからの学習を組織横断でスケールさせる実践[3][1]。| | Chaos Experiments - Datacenter Stress Testing | データセンター全体を対象とした大規模カオスエンジニアリング事例[3][1]。| | Mapping a Better Future with STPA | STPA(システム理論的プロセス解析)による障害予防の手法[3][1]。| | Running DRP Tabletop Exercises | 災害復旧計画(DRP)の設計・テスト方法[3][1]。| | Mitigating Against Large Scale Systemic Failures in E-Trading | 電子取引システムの大規模障害リスクとその緩和策[3][1]。| | Measuring Availability the Player Focused Way | ゲーム業界における可用性指標の設計と文化醸成[3][1]。| | “On-Call Is Ruining My Life” and Other Tales about Holding the Pager as an SRE | SREのオンコール体験とその改善策[3][1]。| | AMA with David Woods | レジリエンス工学の第一人者によるQ&Aセッション[3][1]。| **要約**   インシデント対応・レジリエンス強化・カオスエンジニアリングが多角的に論じられる。障害からの学習、システム理論的な障害予防、全社的な復旧計画、オンコール文化の課題、ゲーム業界独自の可用性指標など、現場のリアルな知見と組織的な対応策が共有される。 --- ## パフォーマンス・コスト最適化・インフラ運用 | セッション名 | 概要 | |---|---| | The Search for Speed | OpenSearchのパフォーマンス問題解決の科学的アプローチ[3][1]。| | Tackling Slow Queries | CIパイプラインと本番監視を活用した遅いクエリの予防・修正[3][1]。| | Stopping Performance Regression via Changepoint Detection | 変化点検出によるパフォーマンス劣化の早期発見[3][1]。| | Fully Automated HW SKU Selection System to Optimize Apache Pinot’s Cost-to-Serve | Apache Pinotの運用コスト最適化のためのHW自動選定システム[3][1]。| | Cattle vs. Pets - A Cost-Effective Elasticsearch Architecture | Elasticsearchの大規模・低コスト運用アーキテクチャ[3][1]。| | One Million Builds per Year, Only One Page | 少人数チームで大量ビルドを高信頼で運用した事例[3][1]。| | Handling the Largest Domains Migration, Ever! | Google Domainsからの1,000万超ドメイン大規模移行[3][1]。| | Going Multi Cloud in a Hurry with Quality and Style | マルチクラウド対応を短期間で実現した実践例[3][1]。| **要約**   パフォーマンス最適化やコスト削減、信頼性を両立するためのインフラ運用手法が多様に紹介される。大規模移行、マルチクラウド、コスト最適化アルゴリズム、パフォーマンス監視の自動化など、現場で役立つ実践知が豊富。 --- ## セキュリティ・ネットワーク | セッション名 | 概要 | |---|---| | Improving the SRE Experience for 10 Years as a Free, Open, and Automated Certificate Authority | Let's Encryptの10年とSREへの貢献[3][1]。| | Is the S in SRE for “Security”? | SREとセキュリティの重なりと協業の可能性[3][1]。| | Securing Distributed Cache | Netflixの分散キャッシュにおけるセキュリティ課題と対策[3][1]。| | Please Give Me Back My Network Cables! On Networking Limits in AWS | AWSネットワークの制約と運用ノウハウ[3][1]。| | Network Flow Data in the Cloud | クラウド環境でのネットワークフロー分析手法[3][1]。| **要約**   SREとセキュリティの融合、証明書運用、クラウドネットワークの制約、分散キャッシュのセキュリティなど、現代のSREが直面するセキュリティ・ネットワーク運用の最新課題と解決策が議論される。 --- ## チーム運営・カルチャー・多様性・インクルージョン | セッション名 | 概要 | |---|---| | Inclusive SRE: Best Practices for Working with a Visually Impaired Incident Analyst or Responder | 視覚障害者と協働するためのSRE現場のベストプラクティス[3][1]。| | SRE Team Practices(Breakout) | SREチーム独自のプラクティスや目標設定の議論[3][1]。| | What Do SRE ICs Do? How to Build SRE Skillsets(Breakout) | SRE個人のスキルセット構築とキャリアパス[3][1]。| | A Guided Introduction to SRE(AMA) | SRE初心者向けのQ&Aセッション[3][1]。| **要約**   多様性・インクルージョンを意識したチーム運営、視覚障害者との協働、SREチームのプラクティスやスキル開発、初心者向 Sources [1] [PDF] SANTA CLARA, CA, USA • March 25–27, 2025 - USENIX [https://www.usenix.org/sites/default/files/srecon25americas_cfp_083024.pdf](https://www.usenix.org/sites/default/files/srecon25americas_cfp_083024.pdf) [2] SREcon25 Americas Conference Program - USENIX [https://www.usenix.org/conference/srecon25americas/program](https://www.usenix.org/conference/srecon25americas/program) [3] SREcon25 Americas - USENIX [https://www.usenix.org/conference/srecon25americas](https://www.usenix.org/conference/srecon25americas) [4] オーストラリアで開催された SREcon22 Asia/Pacific に登壇しました ... [https://note.com/hgsgtk/n/n4ae2ab7030fc](https://note.com/hgsgtk/n/n4ae2ab7030fc) [5] SRE NEXT 2024での講演「工学としてのSRE再訪」がベスト ... [https://research.sakura.ad.jp/blog/srenext2024-best-speaker-award](https://research.sakura.ad.jp/blog/srenext2024-best-speaker-award) [6] SREcon25 Americas Schedule | USENIX [https://www.usenix.org/conference/srecon25americas/schedule](https://www.usenix.org/conference/srecon25americas/schedule) [7] SREcon - USENIX [https://www.usenix.org/conference/srecon](https://www.usenix.org/conference/srecon)