2026__MLSys2026__REPARO Loss-Resilient Generative Codec for Video Conferencing

# REPARO: Loss-Resilient Generative Codec for Video Conferencing > [!info] Talk metadata > - **会議:** [[MLSys2026]] Day 4 (May 21 / Thu)、Grand Ballroom 2、13:30 - 13:45 PDT > - **登壇者:** Tianhong Li（MIT CSAIL） > - **共著者:** Vibhaalakshmi Sivaraman、Pantea Karimi、Lijie Fan、Mohammad Alizadeh、Dina Katabi（全員 MIT CSAIL） > - **URL:** https://mlsys.org/virtual/2026/oral/3839 > - **OpenReview:** https://openreview.net/forum?id=GaBGzA7fpe > [!abstract] 概要（MLSys サイト） > ビデオ会議中のパケットロスは映像品質の低下やフリーズの原因となる。再送はリアルタイム再生の制約下では非実用的であり、FEC（前方誤り訂正）はインターネットロスのバースト性と予測不能性ゆえに冗長度の調整が困難である。本論文では Reparo を提案する。Reparo は生成深層学習モデルに基づくロス耐性ビデオ会議フレームワークであり、フレームの全体または一部が失われた際に欠落情報を生成する。この生成は受信データと、人や物体の外見・動き・相互作用に関するモデルの視覚的理解に条件付けられる。公開データセットを用いた実験で、PSNR・SSIM・LPIPS の改善およびフリーズの大幅な低減を達成した。 ## テーゼ・問題設定ビデオ会議アプリケーションではパケットロスが依然として深刻な課題である。従来のビデオコーデック（VP8、VP9、H.264、H.265、AV1 など）はブロックベースの動き予測を用い、キーフレーム（I フレーム）と予測フレーム（P/B フレーム）間にフレーム間依存を持つ。I フレームのロスは後続の複数フレームに波及し、コーデックが回復するまで品質劣化やフリーズを引き起こす。既存の対策は再送と FEC の二つに大別される。再送はラウンドトリップ時間が短い場合にのみ有効であり、リアルタイム通信には適さない。FEC は冗長パケット（パリティパケット）を付加するが、インターネットロスのバースト性と予測不能性ゆえに冗長度の最適化が困難である。冗長度が過大であれば帯域を浪費し、過小であればデコード不能フレームが生じる。本研究の核心的な洞察は、生成モデルがロス耐性ビデオコーデックに本質的に適しているという点にある。生成モデルはテキストプロンプトの代わりに受信ピクセルや過去フレームの情報で条件付けることで、欠落部分を視覚的に整合した形で補完できる。 ## 提案手法 ### システム概要 Reparo は五つのコンポーネントからなる。 1. **エンコーダ**: RGB フレームをビジュアルトークン列に変換する。VQGAN ベースの CNN エンコーダ・デコーダ対を用い、画像パッチを事前学習済みコードブックのエントリに量子化する。デフォルト設定では 512x512 の入力フレームを 32x32 のトークン格子に圧縮し、コードブックサイズは 1024（各トークンインデックスは 10 ビット）である。エンコーダは 23.8M パラメータ、デコーダは 30.5M パラメータで構成される。 2. **パケタイザ**: トークンを複数パケットに分配する。隣接トークンを同一パケットに入れない決定論的なラッピング戦略を採用し、1 パケットのロスが空間的に分散した疎なトークン欠落となるよう設計する。デフォルトでは 1 フレームを 4 パケットに分割する。 3. **ビットレートコントローラ**: 目標ビットレートに適応するため、各パケットからトークンの一部を決定論的に削除（セルフドロップ）する。従来コーデックの可変サイズフレームと異なり、全フレームが同一サイズとなるため目標ビットレートへの精密な適合が可能である。最大 50% のトークンを削除しても PSNR への影響は限定的である。 4. **ロスリカバリモジュール**: 受信側に配置される生成ニューラルネットワーク。受信トークンと過去 T=6 フレーム分のトークンを入力とし、欠落トークンを予測する。欠落位置には学習可能なマスクトークン [M] を挿入する。 5. **デコーダ**: 復元されたトークン格子を RGB フレームに逆変換する。 ### ロスリカバリモジュールの詳細アーキテクチャには時空間 Vision Transformer（ViT）を採用する。各トランスフォーマブロックは空間ブロック（フレーム内の h x w トークン間のアテンション）と時間ブロック（T フレーム間のアテンション）から構成され、時間と空間を逐次的に処理することで計算量を O(T^2 h^2 w^2) から O(T h^2 w^2 + T^2 hw) に削減する。デフォルト設定では 20 個の時空間トランスフォーマブロックを使用し、埋め込み次元 768、ヘッド数 12、MLP 比 4 で、合計 172M パラメータである。 ### 学習 VQGAN コーデックとロスリカバリモジュールの二段階で学習する。学習データには FFHQ（70,000 画像）、CelebAHQ（30,000 画像）、TalkingHeads のサブセット（約 25 時間分の動画）を使用する。学習時にはセルフドロップ率 r_d（0〜0.6 の一様分布からサンプル）とパケットロス率 r_p（0〜0.8 の一様分布からサンプル）の両方をシミュレートし、欠落トークンの再構成的交差エントロピー損失を最適化する。 ### 主要な設計上の利点 - **フレーム間依存の排除**: 各フレームは独立にエンコード・デコードされ、あるフレームのロスが後続フレームに伝播しない。従来コーデックの最大の弱点であるエラー伝播を根本的に解消する。 - **一定ビットレート**: 全フレームが同数のトークンで表現されるため、キーフレームによるビットレートスパイクが発生しない。 - **片方向通信**: 受信側は送信側に ACK を返す必要がなく、デコード不能フレームの再送要求も不要である。受信トークンから常にフレームを生成できる。 ## 実験・主要結果 ### 評価設定 Gemino データセットと TalkingHeads の一部を統合した検証セットを構築し、412 本のビデオクリップ（84 人の被験者、計 5 時間分）を使用した。先行研究のデータセットよりも大幅に大規模かつ多様である。ベースラインとして WebRTC 上の VP8+ULPFEC、VP8+flexFEC、および VP9+Tambur（ストリーミング符号ベースの最先端 FEC）と比較した。ネットワーク条件は Gilbert-Elliott モデルによるバースト損失チャネルを用い、低（平均 5.6%）・中（平均 7.4%）・高（平均 9.3%）のロスレベルを評価した。V100 GPU 2 台（送信側・受信側各 1 台）で 30 fps・512x512 のリアルタイム処理を実現した。 ### ロスネットワーク上の映像品質約 320 Kbps のビットレートにおいて、Reparo はすべてのロスレベル・すべてのメトリクスで既存手法を上回った。 - **PSNR**（ワースト 10% フレーム）: 低ロスで 33.4 dB、中ロスで 32.9 dB、高ロスで 31.6 dB を達成。VP9+Tambur に対しそれぞれ 11.5 dB、16.4 dB、14.7 dB の改善。 - **フレーム PSNR の安定性**: Reparo のフレーム PSNR はロスレベルによらず概ね 32.5〜37 dB の狭い範囲に集中する（全フレームの約 99% が 30 dB 以上）。ベースラインはロスレベルの上昇に伴い低 PSNR フレームが増大する。 - **ロス無し時の性能**: パケットロスがない場合でも Reparo はベースラインと同等以上の PSNR を達成しており、ロス耐性が圧縮効率を犠牲にしていないことを示す。 ### 未レンダリングフレーム Reparo は未レンダリング（フリーズ）フレームをほぼ解消した。低・中・高ロスレベルでそれぞれ 0.2%、0.8%、2.0% であり、VP9+Tambur の 8.0%、13.1%、29.2% と比較して大幅に低い。Reparo は常にフレームの生成を試みるためフリーズが構造的に発生しにくい。 ### 帯域制限リンク上の性能固定容量 320 Kbps のボトルネックリンク上では、Reparo は目標ビットレートに正確に一致するフレームを送信できる。VP9+Tambur はキーフレームのサイズスパイクと FEC オーバーヘッド（50〜60%）により、目標ビットレートを超過してキューあふれとパケットロスを引き起こす。結果として Reparo は VP9+Tambur に対し PSNR で 35 dB 対 33.4 dB の優位を示した。 ### レイテンシ Reparo の推論レイテンシの内訳は、エンコーダ 14.1 ms、パケタイゼーション 0.5 ms、ロスリカバリ 17.8 ms、デコーダ 13.1 ms であり、合計 45.5 ms である。一般的なネットワークキューイング遅延（50 ms）を加えたエンドツーエンド遅延は 100 ms 以下に収まり、インタラクティブビデオの業界推奨上限 150 ms を満たす。 ## 制限事項 - 現行実装は PyTorch ベースであり、トランスフォーマの計算負荷は従来コーデックや FEC 方式よりも重い。V100 GPU 相当（Apple M2 Max GPU と同等性能クラス）以上のハードウェアが必要であり、スマートフォンやタブレットなどの低性能デバイスでは動作しない。 - ビデオ会議ドメインに特化したトークン辞書を学習するため、他ドメインへの適用にはドメインごとの辞書学習が必要である。 - 現行プロトタイプは 512x512 解像度で動作する。より高解像度（例: 1080p）への拡張はダウンサンプリング比の調整で対応可能と論じているが、未検証である。 - PSNR < 30 dB を未レンダリングフレームと定義する閾値は保守的であり、テンポラルフリッカリングや不気味の谷現象などの知覚的アーティファクトを捕捉できない可能性がある。 ## 結論・Takeaway Reparo は「冗長パケットも再送も使わず、生成モデルで欠落情報を復元する」という新しいパラダイムのロス耐性ビデオコーデックである。フレーム間依存を排除し、ビジュアルトークン空間での時空間 ViT によるロスリカバリを行うことで、パケットロス下での PSNR を最大 16 dB 改善し、フリーズをほぼ解消した。一定ビットレート・片方向通信という運用上の利点も大きい。計算コストとデバイス要件が現時点の主要制約であるが、コンシューマ GPU の性能向上やモデル効率化手法の適用により将来的な改善が見込まれる。コーディング理論とコンピュータビジョンを融合した学際的アプローチとして、ビデオ通信システムの設計に新たな方向性を示した。