lint-report-2026-06-04 - yuuk1's Digital Garden

# Lint Report: 2026-06-04 大規模 GPU 訓練クラスタの障害管理 6 本(コミット `bdb1042e2`)の取り込み後に実施。filesystem transport でスキャン。DragonScale address(`allocate-address.sh` 未導入)と semantic tiling(`tiling-check.py` 未導入)は対象外。 ## Summary - Pages scanned: 555(sources 67 / entities 431 / concepts 47 / questions 1 ほか meta) - Dead links(ノイズ除去後): 12(`.raw/` 原本・画像埋め込み・`log.md` 履歴・`conventions`/`japanese-style`/`lint-report` のテンプレ例は除外済み) - Orphan pages: 19(うち大半は本バッチの著者 stub) - Frontmatter gaps: 0(`wiki/CLAUDE.md` はドキュメントで対象外) - Empty sections: 0(初回検出 32 はすべて H2 直下に H3 を持つ誤検知だった) - Duplicate basenames(vault 全体): 47(大半は wiki レイヤーと既存 `notes/`・`research/` の意図的共存) - Auto-fixed: 0(本レポート提示後に承認を得てから適用) --- ## BLOCKER なし。 ## HIGH — 確実に直せる dead link ### H1. `[[ノード健全性管理]]` が未作成(本バッチ由来・20 entity) 今回作成した Guard の著者 stub 20 件が「[[Guard]]([[ストラグラー]]検知・[[ノード健全性管理]]システム)」と未作成概念へリンクしている。 - 対象: `wiki/entities/` の Guard 著者 20 件(Abhinandan Patni, Alexander Zhipa, Anthony Ko, Ashvin Nihalani, Binxuan Huang, Cong Cheng, Congzhu Lin, Guanliang Liu, Jack Wittmayer, Josh Wu, Mi Sun, Parthasarathy Govindarajen, Rejith George Joseph, Rory Na, Vijay Rajakumar, Yinghong Liu, Zoe Zeng ほか) - 修正案: `[[ノード健全性管理]]` → 既存 `[[GPUクラスタ運用]]` に repoint(軽量)。または `ノード健全性管理` を concept として新規作成(Guard の核テーマだが現状は著者 stub からのみ参照)。 ### H2. `[[集団通信]]` は `[[集合通信]]` の表記揺れ(3 箇所) canonical 概念は `集合通信`。`集団通信` は別表記でリンク切れ。 - 対象: `wiki/entities/Alibaba HPN.md`、`wiki/entities/SkeletonHunter.md`、`wiki/sources/@2025__SIGCOMM__SkeletonHunter - Diagnosing and Localizing Network Failures in Containerized Large Model Training.md` - 修正案: `[[集団通信]]` → `[[集合通信]]` ### H3. `@` プレフィックス抜けの bare source リンク(3 箇所) source ページは `@` 始まりが正。`@` 抜けは `papers/` 側へ誤解決またはリンク切れになる。 - `wiki/concepts/根本原因分析.md` L56: `[[@2025__arXiv__Rethinking the Evaluation of Microservice RCA with a Fault Propagation-Aware Benchmark|Rethinking the Evaluation of Microservice RCA with a Fault Propagation-Aware Benchmark]]` → `[[@2025__arXiv__Rethinking the Evaluation of Microservice RCA with a Fault Propagation-Aware Benchmark]]` - `wiki/concepts/TSFM単体とVLM統合の本質的差異.md`: `[[@2025__NeurIPS2025__This Time is Different - An Observability Perspective on Time Series Foundation Models|2025__NeurIPS2025__This Time is Different - An Observability Perspective on Time Series Foundation Models]]` → `[[@2025__NeurIPS2025__This Time is Different - An Observability Perspective on Time Series Foundation Models]]` - 同上: `[[@2026__arXiv__ARFBench - Benchmarking Time Series Question Answering Ability for Software Incident Response|2026__arXiv__ARFBench - Benchmarking Time Series Question Answering Ability for Software Incident Response]]` → `[[@2026__arXiv__ARFBench - Benchmarking Time Series Question Answering Ability for Software Incident Response]]` --- ## MEDIUM — 未作成ページ候補(作成 or 放置の判断) | リンク | 参照元 | 備考 | |---|---|---| | `[[RDMA]]` | オープンネットワーキング, C4 source, C4P | 基盤技術。複数参照あり。entity 化 or `[[RDMAネットワーク監視]]` で代替検討 | | `[[Fat-Tree]]` | H800, C4 source | ネットワークトポロジ。stub 化候補 | | `[[Drain]]` | L4 source | ログ解析アルゴリズム。stub 化候補 | | `[[RCA-agent]]` | Chaoyun Zhang, OpenRCA | OpenRCA の手法名 | | `[[Chenxingyu Zhao]]` | University of Washington | 人物 | | `[[Johns Hopkins University]]` | TelecomTS source | 組織 | | `[[University of British Columbia]]` | Xiang Zhang | 組織 | いずれも放置しても実害は小さい。必要に応じ stub 作成。 --- ## LOW — 構造的事項(自動修正しない) ### L1. Orphan(被リンク 0)の著者 stub: 19 件本バッチの Guard / C4 著者 stub が中心。source ページが著者を frontmatter 文字列(`author: "X ほか"`)で持ち wikilink しないため、entity→source の片方向しか張られず orphan になる。vault 全体で共通の構造で、本バッチ固有の不具合ではない。 - 選択肢: (a) 著者 stub は参照データとして許容(エイリアス・全文検索で到達可)/ (b) source 本文に主要著者の wikilink を足す。 - 除外: `wiki/CLAUDE.md`(運用ドキュメント)、`wiki/meta/lint-report-2026-06-03.md`(メタ)は orphan 集計から除外すべき分。 ### L2. Duplicate basename: 47 件(bare link の曖昧性) `wiki/concepts/集合通信` と `notes/system-engineering/集合通信`、`wiki/entities/NCCL` と `notes/system-engineering/NCCL` のように、wiki レイヤーと既存 `notes/`・`research/` で同名ページが共存する。これは CLAUDE.md の「新規 wiki レイヤー独立共存」方針による意図的なもの。ただし bare `[[集合通信]]` は Obsidian の shortest-path 解決でどちらに解決されるか曖昧になりうる。 - 該当(概念・実体の主なもの): 集合通信 / 異常検知 / eBPF / LLM推論 / AIOps / Infrastructure as Code / Kubernetes / Prometheus / VictoriaMetrics / Perfetto / NCCL / SONiC ほか。 - 対処は設計判断(wiki 側リンクを常にパス修飾するか、許容するか)。自動修正しない。 --- ## Naming / Style - source ページの `@` プレフィックス規約は本バッチ 6 件すべて遵守。 - 空セクション・frontmatter 必須フィールドの実質的欠落なし。 - 文体(日本語常体・出典付き)違反の機械検出は今回なし。 ## 次アクション HIGH(H1〜H3)は安全な自動修正候補。MEDIUM の未作成ページと LOW の構造事項は判断を要する。適用範囲は本レポート提示後にユーザー承認を得てから実施する。