[Multimodal learning - Wikipedia](https://en.wikipedia.org/wiki/Multimodal_learning) - 現実世界の情報は、通常、異なるモダリティとして提供される。例えば、画像は通常、タグやテキストの説明と関連付けられている。 - 異なるモダリティは、非常に異なる統計的特性を持っています。例えば、画像は通常、ピクセルの強度や特徴抽出器の出力として表され、テキストは離散的な単語数ベクトルとして表される - 異なるモダリティ間の関係を発見することは非常に重要 - マルチモーダル学習は、異なるモダリティの共同表現を表現するのに適したモデルである。 - 観測されたモダリティが与えられたときに、欠けているモダリティを埋めることができる。 - それぞれが1つのモダリティに対応する2つの深層[[ボルツマンマシン]]を組み合わせたもの。