画像生成AIの拡散モデルの仕組みを図解してみた

2023年6月13日

この記事を読んで解決すること

画像生成AIって元のデータをパクってるの？どうゆう仕組み？

おち

パクってはないですが、参考にしてますね。

何かと話題に上がっている画像生成AI。今回はAIが画像生成する仕組みのうち、その安定した再現力と応用範囲から広く活用され始めている拡散モデルという仕組みについて図説します。

目次（読みたい項目をタップ）

拡散モデルの画像生成の仕組み

Diffusion Normalizing Flow（2021）より画像を一部引用して作成

拡散モデルの画像生成の仕組みはものすごくざっくり言うと以下の3ステップです。

※便宜的にノイズ注入過程をモザイク化と表現

拡散モデルの場合、AI自体は画像復元を目指しています。ただ、開発側の目標は復元ではなく画像生成です。そこで、単語や文に大量の画像データを紐付けてAIに膨大な学習を積ませることで多種多様な画像生成ができるようにしています。

拡散モデルはノイズの入れ方を工夫することで安定してパターンを学習できる点がメリットです。ただ、計算量が膨大になることがデメリットでした。このデメリットを解消するために計算量の圧縮法を取り入れているのが無料でサービス提供しているStable Diffusionという画像生成AIです。

拡散モデルは、画像生成以外でも活用が期待されています。

例えば画像復元や修復の分野です。古い写真や劣化した画像を、拡散モデルを使って高品質に復元することができます。歴史的な写真やアート作品の保存に役立つことが期待されます。

また、テキストからの音声生成や３D画像生成にも応用できる可能性が論文で報告されています。

arXiv.org

Diffsound: Discrete Diffusion Model for Text-to-sound Generation Generating sound effects that humans want is an important topic. However, there are few studies in this area for sound generation. In this study, we investigate…

DreamFusion: Text-to-3D using 2D…

DreamFusion: Text-to-3D using 2D Diffusion DreamFusion: Text-to-3D using 2D Diffusion, 2022.

テキストから３Dデータを生成する論文についてはSONY研究所の方がYouTubeで解説してくださっています。

計算コストをいかに圧縮してお手頃な価格でサービスを提供できるかが拡散モデルを利用した生成系AIの発展の鍵となりそうです。

今回は今話題になっているStable Diffusionでも使われている拡散モデルの仕組みについてお話ししました。

画像にノイズを加えて徐々に崩れていくパターンを学習させて、その過程を逆回しする発想が天才的ですね。

拡散モデルの応用範囲の広さがどこまで実社会に実装されるかも注目です。

今回は以上になります。ここまで読んでくださりありがとうございました。