AI
AI INSIGHT 経営課題をAIで解決|経営者のためのAIメディア
拡散モデル(Diffusion Model)とは?Stable Diffusionの仕組みを解説
AI用語解説

拡散モデル(Diffusion Model)とは?Stable Diffusionの仕組みを解説

2025-11-02
2025-12-10 更新

Stable Diffusion、DALL-E、Midjourney——話題の画像生成AIは「拡散モデル」という技術で動いています。ノイズから画像を生成する不思議な仕組み、わかりやすく解説します。

「テキストを入力するだけで、リアルな画像が生成される」——Stable DiffusionやDALL-Eが見せる魔法のような体験。

その裏側で動いているのが「拡散モデル(Diffusion Model)」です。

この記事では、画像生成AIの中核技術である拡散モデルの仕組みを解説します。

拡散モデルとは?

一言で言うと

拡散モデルは、画像にノイズを加える過程を学習し、その逆過程(ノイズを取り除く)で新しい画像を生成する技術です。

「ノイズだらけの砂嵐」から、徐々にノイズを除去していくと、美しい画像が現れる——そんなイメージです。

読者
読者

なぜわざわざノイズを使うんですか?

吉村(AIコンサルタント)
吉村(AIコンサルタント)

「どうやってノイズを加えるか」は数学的に簡単に定義できます。その逆過程を学習させることで、「どうやってきれいな画像を作るか」をAIに学ばせるわけです。シンプルな問題設定で高品質な生成ができる、優れたアプローチなんです。

拡散モデルの登場

拡散モデル自体は2015年に提案されましたが、実用化されたのは2020年。Ho et alの論文「Denoising Diffusion Probabilistic Models(DDPM)」がブレイクスルーとなりました。

2022年以降、Stable Diffusion、DALL-E 2、Midjourney、Imagenなど、拡散モデルベースの画像生成AIが次々と登場し、GANに代わる主流技術となりました。

拡散モデルの仕組み

2つのプロセス

拡散モデルは、「拡散過程」と「逆拡散過程」の2段階で構成されます。

【拡散過程(学習時)】
きれいな画像 → ノイズ追加 → ノイズ追加 → ... → 完全なノイズ

【逆拡散過程(生成時)】
完全なノイズ → ノイズ除去 → ノイズ除去 → ... → きれいな画像

拡散過程(Forward Process)

元のきれいな画像に、少しずつガウスノイズ(ランダムなノイズ)を加えていきます。

  • ステップ0: きれいな画像
  • ステップ1: 少しノイズが乗った画像
  • ステップ2: もう少しノイズが増えた画像
  • ...
  • ステップ1000: 完全なランダムノイズ

最終的には、元の画像の情報が完全に失われた「砂嵐」状態になります。

逆拡散過程(Reverse Process)

AIは「ノイズを少しずつ取り除く」ことを学習します。

ニューラルネットワーク(主にU-Net)が「このノイズ画像には、どんなノイズが含まれているか」を予測し、そのノイズを除去します。

  1. ステップ1000: ランダムノイズ
  2. ↓ ノイズ予測&除去
  3. ステップ999: 少し情報が見える
  4. ↓ ノイズ予測&除去 ...(繰り返し)
  5. ステップ0: きれいな画像が生成
ステップ数

DDPMでは1000ステップ程度で学習・生成を行います。DDIMなどの改良版では、50〜100ステップ程度に削減可能です。

条件付き生成

「猫の画像を生成して」というテキスト指示を与えるには、「条件付け」が必要です。

Stable Diffusionでは、テキストエンコーダー(CLIP)を使って、テキストの意味をベクトルに変換し、ノイズ除去の各ステップでその情報を参照します。

[テキスト入力][CLIPでベクトル化]生成の方向づけ[ノイズ][条件付きノイズ除去][生成画像]

主要な拡散モデル

DDPM(2020年)

Denoising Diffusion Probabilistic Models。実用的な拡散モデルの基礎を確立。

DDIM(2021年)

Denoising Diffusion Implicit Models。DDPMを高速化し、生成ステップ数を大幅に削減。

Stable Diffusion(2022年)

Stability AIが公開したオープンソースの画像生成モデル。潜在空間(Latent Space)で拡散を行う「Latent Diffusion」を採用し、高解像度画像を効率的に生成。

バージョン 公開時期 特徴
Stable Diffusion 1.x 2022年8月 オープンソース公開
Stable Diffusion 2.x 2022年11月 高解像度対応
Stable Diffusion XL 2023年7月 より高品質な生成
Stable Diffusion 3 2024年3月 Transformerベース(DiT)

DALL-E 2/3(OpenAI)

OpenAIの画像生成モデル。テキストからの画像生成で高い品質を実現。DALL-E 3はChatGPTと統合。

Midjourney

高品質なアート風画像生成で人気。Discordベースのサービス。

Sora(2024年)

OpenAIの動画生成モデル。拡散Transformer(DiT)を採用。

拡散モデル vs GAN

拡散モデル以前は、GAN(敵対的生成ネットワーク)が画像生成の主流でした。

項目 拡散モデル GAN
学習の安定性 安定 不安定になりやすい
生成の多様性 高い モード崩壊のリスク
生成速度 遅い(複数ステップ) 速い(1回の推論)
画像品質 非常に高い 高い
制御性 条件付け容易 制御が難しい
読者
読者

GANより遅いのに、なぜ拡散モデルが主流になったんですか?

吉村
吉村

学習の安定性と生成品質が決め手です。GANは学習が難しく、同じような画像ばかり生成する「モード崩壊」が問題でした。拡散モデルは安定して多様な高品質画像を生成できます。速度の問題も、DDIMなどの改良で大幅に改善されています。

拡散モデルの応用

画像生成以外の応用

  • 画像編集:既存画像の一部を編集(インペインティング)
  • 超解像:低解像度画像を高解像度に変換
  • 画像復元:ノイズ除去、欠損部分の補完
  • 動画生成:Soraなどの動画生成AI
  • 3Dモデル生成:テキストから3Dオブジェクト生成
  • 音声生成:音声・音楽の生成

ビジネス活用

  • 広告・マーケティング:商品画像、バナー作成
  • ゲーム開発:背景、キャラクターのコンセプトアート
  • EC:商品イメージの自動生成
  • 教育:教材用イラスト作成

拡散モデルの課題

1. 生成速度

複数ステップの処理が必要なため、GANより遅い。リアルタイム生成には改良が必要。

2. 計算コスト

高品質な生成には高性能GPUが必要。クラウドサービスやAPIの利用が一般的。

3. 著作権問題

学習データに含まれる画像の著作権、生成画像の権利について議論が続いている。

4. 不適切コンテンツ

フェイク画像、不適切なコンテンツの生成リスク。各サービスで対策が講じられている。

吉村
吉村

拡散モデルは画像生成AIを実用レベルに引き上げた革新的技術です。ただし、著作権や倫理面の課題も理解した上で活用することが大切です。

まとめ:ノイズから画像を生み出す技術

拡散モデルは、画像生成AIの中核を担う技術です。

拡散モデルの重要ポイント:

  • ノイズ追加→ノイズ除去の過程を学習
  • 2020年のDDPMで実用化
  • Stable Diffusion、DALL-E、Midjourneyの基盤
  • GANより学習が安定し、多様な生成が可能
  • 速度改善(DDIM等)で実用性向上
  • 画像・動画・3Dなど応用範囲が拡大

「テキストから画像を生成する」未来を実現した拡散モデル。その進化はまだ始まったばかりです。

Tags

拡散モデル Stable Diffusion 画像生成AI DALL-E
吉村 この記事の筆者

吉村

AI INSIGHT

大学でIT教育に20年携わり、わかりやすい解説に定評あり。現在は合同会社四次元にてAI初心者向けの入門コンテンツを担当。

この記事をシェアする

記事一覧に戻る