SadTalkerのインストールから動作確認まで【Windows11 Stable Diffusion WebUI】 | ムノログ 合同会社ムジンケイカクプロのITノウハウブログ
業務改善とセキュリティ

SadTalkerのインストールから動作確認まで【Windows11 Stable Diffusion WebUI】

SadTalkerのインストールから動作確認まで【Windows11 Stable Diffusion WebUI】 業務改善とセキュリティ

SadTalkerのインストールから利用方法まで、知人に聞かれることが増えてきたので、ここでまとめておきます。

画面説明のためStable Diffusionの画面は日本語化してしまっていますが、私は日英両方のUIで操作しています。

実施環境

Windows 11 Pro Insider Preview版

Python実行環境は、CとZドライブにあり、Anaconda Minicondaがそれぞれインストールされています。

ZドライブにはPythonのバージョンが異なる環境が複数インストールされており、通常はZドライブで開発が行われます。

Python環境の起動には、バッチファイルが使われており、それぞれの仮想環境のPythonパスが書かれているため、異なる環境を用途によって使い分けています。

Stable Diffusion web UIで拡張機能をインストール

Stable Diffusion 

SadTalkerを検索すると出てくるので、インストールを選択します。

とりあえずここまでやっておいてください。

このままではSadTalkerは動かない

ここで生成ボタン(generate)を押しても動かない人が多いのではないかと思います。

SadTalker

エラーになって進みません。
でも、ここまでできていれば、あとは順番にインストール方法を確認していくだけです。

公式のGitを見ておきます

GitHub – OpenTalker/SadTalker: [CVPR 2023] SadTalker:Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

やりかたは、インストールの説明「1. Installation.」として書いてありますが、端折られててわかりにくいという人もいるはず。

ffmpegのインストール

インストール方法は以下に記載があります。

How to Install FFmpeg on Windows: A Step-by-Step Guide

7-zipという圧縮ファイルの解凍ソフトを入れます。

ffmpegのダウンロード

ffmpeg

ダウンロードして解凍します。
fullで説明されているのでfullを使っていますが、essentialsを試したか?使ったことがあるか?の質問にはNoです。

ファイルの解凍

7zというのが圧縮ファイルです。
ダウンロードしたファイルを右クリックし、7-zipで解凍していきます。

フォルダのリネーム

解凍して出てきたフォルダ名を「ffmpeg」などとリネームします。

ffmpeg」フォルダを、Cドライブ直下に設置します。
※こうしておいたほうが面倒が少ない

Windowsのコマンドプロンプト

Windowsのコマンドプロンプトを、「管理者権限」で開きます。

以下のコマンドを入力してEnterキーを叩きます。

setx /m PATH "C:\ffmpeg\bin;%PATH%"

SUCCESS 的な文言が出たら、環境パスにffmpegが追加されています。

注意点

この記事より詳しく説明しているサイトでも、環境パスや環境変数という言葉や、キャプチャ画面がやや異なっていたりするので混乱することもあると思います。

OSのバージョンによっても変わってきますが、大前提は「Pathが通ればいい」だけです。

win11で内容を確認する方法を記載しておきます。

  1. Windowsアイコンを右クリック
  2. システムを選択
  3. 環境変数を選択

ここで、ユーザーとシステムの環境変数が出てくるはず。

新規」に「Path」を追加していくのですが、システム変数側かと思います。

要するに、フォルダの名前を変えなくても、Cドライブ直下でなくても、このPathにffmpegフォルダ内の「bin」までのフルパスが入っていれば動きます。

ffmpeg インストールの確認

新しいコマンドプロンプトを開きます。※管理者権限ではなく

ffmpeg -version

だらーっとバージョン情報その他が出てくればインストールできています。

Google Driveから必要ファイルをダウンロードする

Google Driveから、必要ファイルを更にダウンロードします。

モデルのダウンロード

GitHub – OpenTalker/SadTalker: [CVPR 2023] SadTalker:Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation

Google Driveのリンクから、ファイルをひとつひとつ落としたり、Google Driveの管理画面から一括ダウンロードを促すことをガイドするサイトもありますが、同じく動くはずです。
※私はそれでやりました。

上記の画面のリンクから、直接ダウンロードを行うと、2つのファイルが出来上がります。

解凍しておきます

sadtalker.zip

gfpgan.zip

このふたつを解凍しておきます。

解凍して出てきたフォルダ名を、それぞれ変えておきます。

sadtalkerは「checkpoints

gfpganは、そのまま「gfpgan」です。

モデル諸々のフォルダを作る

stable-diffusion-webui\extensions\SadTalker

拡張機能のSadTalkerフォルダの構成は、上記のパス構造のはず。

そこに「checkpoints」フォルダと、「gfpgan」フォルダを移動します。

Stable Diffusionの設定ファイルを変更

webui-user.batに、以下のパスを記載します。
パスは利用者ごとの環境によって変更してください。
フォルダの区切りであるバックスラッシュの入力に気をつけてください。

set SADTALKER_CHECKPOINTS=stable-diffusion-webui\extensions\SadTalker\checkpoints

ここまで行って、Stable Diffusionを再起動します。
この再起動なんですが、コマンドプロンプトが開いていたら閉じてしまって、再起動を推奨します。
私の場合だけかもしれませんが、UIの再起動だけを行った時に、Stable Diffusionが不安定になることが多いためです。

これで生成ボタンを押すと、エラーなく、口パク動画が生成されている!

はず。