電通国際情報サービス、オープンイノベーションラボの比嘉康雄です。 Stable Diffusionシリーズ、今回は、Stable Diffusion v1.5が出たので早速、Stable Diffusionが比較的苦手な美少女画で検証してみました。
StabilityAIではなく、Runawaymlからv1.5がリリースされたので、StabilityAIが削除申請を出したのですが、取り下げたようです。
Stable Diffusionのおすすめコンテンツはこちら。
- Waifu Diffusion 1.3.5_80000
- v2.1 金髪美女写真
- v2.1 美少女アニメ画
- v2.1 AUTOMATIC1111
- v2.0 美少女イラスト
- v1.5 美少女画検証
- 美少女アニメ画改善版
- 美少女を高確率で出す呪文編
- 美少女アニメ画編
- TPU版の使い方
- 美少女写真編
- 女性イラスト編
- 魅惑的な女アニメ画(トゥーンレンダリング)編
- 長い呪文は切り捨てられる編
- ライセンスへの同意
- huggingfaceへのログイン
- 必要なモジュールのインストール
- pipeの作成
- 画像の出力
- 美少女画による検証
- まとめ
- 仲間募集
- Stable Diffusionの全コンテンツ
ライセンスへの同意
https://huggingface.co/runwayml/stable-diffusion-v1-5 にアクセスして、ライセンスに同意してください。
huggingfaceへのログイン
ここからは、Google Colabでの作業になります。
huggingfaceへログインします。
from huggingface_hub import notebook_login from pathlib import Path if not (Path.home()/'.huggingface'/'token').exists(): notebook_login()
必要なモジュールのインストール
必要なモジュールをインストールします。diffusersのバージョンが特に明示されていなかったので、今回は、 TPU版の使い方で使った0.5.1
を使ってみました。
!pip install diffusers==0.5.1 transformers scipy ftfy
pipeの作成
pipeを作成します。以前とmodel_id
が異なることに注意してください。
from diffusers import StableDiffusionPipeline import torch model_id = "runwayml/stable-diffusion-v1-5" device = "cuda" pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16, revision="fp16") pipe = pipe.to(device)
画像の出力
画像を出力します。以前は、image = pipe(prompt)["sample"][0]
でした。
prompt = "a photo of an astronaut riding a horse on mars" image = pipe(prompt).images[0]
美少女画による検証
Stable Diffusionが比較的苦手な美少女画で検証します。結論から先に書くとv1.4より多少良くなっているけど、劇的に改善されたわけではないと言ったところでしょうか。
今回載せた画像は、意図的にイマイチだったものを選んでいます。クオリティの高い画像は、何度かやり直せば必ず出力できるので。
日本的な美少女アニメ画
Stable Diffusionが最も苦手とするのが、日本的な美少女アニメ画です。v1.4では、顔が崩れる、目が変、手が変といった問題がときどき(起きる頻度は呪文によって変わる)起きていました。
v1.5では、顔が崩れる、目が変という問題は、多少改善されていますが、まだ完璧ではありません。手が変という問題は、数十回試した限りは、全く改善されていないように感じます。
今回試した呪文はこちら。
anime of tsundere moe kawaii beautiful girl pixiv niconico artstation deviantart newgrounds tumblr fantasy scene fantasy composition fantasy lighting PlayStation5 octane render
イマイチだった出力結果はこちら。
美少女イラスト
美少女アニメ画の呪文のanime
をillustration
に変え、tsundere
、moe
、kawaii
、pixiv
、niconico
を削ったものが、美少女イラストの呪文です。
この呪文はかなり安定していて、たまに手が変になるくらいです。
今回試した呪文はこちら。
illustration of beautiful girl artstation deviantart newgrounds tumblr fantasy scene fantasy composition fantasy lighting PlayStation5 octane render
イマイチだった出力結果はこちら。
美少女写真
美少女写真は、安定(変にならない)度で、美少女イラストには劣りますが、日本的な美少女アニメ画よりは、安定しています。感覚的には、美少女イラスト > 美少女写真 >>> 日本的な美少女アニメ画といったところでしょうか。
今回試した呪文はこちら。
photo of beautiful girl SIGMA 85 mm F1.4 artstation impressive scene impressive composition impressive lighting
イマイチだった出力結果はこちら。
まとめ
今回、Stable Diffusion v1.5を検証してみました。日本的な美少女アニメ画の安定度が悪いと感じたかもしれませんが、比較的辛口に評価したので、実際のv1.5の評価は、ご自分でなさることをお勧めします。
日本的な美少女アニメ画もhead shot
(顔写真)の呪文を加えれば、手が写ることはほとんどないので、次のようなクオリティの画像は連発できます。head shot
にすると構図が限られるので、あまり使ってこなかったのですが、日本的な美少女アニメ画では、head shot
を必須にして安定度をとったほうが良いかもしれません。
head shot
にするとStable Diffusionが顔に注目するせいか、顔が変になったり、目が変になったりすることもほとんどなくなるようです。
次回は、東京タワーの写真です。
仲間募集
私たちは同じグループで共に働いていただける仲間を募集しています。
現在、以下のような職種を募集しています。
Stable Diffusionの全コンテンツ
- 人物写真編
- レンズ編
- 画像タイプ編
- 美少女アニメ画編
- 美少女写真編
- 女性イラスト編
- 美しい夜空を見渡す男編
- 魅惑的な女アニメ画(トゥーンレンダリング)編
- 美少女を高確率で出す呪文編
- 長い呪文は切り捨てられる編
- 蒸気機関が高度に発達したレトロなアニメ(スチームパンク)の世界観編
- A as Bの呪文による画像合成編
- かわいい動物の擬人化編
- バベルの塔のイラスト編
- TPU版の使い方
- 美少女アニメ画改善版
- v1.5 美少女画検証
- 東京タワーの写真
- 折り紙合体変形ロボ
- v2.0 美少女イラスト
- v2.1 AUTOMATIC1111
- v2.1 美少女アニメ画
- v2.1 金髪美女写真
- Waifu Diffusion 1.3.5_80000