見出し画像

【画像生成AI】DALL-E3でリアルな背景生成に挑戦【プロンプト例付き】

今日におけるAIによる画像生成は、広告やゲーム開発など、さまざまな分野で活用が拡大しています。
今回はそんな画像生成AIについて仕事で扱う機会があり、プロンプトの検証を行った話をまとめました。
後半でプロンプトの有効な記入方法についても記載してありますので、是非最後まで読んでいただけたら幸いです。


【プロフィール】板倉悠
学生時代は情報工学科に所属し、主に画像生成に関する機械学習に取り組んでいました。
2023年スマートスケープ株式会社に新卒で入社。
使用言語:Python



そもそも画像生成AIって?

生成AIの一種で、画像の生成に特化したAIを指します。
AIが画像の特徴を分析、学習をして画像を生成する技術です。

代表的な能力として
・テキストから画像生成 (Text-to-Image)
・画像から画像生成 (Image-to-Image)
が挙げられます。

近年、画像生成AIの技術領域はさらに広がり
画像から3Dモデルや動画を作成する技術も増えています。

- 今日における画像生成AIの技術領域について -

画像生成AIはどこまでできる?

日々進化し続ける画像生成AIですが、よく作成されているコンテンツとして人物の画像生成が挙げられます。

今回の検証では背景や物体について注目
人物生成に関するプロンプトはかなり調査が進んでいるので、今回は現実世界に近い画像の生成を目標に挑戦していきます。


検証目的

▶ 画像生成AI (DALL-E3) の能力を検証
▶ 安定して目的の画像を生成する手段を考察する

使用したツール

・DALL-E3

検証方法

目標とした画像について:
今回は現実世界に近い画像の生成を試みることから、物体と風景の写真を目標画像に設定したいと考えていました。

そこで、車のカタログや広告に使われている宣材写真であれば、条件を満たせると考え、今回はトヨタの販売ページの画像を参考にしました。
そのため目標にした画像をこの記事に掲載することが難しいことから、URLの掲載のみとさせていただきます。


また、今回は単に画像生成ができることを確認するだけでは、検証の目的達成に至らないため、以下の2つについて能力検証を行っていきます。

能力検証① 画風の調整能力

検証内容:
・テキストをDALL-E3に分析してもらい、「写真」「鉛筆画」「抽象画」「アニメ」の4つのジャンルの描き分けができるか調査する。

能力検証② 構図の調整能力

検証内容:
・テキストをDALL-E3に分析してもらい、様々な角度から撮影した車の現実世界に近い画像の生成ができるか調査する。

検証結果

能力検証①

入力したプロンプト:

- プロンプト詳細 -

生成結果:

- 生成結果 -

目視で分かる結果について:
・入力内容によって画風に差が出た。
・写真を目標に生成した画像は、現実世界から切り取ったような精度には至らず、若干イラストの雰囲気が残っている。
・そのほかの画風に関しては、ある程度プロンプトの条件に沿った画像の生成ができた。


能力検証②

入力したプロンプト:

- プロンプト詳細 -

生成結果:

- 生成結果 -

目視で分かる結果について:
・目標画像に近い画像は生成結果の一番左の画像だった。
・性能検証①よりも現実世界に近い画像の生成ができた。
・おおよその向きの変更ができた。
・車両の光沢を強調させた結果、コンクリートにも光沢の影響が出てしまい、雨上がりのような雰囲気が出てしまった。
・生成の度に駐車場の再現度に差が出てしまった。

考察

考察①

▶ 構造化したプロンプトを使用すると条件の指定が簡単

主体の指定や、時間や場所、背景の条件など、細かい指定を行うには文章で記述を行うのではなく、検証結果に乗せたプロンプトのように各条件につき1文で行うと有効でした。
構造化しないプロンプトで生成を実行した場合、イラストのような画像が頻繁に生成されました。

- イラストのような画像の例 -

考察②

▶ 構図と背景には大きな関係性がある

例として、背景の条件に「道:緩やかなカーブがある」として構図の変更を試みたとしましょう。(※検証実験①のような画像)
AIはその条件に沿って画像を生成するため、指定した条件が現実世界では有り得ないアングルの指定になってしまうと、何らかの条件が反映されなくなってしまいます。
そのため構図の変更を優先する場合は、ある程度背景の条件を減らす必要があり、個人的には構図の調整にはまだまだ工夫が必要だと感じました。

- 検証実験①のプロンプト内容で構図の変更を試みた -
(どちらも「正面から撮影した」という条件下で生成)

現状の課題について

実験を通して調整が難しいと感じた点を列挙します。

・生成された背景の現実感が薄れている
・細かい構図の指定が難しい
 
→「上」と「真上」の違いがなく細かい指定が難しい
・構図のクローズアップ(接写)を反映させるには背景の条件をさらに減らす必要がある

最後に

最後まで読んで頂き誠にありがとうございました。

最新の技術にまつわる内容であり、非常にやりがいのある検証でした。
もっと現実的な画像が生成できれば、様々なビジネスに活用できそうだな…
「より精度の高い生成をしてみせるぞ!」という野望を抱き、今後も業務に取り組んでいきたいと思います。

今後も様々な技術ブログを公開していけたらと思いますので、フォローしていただけると幸いです。


We’re hiring!

スマートスケープでは一緒に働いていただける仲間も募集しています。
「こうなりたい」という思いを持ち、型にはまらず、自らの意思でキャリアを切り開ける仕組みが整っております!
ぜひお気軽に以下のフォームまたはメールアドレスにご連絡ください!

新卒採用エントリーページ

キャリア採用エントリー
キャリア採用で募集している職種についてnoteにまとめました。
以下のリンクよりご覧ください。
スマートスケープで募集中の職種を紹介します!

またご質問等あればお気軽に下記へ連絡ください。
ss-career-recruit@smart-group.co.jp


Products

スマートスケープ株式会社

公式YouTubeチャンネル

SS4M - AIを活用した3D類似形状検索ツール

無料体験版お申し込みはこちら

QUANTO - 調達/購買業務を効率化するクラウドサービス

無料プランお申し込みはこちら

SmartExchange - 3D CADデータを3D PDF/3D HTMLに自動変換するソフトウェア

realvirtual.io - バーチャルコミッショニングを実現!


この記事が参加している募集