こんにちは。産業能率大学、橋本ゼミ12期生の内山碧仁です。
近年、ChatGPTを筆頭にAIの発展が著しく、文章だけでなく音楽や画像なども精度が向上しています。Bingなどが提供している、画像生成が無料で利用できるサービスもいくつもあります。しかし、実際に使ってみるとクオリティは高いものの自分の思い通りのものはなかなか作ることができないということが問題になることがあります。
この記事では、瑞木祭で行った、画像生成AIの一つであるDALL-E3を利用したAI恋人で得た経験を基に、人物像の画像生成に焦点を当て、誰でも理想に近づけるための方法について紹介します。
目次
理想の人物像の生成をする際の弊害
画像生成AIが生成する画像はプロンプトから作られます。理想に近い画像を生成するためには、プロンプトを非常に詳細に書く必要があるのですが、これは一般人にとって大きな課題となります。たとえプロンプトを細かく書いてみても、必要な専門用語や体の部位の正確な名称を知らない場合が多く、自分が十分に詳細な指示をしていると思っていても、実際には足りていないということもあります。また、表現が日本語特有であったり、公式な名称でない場合があるため、意図した画像とは異なる結果が生じることもあります。
AI恋人で上手くいった事例
実際のプロンプト文
・お願い
#あなたは大好きな彼氏を撮っている彼女。あなたは以下の条件で描かれている人物を撮 影してください。#現実で撮っている写真です。#あなたならできます。頑張って!
・目的
#大好きな彼氏のコーディネートをして、映える写真を撮る。
・情報
#19歳#日本人#男性#性格は体育系#信頼と安定感を重んじる人#外見の雰囲気はナチュラル&カジュアルな雰囲気#場所は海辺#温和で優しい#目の色は黒#ポーズは指ハート#髪はセンター分け#髭を全て剃っている#笑顔で可愛い感じ
生成された画像
#目がくりっとしているをプロンプトに加えて生成し直した画像
こちらの2枚の画像を比較してください。一枚目の画像は初めに参加者の意見を基に生成したもので、二枚目の画像は「目がくりっとしている」というオノマトペを含んだ文を加えた結果です。ほぼ同じプロンプトを使用しているにも関わらず、「くりっとしている」という表現により目元の印象が大きく変化していることがわかります。一枚目の画像が理想に対して80点程度だったのに対し、二枚目の画像は100点で理想そのものだという評価を受け、理想に近づけるのにオノマトペが有効だと考えました。
なぜオノマトペが有効的なのか
オノマトペが複数の意味を連想できるからだと考えました。例えば「くりっとしている」という表現は、目に丸みと愛らしさを連想できます。これを単純に「目」という単語と組み合わせることで、丸みを帯びた愛らしい印象を持つ目が生成されます。オノマトペなしで同じ目を再現しようとすると、目の形状、雰囲気、サイズ、上瞼、下瞼など、多くの要素を細かく指定する必要があり、バランスを取るのが非常に難しくなります。このように、オノマトペの使用は、複雑な特徴を簡潔かつ効果的に伝え、理想に近づけることに有効だと考えました。
オノマトペの優位性
多義的な言葉や専門用語も理想の画像に近づく手段となりますが、オノマトペはその使用しやすさで一歩先を行きます。多義的な言葉や専門用語は、一般人には馴染みのない場合があり、もし画像生成で利用する場合、調べるなどのアクションが必要になります。一方で、オノマトペは直感的で理解しやすく、誰にでも簡単に使え調べる必要が無いです。また、「ツルツル」「スベスベ」「ピカピカ」「テカテカ」といったオノマトペは、似た意味合いを持ちながらも異なるニュアンスを表現でき、試行錯誤しやすいといった特徴もあります。このようなことからオノマトペは、AI画像生成において、理想のイメージに近づけるために有効だと考えました。
まとめ
今回は、DALL-E3をはじめとするAI画像生成における人物像の生成での課題と、それを克服するための方法としてオノマトペを取り上げました。理想の人物像を生成する際、詳細なプロンプトは一般人にとっては難しいものですが、オノマトペを使うことで、このハードルを下げることができます。わかりやすく、試行錯誤もしやすく日本語で画像生成をするのに適した言葉だとわかりました。
今回はオノマトペが有効的としましたが、他の方法もたくさんあると思います。ぜひ自分なりに上手くいく方法を探してみてください。
執筆:橋本ゼミ12期生 内山碧仁