明けましておめでとうございます!
Beaver’s Hive正月アドベントカレンダー(?)企画第一弾です。
今日から数日間投稿者を変えて、連続で投稿をしていく予定です!
今回の題材は生成AIです。
Soraを始め、動画生成AIがたくさん出てきた昨今ですが、これらを使って今回はPV動画を作成してみました。
頭で思い描いた描写を形にする、それも動画の形でというのは、今までとんでもない労力を必要としていました。
それが今や数時間程度で形にできる時代が来てしまいました。
生成したPVがこちら↓
動画は以下の流れで作成しました。
・歌詞を作成する(人力)
・Sunoで歌を生成する(AI)
・PVの絵コンテを作成する(人力)
・DALL-Eで画像(原画)を作成する(AI)
・SoraとHailuoAIで、画像から動画を生成する(AI)
・それぞれのパート動画を編集して繋ぎ合わせる
順番に解説していきます。
歌詞を作成するにあたり、まずはストーリーを考えました。
これ自体もLLMで作成することもできますが、今回は元々頭の中にあったストーリーがあったので、人力で考えてみたのが以下になります。
ストーリー
ビーバーと人間が水源を求めて争う中、新たな水脈を求めてビーバー探索車に乗ったビバ太郎等は、やっと見つけた水脈の前で人間の鎧武者の探索集団に出会う
衝突が発生するが、湖に眠る怪獣リバーイアサンが目覚め、散り散りになる過程で、鎧武者とビバ太郎が二人取り残される
当初は敵対していた両者であったが、なんやかんやあって仲良くなり、共存が可能なのではと思うようになる
(ビーバーはダムを作りたい。人間は水が欲しい。水路を作る形で共存は可能)
それぞれ合流に成功して、共闘してなんとかリバーイアサンを鎮めることに成功
その後共存へと向かい足並みを揃えるが、人間のビーバー討滅過激派勢力が発生。融和派とビーバーが共闘して、これと対決
(モチーフやストーリーに色々意味を込めているつもりですが、本筋でないので、ここではスキップ)
これを元に歌詞を作成します。LLM(Gemini 2.0)に作らせたのが以下の通り
(イントロ)
ひび割れた地、風の嘆き (かぜのなげき)
奪い合う影、大いなる禍 (おおいなるわざわい)
(Aメロ)
機械 (きかい) の鼓動 (こどう) 、ダブルヘリカル
インボリュート、歯車 (はぐるま) の囁き (ささやき)
プラネタリギア、減速比 (げんそくひ)
潤滑油 (じゅんかつゆ) 、滑らかに (なめらかに)
未知 (みち) を求めて (もとめて)
(Bメロ)
水面 (すいめん) の光 (ひかり) 、鎧 (よろい) の沈黙 (ちんもく)
光速 (こうそく) の弾丸 (だんがん) 、苛烈 (かれつ) な戦場 (せんじょう)
深淵 (しんえん) の轟き (とどろき) 、眠れる力 (ちから)
(サビ)
巨大 (きょだい) な影 (かげ) 、二人 (ふたり) 残る (のこる)
寄り添う心 (こころ) 、繋がり (つながり) を求め (もとめ)
抗 (あらが) えない力 (ちから) の前 (まえ)
(Cメロ)
築き (きずき) 、求め (もとめ) 、分かち合う (わかちあう)
未来 (みらい) を開き (ひらき) 、共に歩む (ともにあゆむ)
(Dメロ)
再び集い (ふたたびつどい) 、巨大 (きょだい) に挑む (いどむ)
静寂 (せいじゃく) を取り戻す (とりもどす)
亀裂 (きれつ) の兆し (きざし) 、拒絶 (きょぜつ) の炎 (ほのお)
(大サビ)
異なる心 (こころ) 、一つになる (ひとつになる)
平和 (へいわ) を願い (ねがい) 、共に進む (ともにすすむ)
傷跡 (きずあと) を越え (こえ) 、新 (あたら) しい時代 (じだい)
情景描写自体は悪くないのですが、歌詞に必要な心情描写がほとんどありませんでした。
そこで、ほぼ手直しする形で心情描写を追加した歌詞を考え、以下の通りとなりました。
ダブルヘリカルの鼓動と
ひび割れた地を嘆く風
沢山のモノを失った
奪い合う影と大いなる陰謀
凄惨な過去と
復讐を背負う苛烈な戦場で
それでも僕は未知を求めた
インボリュートの描く軌跡で
水面の鎧と深淵の轟が煌めく
正義は違えど守りたい心が同じなら
僕はピッチ合わせて
君と歩めるのかもしれない
紅く燃える拒絶の業火
蒼い霧に降る神速の弾丸
異なる心は一つにならない
振り翳した互いの正義共振し
けれど新しい時代 僕達は共に生きた
割と納得のいく歌詞になったので、次のステップに進みます。
当初は曲は生成し、歌声はNEUTRINOなどで後付けする予定でしたが、生成した曲からコード進行を正確に得るのが難しく断念。。
歌声も生成することにしました。
(ちなみに、NEUTRINO(ずんだもん)で作成したBeaverの曲として以下の曲があります。)
楽曲生成にはSunoを使用しました。
SunoにはV3.5とV4が存在します(2024/12現在)が、スマホアプリ版では無料でV4を使用できるため、アプリから生成を行いました。
曲調などのプロンプトを色々幾つか変更しながら生成してみて、いい塩梅の曲ができたので、これで決定としました。
曲ができたので、ここからは動画の内容を作成していきました。
まず、動画内の絵の見せ方を考えるため、アニメ作成によく用いられている絵コンテ(台本)を作ってみました。
以下のように曲のタイムラインに合わせて、実際にこのようなコマ割りページを幾つか書いてみました。(超雑に書いているので公開するのは恥ずかしいのですが・・)
この絵コンテ生成は、まだLLMでは実現が難しいので、人力で作成する必要がありましたが、この辺りも今後の技術発展次第では変わってくるかもですね。
(現状ある絵コンテ生成は、絵自体の生成がメインで、絵コンテの流れ自体は人間が考えるというのがほとんどです。正直この段階は超雑でも問題ないので、そこのAI生成はなくてもいいかもです)
絵コンテを元に画像(原画)を生成していきます。
ここで私が原画と呼んでいるのは、アニメーション作成における原画を作りその間を埋める動画を描く、という工程に似ていると感じているからです。
絵コンテでどのような情景を描きたいのかは大まかに決まっているので、それを元にしたプロンプトを考えて、DALL-Eを使用して生成を行っていきます。
例えば以下のプロンプトでこの様な画像を得ていきます。
Draw a landscape image of the villain, a fat rich beaver, smoking a kissel.
Looks like a British gentleman. Overall dark scene.
(訳:悪役の太った金持ちビーバーがキセルをふかしている画像を横長で描いて。姿は英国紳士風で全体的に暗い情景)
画像生成を挟まずに動画生成を行うということも可能ではあるのですが、なかなか欲しい構図の動画を得ることが難しい問題があります。
特に動画生成では一つの動画を生成するのに時間がかなりかかるので、画像の方がトライアンドエラーが取りやすかったり、時系列情報を考えずに生成できるのでやりやすいです。
この辺りも、今後の技術更新によっては色々な作り方が出て来そうです。
また、作りたい動画によっては画像を生成せずに一発で作ってもいい感じになる場合もありました。
この辺りは使うプラットフォーム(生成AIモデル)によっても特徴がありそうなので次の章で解説しています。
動画生成にはSoraとHailuoAIを使用しました。
画像から動画の生成では、前章で生成した画像を突っ込み、どの様に動かすのかのプロンプトを入力して動画を生成しています。
プロンプト
キセルをふかしながら、ニヤッと悪い顔で笑うビーバー
元々はSoraだけで生成しようと思っていたのですが、画像から動画を生成(I2V)の精度が劇的に悪かったため、HailuoAIを使用しています。
SoraとHailuoAIを使ってみた比較
プロンプトのみから動画生成するのに向いている印象
実写寄りの動画や、画角がダイナミックに変わる動画の生成に強い印象
画像からの動画生成に強い印象
今回のような絵コンテから画像、動画生成という段取りを使用するなら、こちらがかなり向いている印象
こちらは従来通りの動画編集と同じです。
私はAdobeCreativeCloudに入っているので、PremireProを使用しました。
生成した動画の色調や露出、スピードなどを調整しながら切りはりして動画を作成していきます。
動画によっては、逆再生にした方がダイナミックな動きになるものもあり、さまざまな編集を行いました。
特に、I2Vの画像から動画を生成したものに関しては、最初に画像で動かないコマが存在するので、意外と逆再生した方がいいものになる傾向がありました。
以上の流れで動画を作成してみましたが、大体通しで6時間程度かかりました。
意外と時間はかかってしまったのですが、前述の通り頭の中にある構想をこの程度の時間で動画化できるというのは革命的だと思います。
今後人力で行った部分がAI化できてくると、さらに時間短縮して動画が作成できる様になりそうで、今後が楽しみです。
また余談ですが、今回作成したPVはCoRE-1 2025大会出場に向けた、ロボットの世界観を固めるために作ったもので、ロボットはこの世界観に基づき現在製作中で、今後公開予定になります〜!
Y.S.