アリババ生成AI EMO、静止画が「口を開けて」歌ったり、話したりできるようになる

アリババは2月28日、生成AIのEMO(Emote Portrait Alive)をリリースした。 EMOは、ポートレート写真と音声のみで音声コンテンツに応じて、写真のキャラクターが「口を開けて」歌ったり、話したりすることができようになる。口の形を選んだ言語に合わせ、表情と頭の姿勢も自然に生成できる。EMOは主に2つのフェーズで動作するという。まず、ReferenceNetを使用して参照画像とアクションフレームから特徴を抽出し、次に事前に訓練された音声エンコーダを使用して音声を処理して埋め込み、マルチフレームノイズと顔領域マスキングと組み合わせて動画を生成する。

引用:https://new.qq.com/rain/a/20240229A00W4P00

Leave a Reply

メールアドレスが公開されることはありません。 が付いている欄は必須項目です