アリババ生成AI EMO、静止画が「口を開けて」歌ったり、話したりできるようになる

2024/3/5

アリババは2月28日、生成AIのEMO（Emote Portrait Alive）をリリースした。 EMOは、ポートレート写真と音声のみで音声コンテンツに応じて、写真のキャラクターが「口を開けて」歌ったり、話したりすることができようになる。口の形を選んだ言語に合わせ、表情と頭の姿勢も自然に生成できる。EMOは主に2つのフェーズで動作するという。まず、ReferenceNetを使用して参照画像とアクションフレームから特徴を抽出し、次に事前に訓練された音声エンコーダを使用して音声を処理して埋め込み、マルチフレームノイズと顔領域マスキングと組み合わせて動画を生成する。

引用：https://new.qq.com/rain/a/20240229A00W4P00

Leave a Reply コメントをキャンセル