アリババ生成AI EMO、静止画が「口を開けて」歌ったり、話したりできるようになる
アリババは2月28日、生成AIのEMO(Emote Portrait Alive)をリリースした。 EMOは、ポートレート写真と音声のみで音声コンテンツに応じて、写真のキャラクターが「口を開けて」歌ったり、話したりすることができようになる。口の形を選んだ言語に合わせ、表情と頭の姿勢も自然に生成できる。EMOは主に2つのフェーズで動作するという。まず、ReferenceNetを使用して参照画像とアクションフレームから特徴を抽出し、次に事前に訓練された音声エンコーダを使用して音声を処理して埋め込み、マルチフレームノイズと顔領域マスキングと組み合わせて動画を生成する。