Audio2Photoreal：从音频生成全身逼真的虚拟人物形象。它可以从多人对话中语音中生-AI工具箱

Meta ai最近发布了一项炸裂的技术：Audio2PhotoReal，从音频生成全身逼真的虚拟人物形象。它可以从多人对话中语音中生成与对话相对应的逼真面部表情、完整身体和手势动作。

这些生成的虚拟人物不仅在视觉上很逼真，而且能够准确地反映出对话中的手势和表情细节，如指点、手腕抖动、耸肩、微笑、嘲笑等。

Audio2PhotoReal工作原理：

Audio2PhotoReal结合了向量量化的样本多样性和通过扩散获得的高频细节的优势，以生成更具动态性和表现力的动作。

1、数据集捕获：首先捕获了一组丰富的双人对话数据集，这些数据集允许进行逼真的重建。

2、运动模型构建：项目构建了一个包括面部运动模型、引导姿势预测器和身体运动模型的复合运动模型。

3、面部运动生成：使用预训练的唇部回归器处理音频，提取面部运动相关的特征。

利用条件扩散模型根据这些特征生成面部运动。

4、身体运动生成：以音频为输入，自回归地输出每秒1帧的向量量化（VQ）引导姿势。将音频和引导姿势一起输入到扩散模型中，以30帧/秒的速度生成高频身体运动。

5、虚拟人物渲染：将生成的面部和身体运动传入训练好的虚拟人物渲染器，生成逼真的虚拟人物。

6、结果展示：最终展示的是根据音频生成的全身逼真虚拟人物，这些虚拟人物能够表现出对话中的细微表情和手势动作。

Audio2Photoreal项目地址：https://github.com/facebookresearch/audio2photoreal/

Audio2Photoreal论文地址：https://arxiv.org/pdf/2401.01885.pdf

Ai开源项目

数据评估

Audio2Photoreal浏览人数已经达到435，如你需要查询该站的相关权重信息，可以点击"爱站数据""Chinaz数据"进入；以目前的网站数据参考，建议大家请以爱站数据为准，更多网站价值评估因素如：Audio2Photoreal的访问速度、搜索引擎收录以及索引量、用户体验等；当然要评估一个站的价值，最主要还是需要根据您自身的需求以及需要，一些确切的数据则需要找Audio2Photoreal的站长进行洽谈提供。如该站的IP、PV、跳出率等！

特别声明

AI工具箱提供的Audio2Photoreal都来源于网络，不保证外部链接的准确性和完整性，同时，对于该外部链接的指向，不由AI工具箱实际控制，在2024年10月6日上午3:29收录时，该网页上的内容，都属于合规合法，后期网页的内容如出现违规，可以直接联系网站管理员进行删除，AI工具箱不承担任何责任。

AI工具箱致力于优质、实用的网络站点资源收集与分享！本文地址https://aitoolbox.cn/sites/26886.html转载请注明