AI虚拟人算法整理汇总

  • 一、虚拟人脸
  • 二、人脸同步
  • 三、AI换脸
  • 四、嘴型生成

  • 从2019年开始接触虚拟主播到现在,各个方向的项目多多少少都做过一遍。近期打算整理虚拟人相关算法资料,会不定时更新,敬请关注。虚拟人算法相关分类与应用主要有这几种: 虚拟人脸 (人脸生成)、 人脸同步 以及 AI换脸

    Ayayi、阿喜、柳夜熙这种偏向建模类型的虚拟人会另外开贴介绍,敬请期待。

    一、虚拟人脸

    代表算法有 Nvidia Lab 研究发布的 StyleGan 系列开源代码。
    StyleGan 是由英伟达实验室发布的虚拟人脸生成算法,可以无中生有,生成非常逼真的虚拟人(数字人)。AI通过学习大量的高清人脸图片之后,就能生成几十亿现实世界中不存在的人脸。

    1. StyleGan

    A Style-Based Generator Architecture for Generative Adversarial Networks (CVPR 2019)
    Github:
    https://github.com/NVlabs/stylegan

    These people are not real – they were produced by our generator that allows control over different aspects of the image.

    2. StyleGan2

    Analyzing and Improving the Image Quality of StyleGAN (CVPR 2020)
    Github:
    https://github.com/NVlabs/stylegan2
    在这里插入图片描述

    3. StyleGan2-ada

    Training Generative Adversarial Networks with Limited Data (CVPR 2020)

    Github: https://github.com/NVlabs/stylegan2-ada-pytorch

    4. StyleGan3

    Alias-Free Generative Adversarial Networks (CVPR 2021)
    Github:
    https://github.com/NVlabs/stylegan3

    stylegan 出现的时候已经让人惊掉下巴了,第三代更加细腻逼真。具体改进可以看github主页。
    在这里插入图片描述

    二、人脸同步

    1. First Order Model

    First Order Motion Model for Image Animation (NeurIPS 2019)
    Github:
    https://github.com/AliaksandrSiarohin/first-order-model
    在这里插入图片描述

    2. Avatarify

    Photorealistic avatars for video-conferencing.
    Github:
    https://github.com/alievk/avatarify
    在这里插入图片描述

    3. PC-AVS: Talking Face Generation

    Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation (CVPR 2021)
    Github:
    https://github.com/Hangz-nju-cuhk/Talking-Face_PC-AVS

    三、AI换脸

    1. FaceSwap

    FaceSwap is a tool that utilizes deep learning to recognize and swap faces in pictures and videos.
    Github:
    https://github.com/deepfakes/faceswap

    Jennifer Lawrence/Steve Buscemi FaceSwap using the Villain model

    2. DeepFaceLab

    DeepFaceLab: Integrated, flexible and extensible face-swapping framework (CVPR 2021)
    Github:
    https://github.com/iperov/DeepFaceLab
    在这里插入图片描述

    3. DeepFaceLive

    Github: https://github.com/iperov/DeepFaceLive

    四、嘴型生成

    1. LipGan

    Towards Automatic Face-to-Face Translation (CVPR 2020)
    Github:
    https://github.com/Rudrabha/LipGAN

    2. Wav2Lip

    A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild (CVPR 2020)
    Github:
    https://github.com/Rudrabha/Wav2Lip

    3. MakeItTalk:

    MakeItTalk: Speaker-Aware Talking-Head Animation
    Github:
    https://github.com/yzhou359/MakeItTalk
    在这里插入图片描述

    点击上方“AI搞事情”关注我们据天眼查数据显示,我国现有“ 虚拟 人”、“数字人”的相关企业28.8万余家。2016-2020年,5年新增注册企业增速复合增长率近60%,行业进入爆发期。百度公司发布了数字人平台——百度智能云曦灵,通过百度智能云曦灵平台的开放,让每个人实现数字人自由。字节跳动则推出了沉浸式 虚拟 社交平台Pixsoul,还全资入股了拥有 虚拟 偶像团体A-SOUL著作权的公司,并收购了VR创业... 该程序可以通过Python脚本控制 虚拟 人的动作,并利用UnrealCV库中的功能以及其他必要的库,例如OpenCV和NumPy,进行 虚拟 人的视觉感知和决策。完成这些步骤后,便可以创建一个 虚拟 人程序,它可以通过Python和虚幻引擎进行控制并与用户进行交互。 虚拟 人可以在虚幻引擎中被可视化,可以通过Python脚本进行控制并且可以进行视觉感知和决策。创建 虚拟 环境,以便在其中运行应用程序,并安装必要的库,如OpenCV、NumPy和PyQt5,在Python和虚幻引擎中。首先,需要安装Python和虚幻引擎。 最近做作业看到了一篇挺有意思的文章《Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation》。文章开发了一个可以说话 人脸 生成工具,可以由视频和音频共同驱动 Zhou, H., Sun, Y., Wu, W., Loy, C. C., Wang, X., & Liu, Z. (2021). Pose-controllable talking face generat 黄种人 人脸 生成器更新:基于StyleGAN2制作的新版生成器消除了生成图片中水滴斑点和扭曲/损坏现象的出现,质量大幅提升。点此查看新版。--------------------------------------------------------------------------------------------------------------------注明:之前做的一些有意思的 人脸 生... 由于 人工智能 的快速发展, 虚拟 人被广泛应用于各种行业,包括个人辅助、智能客户服务和在线教育。拟人化的数字人可以快速与人接触,并在人机交互中增强用户体验。因此,我们设计了人机交互系统框架,包括语音识别、文本到语音、对话系统和 虚拟 人生成。接下来,我们通过 虚拟 人深度生成框架对Talking-Head Generation视频生成模型进行了分类。同时,我们系统地回顾了过去五年来在有声头部视频生成方面的技术进步和趋势,强调了关键工作并总结了数据集。 ,孙亚生,,,和。 我们提出了可姿势控制的视听系统(PC-AVS) ,该系统可在驱动带有声音的任意说话的面部时实现自由姿势控制。 代替从音频中学习姿势运动,我们利用另一个姿势源视频来仅补偿头部运动。 关键是设计一种隐含的低维姿势代码,该代码不包含嘴巴形状或身份信息。 通过这种方式,将视听表示模块化为三个关键因素的空间:语音内容,头部姿势和身份信息。 使用Python 3.6和 1.3.0。 基本要求在“ requirements.txt”中列出。 pip install -r requirements.txt 快速入门:生成演示结果 下载预训练的检查点。 创建默认的文件夹./checkpoints并解压demo.zip在./checkpoints/demo 。 其中应该有5 pth 。 解压缩mi DeepFaceLab:一个简单,灵活的可扩展换脸框架 时间有限,翻译仓促,为个人学习所用,仅供参考。 DeepFaceLab: A simple, flexible and extensible face swapping framework paper:https://arxiv.org/abs/2005.05535 open-source:https://github.com/iperov/DeepFaceLab/ 文章目录DeepFaceLab:一个简单,灵活的可扩展换脸框架摘要一、介绍二、Dee 数字站桶人 首先我先给数字人重新做一个定义:“把人数字化,以行人的职责”。怎么理解呢?我举两个例子就清楚了。第一个是现在直播带货,主播成本越来越高,我们的数字人能否代替主播24小时自动带货呢?这里数字化的是主播的形象、声音、性格特质,以及商品的知识。另一个是,一些客服或者售前情景,所做的工作也是重复度非常高,我们能否交给数字人去完成呢?这里就简单多了, 浅谈如何基于人像照片生成2D、3D 虚拟 形象(Photo-to-Avatar)为什么写这样一篇文章?从技术上如何实现——自动生成 虚拟 形象?可能用到的技术、工具有哪些?结语 为什么写这样一篇文章? 近年来,元宇宙概念已经从娱乐、工作、文旅等多个方面偷偷溜进我们的生活,关于元宇宙的概念这里不做普及,相信看过《头号玩家》、《失控玩家》之类的电影,会让我们对元宇宙有了一些自己的想法,但首先都需要存在一个可以代替自己在元宇宙的 虚拟 形象。那么如何生成一个可以代表自己的 虚拟 形象就是一个问题。在已有的一些角色扮演等类型的游戏 根据SNIA(Storage Networking Industry Association,中文译名为“存储网络联合会”)官方对于Virtualization(存储 虚拟 化技术)的定义,如下:  1、 是将存储(子)系统内部功能与具体应用、主机及通用网络资源分离、隐藏及抽象的行为。以期达到存储或数据管理的网络无关性。  2、 对于存储服务及设备的 虚拟 化应用,以期达到整合设备功能、隐藏复杂细节以及向已经存在的底层存储资源添加新的应用。   前所未有的数据增长速度、新的应用需求、对数据监管要求和更大的业务连续性需求正在让企业的IT预算越来越吃紧。IDC数据表明:未来5年内,企业拥有的数据量的 点击上方“机器学习与生成对抗网络”,关注星标获取有趣、好玩的前沿干货!一、说话人驱动(talking head)1、Audio-Driven Emotional Video Portrai... 换脸软件出来也好几年了,但是目前依旧对硬件依赖比较大。想要在自己电脑上跑换脸软件就必须要一张显卡,想要轻松点,就必须要一张好显卡(今年搞一张好显卡不容易)。 显卡主要分N卡(英伟达)和A卡(AMD),一般来说是推荐N卡,N卡的支持会更好,使用场景更广泛。 硬件篇1. 只支持NVIDIA的独立显卡,不支持AMD显卡和核显。2. 显存6G为入门,不然大部分模型都带不动3. CPU\硬盘\内存无要求软件篇系统选择支持WIN10,WIN7,LINUX,不支持mac(因为mac不支持NVIDIA显卡)显卡驱动显卡驱动升级到最新方法自己百度显卡硬件加速其中如果用的是RTX30系列显卡的话,需要把WIN10升级到20H4或更新版本,然后打开硬件加速,不然会出现训练时一直卡在第一个迭代不动了系统升级的方法请百度。 虚拟 内存设置加载读取 人脸 数据过程中,需要占用大量内存... Deepin linux20介绍Deepin linux20原名为Hiweed Linux,是一款在在ubuntu基础上开发的开源的免费的linux操作系统,支持笔记本、桌面计算机和一体机使用。Deepin linux20是目前的最新版本,采用全面的高清配置,支持WiFi热点支持,新增指纹解锁功能,还能自动调节颜色,保护双眼。官网:>>Deepin linux20特色【全面高清适配,给... 重要更新: 此处提供了一项经过改进的新作品,可以在移动说话的面部视频时产生更加准确和自然的结果: : 现在,在fully_pythonic分支中可以使用没有MATLAB依赖项的代码。 请注意,两个分支中的模型并不完全相同,并且在某些情况下,其中一个的性能可能会优于另一个。 本文发表时使用的模型具有MATLAB依赖性,并且已经过广泛测试。 如果您不想拥有MATLAB依赖项,请随时尝试使用fully_pythonic分支。 还可以为fully_pythonic分支使用Google Colab 。 [提供者: ] 可以处理狂野的面部姿势和表情。 可以处理任何语言的语音,并且对背景噪声具有鲁棒性。 将面Kong粘贴到原始视频中,而不会产生最少的伪影-可以潜在地纠正配音电影中的口形同步错误! 完整的多G