AI数字人相关项目概览

IcyFeather · 2024 年7 月 30 日 11:21

前言

今天突发奇想，体验了一下现在比较热门的AI数字人技术，将最新的几个项目总结一下，大家也可以了解一下数字人技术的最新进展。

上传人物头像 + 一段语音，生成一段人物说话/唱歌的视频

output_video_with_audio 4.gif

output_video_with_audio 1.gif
因为不方便放视频，所以我转成了 GIF 格式，猜猜韩老板和丁真说的什么？

有两种功能：

注意，所有的输入文本都要以标点符号结尾。

输入一段音频，可以转文字（自动生成字幕），并且可以提取出来其中的情感，在文字中穿插emoji

核心功能是，根据一个人的音频，来训练模型学这个人说话（数据多可以微调，数据少也可以直接用）。然后给一段文字，用给定音频的音色来进行语音转文字。

零样本文本到语音（TTS）： 输入 5 秒的声音样本，即刻体验文本到语音转换。
少样本 TTS： 仅需 1 分钟的训练数据即可微调模型，提升声音相似度和真实感。
跨语言支持： 支持与训练数据集不同语言的推理，目前支持英语、日语和中文。
WebUI 工具： 集成工具包括声音伴奏分离、自动训练集分割、中文自动语音识别(ASR)和文本标注，协助初学者创建训练数据集和 GPT/SoVITS 模型。

优点：数据处理的工具很全，基本上都有
缺点：需要的声音数据需要口音标准（例如普通话、标准英语），如果不是，效果不是很好。

可以通过训练进行语音转语音，而且有配套的语音处理工具。

例如用A的唱歌数据，先进行声音和伴奏的分离，然后用声音训练A的模型，然后把B的歌曲进行声音和伴奏的分离，把B的人声输入到模型里面，替换为A的人声，再和B的伴奏进行合成，就可以生成A唱B的歌的效果。可以用于AI歌手等用途。

IcyFeather · 2024 年8 月 14 日 06:15

可以做到实时的摄像头换脸，也可以做一般的视频换脸，仅需一张target图片就能换，并且有不错的效果

比如换脸 Elon Musk：

output