infinitetalk
Solid音频驱动的稀疏帧视频配音工具,支持音频驱动的 Video-to-Video 和 Image-to-Video 生成,实现精准的唇形、头部、身体姿态同步,支持无限时长视频生成
Code & Development 1,525 stars
170 forks Updated today
Install
Quality Score: 86/100
Stars 20%
Recency 20%
Frontmatter 20%
Documentation 15%
Issue Health 10%
License 10%
Description 5%
Skill Content
# InfiniteTalk - 音频驱动视频生成
## 任务目标
- 本 Skill 用于:将音频(语音)转换为同步的说话人视频,支持从单张图片或现有视频生成音频驱动的说话视频
- 能力包含:
- Image-to-Video:从单张图片生成音频驱动的说话视频
- Video-to-Video:对现有视频进行音频驱动的重配音
- 多维度同步:唇形、头部运动、身体姿态、面部表情与音频精准对齐
- 无限时长:支持无限制时长的视频生成
- 低显存适配:支持量化、模型卸载等显存优化方案
- 触发条件:当需要生成音频驱动的数字人视频、视频配音、虚拟主播内容时使用
## 前置准备
- 模型下载:在使用本 Skill 前,必须先下载所需的模型权重文件,具体步骤见 [references/model_download.md](references/model_download.md)
- 硬件要求:
- GPU:推荐使用 16GB+ 显存的 GPU(可使用量化方案适配低显存设备)
- 内存:建议 32GB+ 系统内存
- 磁盘空间:至少 50GB 可用空间(模型权重约 30GB)
- 环境配置:详细依赖安装见 [references/environment_setup.md](references/environment_setup.md)
## 操作步骤
### 模式一:Image-to-Video(图片生成视频)
1. 准备输入
- 确保有一张清晰的人脸图片作为输入
- 准备音频文件(支持 mp3、wav 等格式)
- 可选:使用 TTS 功能从文本生成音频
2. 执行生成
- 调用 `scripts/infer_infinitetalk.py` 进行推理
- 参数说明:
- `input_path`: 输入图片路径
- `audio_path`: 驱动音频路径(或提供 `text` 使用 TTS)
- `output_path`: 输出视频路径
- `mode`: `clip`(单段)或 `streaming`(长视频)
- `size`: `infinitetalk-480`(480P)或 `infinitetalk-720`(720P)
- `sample_steps`: 采样步数(默认 40)
- `sample_audio_guide_scale`: 音频引导强度(默认 4.0)
3. 验证输出
- 检查生成的视频是否同步良好
- 确认唇形、头部动作与音频匹配
- 如有异常,调整 `sample_audio_guide_scale` 参数
### 模式二:Video-to-Video(视频重配音)
1. 准备输入
- 准备参考视频文件
- 准备目标音频文件
2. 执行生成
- 使用相同的脚本,但 `input_path` 指向视频文件
- 脚本会自动提取视频的首帧作为参考
3. 处理长视频
- 使用 `streaming` 模式生成无限时长视频
- 通过 `motion_frame` 参数控制驱动帧长度(默认 9)
### 模式三:使用 TTS 生成音频
1. 文本转语音
- 提供待合成的文本内容
- 指定声音模型(Kokoro-82M)
- 脚本会自动生成音频文件
2. 生成视频
- 使用生成的音频驱动视频生成
...
Details
- Author
- anbeime
- Repository
- anbeime/skill
- Created
- 4 months ago
- Last Updated
- today
- Language
- Python
- License
- None
Similar Skills
Semantically similar based on skill content — not just same category
Code & Development Listed
infinitetalk-shopping-avatar
专为InfiniteTalk项目设计的小省导购员数字人带货提示词生成技能,基于四大智能体协同(提示词生成师、质量管控师、知识库运维师、跨环节适配师),生成适配Image-to-Video模式的结构化提示词(角色固定特征+动作时序+场景环境+音频匹配+光影氛围+技术约束),支持9:16竖屏、5s/幕、音频同步(Suno+chinese-wav2vec2-base)、一致性管控(角色/视觉/情绪),直接对接模型推理流程
1,525 Updated today
anbeime AI & Automation Solid
agentkit-multimedia-shopping
基于ByteDance agentkit-samples多媒体用例的小省导购员数字人带货视频生成技能,整合多模态内容生成能力(图像、视频、音频),支持AI绘画、语音合成、视频生成,与小省导购员人设融合,9:16竖屏适配,直接对接带货视频生成流程
1,525 Updated today
anbeime AI & Automation Listed
video-agent-voice
视频团队的配音师。将逐字稿转为语音和字幕,支持 MiniMax Speech-02(中文首选,全球#1)、 Edge-TTS(免费)、ElevenLabs(英文)、自录音四种模式。 MiniMax 支持 10 秒声音克隆,中文 WER 仅 2.25%。 能读取分镜表的情绪标注,生成带语速和情感控制的配音, 以及供自录音参考的配音指导表。 当收到"生成语音""处理音频""我录好音了"时触发, 或由制片人(producer)调度时自动触发。
2 Updated 3 days ago
chenhuajinchj