infinitetalk

Solid

音频驱动的稀疏帧视频配音工具,支持音频驱动的 Video-to-Video 和 Image-to-Video 生成,实现精准的唇形、头部、身体姿态同步,支持无限时长视频生成

Code & Development 1,525 stars 170 forks Updated today

Install

View on GitHub

Quality Score: 86/100

Stars 20%
100
Recency 20%
100
Frontmatter 20%
70
Documentation 15%
100
Issue Health 10%
50
License 10%
0
Description 5%
100

Skill Content

# InfiniteTalk - 音频驱动视频生成 ## 任务目标 - 本 Skill 用于:将音频(语音)转换为同步的说话人视频,支持从单张图片或现有视频生成音频驱动的说话视频 - 能力包含: - Image-to-Video:从单张图片生成音频驱动的说话视频 - Video-to-Video:对现有视频进行音频驱动的重配音 - 多维度同步:唇形、头部运动、身体姿态、面部表情与音频精准对齐 - 无限时长:支持无限制时长的视频生成 - 低显存适配:支持量化、模型卸载等显存优化方案 - 触发条件:当需要生成音频驱动的数字人视频、视频配音、虚拟主播内容时使用 ## 前置准备 - 模型下载:在使用本 Skill 前,必须先下载所需的模型权重文件,具体步骤见 [references/model_download.md](references/model_download.md) - 硬件要求: - GPU:推荐使用 16GB+ 显存的 GPU(可使用量化方案适配低显存设备) - 内存:建议 32GB+ 系统内存 - 磁盘空间:至少 50GB 可用空间(模型权重约 30GB) - 环境配置:详细依赖安装见 [references/environment_setup.md](references/environment_setup.md) ## 操作步骤 ### 模式一:Image-to-Video(图片生成视频) 1. 准备输入 - 确保有一张清晰的人脸图片作为输入 - 准备音频文件(支持 mp3、wav 等格式) - 可选:使用 TTS 功能从文本生成音频 2. 执行生成 - 调用 `scripts/infer_infinitetalk.py` 进行推理 - 参数说明: - `input_path`: 输入图片路径 - `audio_path`: 驱动音频路径(或提供 `text` 使用 TTS) - `output_path`: 输出视频路径 - `mode`: `clip`(单段)或 `streaming`(长视频) - `size`: `infinitetalk-480`(480P)或 `infinitetalk-720`(720P) - `sample_steps`: 采样步数(默认 40) - `sample_audio_guide_scale`: 音频引导强度(默认 4.0) 3. 验证输出 - 检查生成的视频是否同步良好 - 确认唇形、头部动作与音频匹配 - 如有异常,调整 `sample_audio_guide_scale` 参数 ### 模式二:Video-to-Video(视频重配音) 1. 准备输入 - 准备参考视频文件 - 准备目标音频文件 2. 执行生成 - 使用相同的脚本,但 `input_path` 指向视频文件 - 脚本会自动提取视频的首帧作为参考 3. 处理长视频 - 使用 `streaming` 模式生成无限时长视频 - 通过 `motion_frame` 参数控制驱动帧长度(默认 9) ### 模式三:使用 TTS 生成音频 1. 文本转语音 - 提供待合成的文本内容 - 指定声音模型(Kokoro-82M) - 脚本会自动生成音频文件 2. 生成视频 - 使用生成的音频驱动视频生成 ...

Details

Author
anbeime
Repository
anbeime/skill
Created
4 months ago
Last Updated
today
Language
Python
License
None

Similar Skills

Semantically similar based on skill content — not just same category

Code & Development Listed

infinitetalk-shopping-avatar

专为InfiniteTalk项目设计的小省导购员数字人带货提示词生成技能,基于四大智能体协同(提示词生成师、质量管控师、知识库运维师、跨环节适配师),生成适配Image-to-Video模式的结构化提示词(角色固定特征+动作时序+场景环境+音频匹配+光影氛围+技术约束),支持9:16竖屏、5s/幕、音频同步(Suno+chinese-wav2vec2-base)、一致性管控(角色/视觉/情绪),直接对接模型推理流程

1,525 Updated today
anbeime
AI & Automation Solid

agentkit-multimedia-shopping

基于ByteDance agentkit-samples多媒体用例的小省导购员数字人带货视频生成技能,整合多模态内容生成能力(图像、视频、音频),支持AI绘画、语音合成、视频生成,与小省导购员人设融合,9:16竖屏适配,直接对接带货视频生成流程

1,525 Updated today
anbeime
AI & Automation Listed

video-agent-voice

视频团队的配音师。将逐字稿转为语音和字幕,支持 MiniMax Speech-02(中文首选,全球#1)、 Edge-TTS(免费)、ElevenLabs(英文)、自录音四种模式。 MiniMax 支持 10 秒声音克隆,中文 WER 仅 2.25%。 能读取分镜表的情绪标注,生成带语速和情感控制的配音, 以及供自录音参考的配音指导表。 当收到"生成语音""处理音频""我录好音了"时触发, 或由制片人(producer)调度时自动触发。

2 Updated 3 days ago
chenhuajinchj