infinitetalk

Solid

音频驱动的稀疏帧视频配音工具，支持音频驱动的 Video-to-Video 和 Image-to-Video 生成，实现精准的唇形、头部、身体姿态同步，支持无限时长视频生成

Code & Development 4,328 stars 421 forks Updated today

Install

View on GitHub

Quality Score: 86/100

Stars 20%

100

Recency 20%

100

Frontmatter 20%

Documentation 15%

100

Issue Health 10%

License 10%

Description 5%

100

Skill Content

# InfiniteTalk - 音频驱动视频生成 ## 任务目标 - 本 Skill 用于：将音频（语音）转换为同步的说话人视频，支持从单张图片或现有视频生成音频驱动的说话视频 - 能力包含： - Image-to-Video：从单张图片生成音频驱动的说话视频 - Video-to-Video：对现有视频进行音频驱动的重配音 - 多维度同步：唇形、头部运动、身体姿态、面部表情与音频精准对齐 - 无限时长：支持无限制时长的视频生成 - 低显存适配：支持量化、模型卸载等显存优化方案 - 触发条件：当需要生成音频驱动的数字人视频、视频配音、虚拟主播内容时使用 ## 前置准备 - 模型下载：在使用本 Skill 前，必须先下载所需的模型权重文件，具体步骤见 [references/model_download.md](references/model_download.md) - 硬件要求： - GPU：推荐使用 16GB+ 显存的 GPU（可使用量化方案适配低显存设备） - 内存：建议 32GB+ 系统内存 - 磁盘空间：至少 50GB 可用空间（模型权重约 30GB） - 环境配置：详细依赖安装见 [references/environment_setup.md](references/environment_setup.md) ## 操作步骤 ### 模式一：Image-to-Video（图片生成视频） 1. 准备输入 - 确保有一张清晰的人脸图片作为输入 - 准备音频文件（支持 mp3、wav 等格式） - 可选：使用 TTS 功能从文本生成音频 2. 执行生成 - 调用 `scripts/infer_infinitetalk.py` 进行推理 - 参数说明： - `input_path`: 输入图片路径 - `audio_path`: 驱动音频路径（或提供 `text` 使用 TTS） - `output_path`: 输出视频路径 - `mode`: `clip`（单段）或 `streaming`（长视频） - `size`: `infinitetalk-480`（480P）或 `infinitetalk-720`（720P） - `sample_steps`: 采样步数（默认 40） - `sample_audio_guide_scale`: 音频引导强度（默认 4.0） 3. 验证输出 - 检查生成的视频是否同步良好 - 确认唇形、头部动作与音频匹配 - 如有异常，调整 `sample_audio_guide_scale` 参数 ### 模式二：Video-to-Video（视频重配音） 1. 准备输入 - 准备参考视频文件 - 准备目标音频文件 2. 执行生成 - 使用相同的脚本，但 `input_path` 指向视频文件 - 脚本会自动提取视频的首帧作为参考 3. 处理长视频 - 使用 `streaming` 模式生成无限时长视频 - 通过 `motion_frame` 参数控制驱动帧长度（默认 9） ### 模式三：使用 TTS 生成音频 1. 文本转语音 - 提供待合成的��本内容 - 指定声音模型（Kokoro-82M） - 脚本会自动生成音频文件 2. 生成视频 - 使用生成的音频驱动视频生成 ...

Details

Author: anbeime
Repository: anbeime/skill
Created: 5 months ago
Last Updated: today
Language: Python
License: None

Similar Skills

Semantically similar based on skill content — not just same category

Code & Development Solid

infinitetalk-shopping-avatar

专为InfiniteTalk项目设计的小省导购员数字人带货提示词生成技能，基于四大智能体协同（提示词生成师、质量管控师、知识库运维师、跨环节适配师），生成适配Image-to-Video模式的结构化提示词（角色固定特征+动作时序+场景环境+音频匹配+光影氛围+技术约束），支持9:16竖屏、5s/幕、音频同步（Suno+chinese-wav2vec2-base）、一致性管控（角色/视觉/情绪），直接对接模型推理流程

4,328 Updated today

anbeime

Code & Development Listed

interflow-ip-video

把中文文稿做成 Interflow Bold-Mono 竖屏口播视频——火山引擎声音复刻配音（你自己的克隆音，1.2x 紧凑口播）、RMS 响度包络驱动口型的常驻 IP 小人（浮动/眨眼/点头/指向/抬手/欢迎）、暗底网格+辉光线稿的数据可视化（d3 平滑图表/迁移弧线/时间轴/象限等 10+ 种形式）、玻璃拟态词级字幕，渲染成 1080x1920 MP4。用户说「IP 小人视频 / 用我的声音出片 / interflow 风格文生视频 / bold-mono 出片」，或给一段中文文稿要做成带小人配音的竖屏视频时使用。

0 Updated 4 days ago

derek-zhuolin

AI & Automation Solid

agentkit-multimedia-shopping

基于ByteDance agentkit-samples多媒体用例的小省导购员数字人带货视频生成技能，整合多模态内容生成能力（图像、视频、音频），支持AI绘画、语音合成、视频生成，与小省导购员人设融合，9:16竖屏适配，直接对接带货视频生成流程

4,328 Updated today

anbeime