← ClaudeAtlas

audio-locallisted

当用户发送音频文件或要求语音转文字、音频转录、录音识别时使用此 skill。使用本地 faster-whisper large-v3-turbo 进行语音识别。转录完成后,由 Claude 直接对文本进行总结、分析、翻译等后续处理。触发场景:用户上传音频/录音、要求语音转文字、会议转录、提取音频内容等。
jk241282/-deepseek-skills · ★ 0 · AI & Automation · score 58
Install: claude install-skill jk241282/-deepseek-skills
# 本地语音转文字 ## 管线 ``` 音频 → faster-whisper(转录) → 原文 → Claude 后续处理 ``` 转录由本地模型完成,文字结果的总结/分析/翻译由 Claude 直接处理,无需再调 Ollama。 ## 执行步骤 ### 1. 确认音频路径 获取音频文件绝对路径。支持格式:mp3, wav, m4a, ogg, flac, webm。 ### 2. 执行转录 ```bash python "<skill目录>/scripts/transcribe.py" "<音频路径>" <语言> ``` - 语言默认 `zh`,英文音频用 `en` - 模型路径可通过环境变量 `WHISPER_MODEL_PATH` 设置,默认为 `~/models/faster-whisper-large-v3-turbo` - 输出纯文本原文 ### 3. 后续处理 拿到转录原文后,根据用户指令直接处理: - 用户要求"总结" → Claude 直接总结原文 - 用户要求"翻译" → Claude 直接翻译原文 - 用户要求"提取要点" → Claude 直接提取 - 用户只说"转文字" → 呈现原文即可 ## 故障排查 - **模型未找到**: 检查 `WHISPER_MODEL_PATH` 环境变量或 `~/models/faster-whisper-large-v3-turbo/` 目录 - **转录为空**: 检查音频是否有效,语言代码是否正确