audio-locallisted

当用户发送音频文件或要求语音转文字、音频转录、录音识别时使用此 skill。使用本地 faster-whisper large-v3-turbo 进行语音识别。转录完成后，由 Claude 直接对文本进行总结、分析、翻译等后续处理。触发场景：用户上传音频/录音、要求语音转文字、会议转录、提取音频内容等。
jk241282/-deepseek-skills · ★ 0 · AI & Automation · score 58

Install: claude install-skill jk241282/-deepseek-skills

# 本地语音转文字 ## 管线 ``` 音频 → faster-whisper(转录) → 原文 → Claude 后续处理 ``` 转录由本地模型完成，文字结果的总结/分析/翻译由 Claude 直接处理，无需再调 Ollama。 ## 执行步骤 ### 1. 确认音频路径获取音频文件绝对路径。支持格式：mp3, wav, m4a, ogg, flac, webm。 ### 2. 执行转录 ```bash python "<skill目录>/scripts/transcribe.py" "<音频路径>" <语言> ``` - 语言默认 `zh`，英文音频用 `en` - 模型路径可通过环境变量 `WHISPER_MODEL_PATH` 设置，默认为 `~/models/faster-whisper-large-v3-turbo` - 输出纯文本原文 ### 3. 后续处理拿到转录原文后，根据用户指令直接处理： - 用户要求"总结" → Claude 直接总结原文 - 用户要求"翻译" → Claude 直接翻译原文 - 用户要求"提取要点" → Claude 直接提取 - 用户只说"转文字" → 呈现原文即可 ## 故障排查 - **模型未找到**: 检查 `WHISPER_MODEL_PATH` 环境变量或 `~/models/faster-whisper-large-v3-turbo/` 目录 - **转录为空**: 检查音频是否有效，语言代码是否正确