← ClaudeAtlas

audio-to-markdown-transcriberlisted

当需要把音频/视频录音转成文字并产出结构化 Markdown(含元数据、逐字稿、会议纪要、摘要)时使用;用 Whisper/Faster-Whisper 转写并经 LLM 整理出参与者、议题、决策、待办;不适用于实时流式转写、说话人精确声纹识别或纯听写无结构需求;触发词:转写音频、会议纪要、语音转文字
findscripter/everything-skills · ★ 0 · AI & Automation · score 68
Install: claude install-skill findscripter/everything-skills
## 何时使用 适用: - 把本地或 URL 的音频/视频转成文字逐字稿(MP3、WAV、M4A、OGG、FLAC、WEBM、MP4)。 - 从录音自动生成会议纪要(参与者、议题、决策、待办)和高管摘要。 - 需要带技术元数据(时长、语言、文件大小、说话人数、转写引擎)的规范化 Markdown 报告。 - 批量转写一个目录下的多个录音。 不该用(负边界): - 实时/流式转写或会中实时字幕(本技能针对已落盘文件离线处理)。 - 高精度声纹说话人识别(diarization)——这里只做粗粒度区分,不保证身份准确。 - 仅需纯文本听写、不要任何结构化整理的场景(直接调用 whisper 即可,无需本技能)。 - 飞书妙记等平台已托管的音视频——优先用对应平台技能,不要本地 ffmpeg/whisper。 ## 步骤 ### 1. 探测转写引擎(零配置) 优先 Faster-Whisper(快 4-5 倍),否则回退原版 Whisper: ```bash if python3 -c "import faster_whisper" 2>/dev/null; then TRANSCRIBER="faster-whisper" elif python3 -c "import whisper" 2>/dev/null; then TRANSCRIBER="whisper" else TRANSCRIBER="none" fi command -v ffmpeg >/dev/null && echo "ffmpeg 可用(支持格式转换)" ``` 均缺失时给出安装指令(不静默自动装,先征求用户):`pip install faster-whisper`(推荐)或 `pip install openai-whisper`;格式转换需 `brew install ffmpeg`(macOS)/ `apt install ffmpeg`(Linux)。 ### 2. 校验音频并提取元数据 ```bash [[ -f "$AUDIO_FILE" ]] || { echo "文件不存在: $AUDIO_FILE"; exit 1; } FILE_SIZE=$(du -h "$AUDIO_FILE" | cut -f1) DURATION=$(ffprobe -v error -show_entries format=duration \ -of default=noprint_wrappers=1:nokey=1 "$AUDIO_FILE" 2>/dev/null) FORMAT=$(ffprobe -v error -select_streams a:0 -show_entries \ stream=codec_name -of default=noprint_wrappers=1:nokey=1 "$AUDIO_FILE" 2>/dev/null) SIZE_MB=$(du -m "$AUDIO_FILE" | cut -f1) [[ $SIZE_MB -gt 25 ]] && echo "大文件($FILE_SIZE)——处理可能需要数分钟,确认继续?" ``` 格式不在支持列表时,用 ffmpeg 转 16kHz WAV: ```bash EXTENSION="${AUDIO_FILE##*.}" SUPPORTED=("mp3" "wav" "m4a" "ogg" "flac" "webm