prompt-tunerlisted
Install: claude install-skill iamtatsuki05/dotfiles
# Prompt Tuner
プロンプトを実行→評価→診断→修正のサイクルで反復改善する。すべての工程を自走で行う。
## 入力として受け取るもの
ユーザーから以下を受け取る(ない場合は後述のフォールバックで対応):
| 入力 | 説明 | なければ |
|------|------|---------|
| 最適化対象のプロンプト | システムプロンプト / ユーザーテンプレート | 必須:必ず確認 |
| 改善目標 | 「より正確に」「JSON形式で出力」など | 出力を見て判断 |
| 実行コード | プロンプトを実際に動かすコード | Bash で直接 API 呼び出し |
| 評価コード / 評価データ | スコアリングロジックやテストケース | 目視で定性評価 |
## ワークフロー
### Step 1: 入力を整理する
- プロンプトと改善目標を確認する
- 実行コード・評価コード・評価データの有無を確認する
- 不明な点があれば最小限の質問をしてから進む
- 評価ケースは先に固定する。最低でも中央値ケース1件とエッジケース1件を用意し、改善後に都合よく変え��い
- 外部API、課金、APIキー、ユーザーデータ送信が発生する場合は、実行前にユーザーへ確認する
### Step 2: ベースライン実行・評価
**実行コードが提供された場合:** そのコードをそのまま使ってプロンプトを実行する。
**提供されなかった場合:** Bash で直接 API を呼び出す。例:
```bash
curl https://api.anthropic.com/v1/messages \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "content-type: application/json" \
-d '{"model":"claude-haiku-4-5-20251001","max_tokens":1024,"system":"<プロンプト>","messages":[{"role":"user","content":"<テスト入力>"}]}'
```
OpenAI API、ローカル実行、既存評価スクリプトなど、ユーザー環境に合う実行方法がある場合はそちらを優先する。APIキーが未設定、課金影響が不明、または外部送信が不適切な場合は、実行せずに評価設計と改善案までに留める。
**評価コード / データが提供された場合:** それを使ってスコアを算出する。
**提供されなかった場合:** 出力を目視確認し、以下の観点で定性評価する:
- 正確性(意図した回答か)
- フォーマット(指定形式に合っているか)
- 簡潔さ(冗長でないか)
- トーン(適切な文体か)
ベースラインの評価結果をユーザーに報告する。
### Step 3: 診断と改善案の生成
1. 評価結果から問題点を特定する
2. `references/prompt-engineering.md` の失敗パターン表と改善テクニックを参照する
3. 根本原因を特定し、1〜3個の具体的な改善を提案・適用する
### Step 4: 改善後プロンプトを再実行・再評価
Step 2 と同じ方法で改善後のプロンプトを実行し評価する。
### Step 5: 反復 or 終了
- スコアが有意に改善した場合(定量: +1.0以上