empirical-ingestlisted
Install: claude install-skill Lambenthan/empiricalwiki
# /empirical-ingest
> 把一篇实证论文拆成可复用的研究设计资产。它不是普通摘要工具;优先抽取变量、数据、模型、机制、识别和稳健性,再写通用概念。
## Inputs
- `source`: 本地 `.pdf`、`.tex`,或 `/init` 预处理后的 `raw/tmp/...` 路径。
- `--topic` 可选:当前项目主题,如“耐心资本与 ESG”。
## Outputs
- `wiki/papers/{slug}.md`
- 按需新建或更新:
- `wiki/variables/*.md`
- `wiki/datasets/*.md`
- `wiki/models/*.md`
- `wiki/mechanisms/*.md`
- `wiki/hypotheses/*.md`
- `wiki/identification/*.md`
- `wiki/robustness/*.md`
- `wiki/heterogeneity/*.md`
- `wiki/tables/*.md`(仅当用户明确要求逐表复现时创建;默认把关键表格及结论写进论文卡,不单独建页)
- `wiki/index.md`、`wiki/log.md`
- `wiki/graph/edges.jsonl`
## Workflow
### Step 1: Resolve Source
确认工作目录是项目根目录,包含 `wiki/`、`raw/`、`tools/`。
优先使用 `.venv`:
```bash
if [ -x .venv/bin/python ]; then PYTHON_BIN=.venv/bin/python; else PYTHON_BIN=python3; fi
```
如果输入是 PDF,先人工读取第一页标题。中文 PDF 可以用 PyMuPDF 快速抽取:
```bash
"$PYTHON_BIN" - "<source>" <<'PY'
import sys, fitz
path = sys.argv[1]
doc = fitz.open(path)
print(doc[0].get_text("text")[:2000])
PY
```
然后运行:
```bash
"$PYTHON_BIN" tools/prepare_paper_source.py --raw-root raw --source <source> --title "<confident-title>"
```
把返回的 `prepared_path` 作为正文读取入口。若标题不确定,不传 `--title`。
### Step 2: Extract Empirical Facts
从论文中抽取以下字段。没有明确证据时写“未报告”,不要猜:
- 研究问题
- 理论机制
- 研究假设
- 样本区间、样本范围、样本筛选规则
- 数据来源和数据库表
- 被解释变量、核心解释变量、中介变量、调节变量、控制变量、工具变量
- 变量测算公式、分组规则、缩尾规则
- 主模型、固定效应、标准误聚类方式
- 内生性处理
- 机制检验、异质性检验、稳健性检验
- 关键表格及结论
- 可复现线索:变量名、数据库、Stata 处理步骤
### Step 3: Write Pages
打开 `docs/runtime-page-templates.zh.md`,按模板写页面。
写 `papers/{slug