opendataloader-pdflisted
Install: claude install-skill matematicsolutions/awesome-matematic-skills-pl
# OpenDataLoader PDF - PDF→JSON/MD (PL)
Java-based (Python wrapper) parser PDF najwyższej jakości dla AI. Benchmarki: NID (reading order), TEDS (tabele), MHS (headings). Używany w pipeline `Konwerter/` w vault.
## Instalacja (zrobione 2026-04-21)
```bash
python -m pip install --user opendataloader-pdf
```
Python 3.14, `opendataloader-pdf 2.2.1`. Wymaga **Java 17+** (mamy Eclipse Adoptium JDK 17). CLI: `python -m opendataloader_pdf` albo `opendataloader-pdf.exe` ze Scripts/.
## Wspierane outputy
- **JSON** (pełna struktura - reading order, bounding boxes, tabele jako 2D arrays) - default
- **Markdown** (flattened output, gotowy pod LLM)
- **HTML** (opcjonalnie)
## Użycie
### CLI - pojedynczy PDF
```bash
python -m opendataloader_pdf --input plik.pdf --output output/ --format md
```
### Batch (Obsidian Vault, pipeline Konwerter)
```bash
python -m opendataloader_pdf \
--input "C:/Users/hp/Documents/Obsidian Vault/wszystko co wpada szybko/" \
--output "C:/Users/hp/Documents/Obsidian Vault/Konwerter/" \
--format md \
--recursive
```
### Zaawansowane flagi
- `--enrich-formula` - wyciąga formuły LaTeX
- `--enrich-picture-description` - opis obrazów (wymaga `--hybrid-mode full`)
- `--filter-hidden-text` - wykrywa ukryty tekst (off by default, per-page rendering)
### Python API
```python
import opendataloader_pdf
result = opendataloader_pdf.load("plik.pdf", output_format="markdown")
print(result.markdown)
```
## Kiedy użyć vs MarkItDown
| PDF | Narzędzie |
|---|---