opendataloader-pdflisted

Wysokiej jakości konwerter PDF→JSON/Markdown dla AI - zachowuje reading order, strukturę tabel, headings. Użyj gdy użytkownik mówi "wysoka jakość PDF", "papers naukowe PDF", "tabele z PDF", "opendataloader", "PDF z skomplikowaną strukturą", albo gdy MarkItDown daje słaby output. Główny konwerter PDF→MD w pipeline Konwerter/ w Obsidian Vault.
matematicsolutions/awesome-matematic-skills-pl · ★ 0 · Data & Documents · score 60

Install: claude install-skill matematicsolutions/awesome-matematic-skills-pl

# OpenDataLoader PDF - PDF→JSON/MD (PL) Java-based (Python wrapper) parser PDF najwyższej jakości dla AI. Benchmarki: NID (reading order), TEDS (tabele), MHS (headings). Używany w pipeline `Konwerter/` w vault. ## Instalacja (zrobione 2026-04-21) ```bash python -m pip install --user opendataloader-pdf ``` Python 3.14, `opendataloader-pdf 2.2.1`. Wymaga **Java 17+** (mamy Eclipse Adoptium JDK 17). CLI: `python -m opendataloader_pdf` albo `opendataloader-pdf.exe` ze Scripts/. ## Wspierane outputy - **JSON** (pełna struktura - reading order, bounding boxes, tabele jako 2D arrays) - default - **Markdown** (flattened output, gotowy pod LLM) - **HTML** (opcjonalnie) ## Użycie ### CLI - pojedynczy PDF ```bash python -m opendataloader_pdf --input plik.pdf --output output/ --format md ``` ### Batch (Obsidian Vault, pipeline Konwerter) ```bash python -m opendataloader_pdf \ --input "C:/Users/hp/Documents/Obsidian Vault/wszystko co wpada szybko/" \ --output "C:/Users/hp/Documents/Obsidian Vault/Konwerter/" \ --format md \ --recursive ``` ### Zaawansowane flagi - `--enrich-formula` - wyciąga formuły LaTeX - `--enrich-picture-description` - opis obrazów (wymaga `--hybrid-mode full`) - `--filter-hidden-text` - wykrywa ukryty tekst (off by default, per-page rendering) ### Python API ```python import opendataloader_pdf result = opendataloader_pdf.load("plik.pdf", output_format="markdown") print(result.markdown) ``` ## Kiedy użyć vs MarkItDown | PDF | Narzędzie | |---|---