scrapling

Solid

使用 scrapling 进行网页抓取和数据提取。自动选择 Fetcher,支持 Cloudflare/WAF 绕过、Session 登录、HTML 解析。当用户提到 scrape/crawl/fetch page/extract data/爬取/抓取/绕过Cloudflare/解析HTML/批量采集 时触发。

Data & Documents 13 stars 1 forks Updated 5 days ago MIT

Install

View on GitHub

Quality Score: 86/100

Stars 20%
38
Recency 20%
100
Frontmatter 20%
70
Documentation 15%
100
Issue Health 10%
80
License 10%
100
Description 5%
100

Skill Content

# Scrapling 网页抓取 Skill ## 步骤 0:检查版本 ```bash pip show scrapling ``` - 未安装 → 执行 `pip install "scrapling[fetchers]"` + `scrapling install` - 有新版 → 执行 `pip install --upgrade "scrapling[fetchers]"` → 查 changelog 告知用户 - 已最新 → 继续 ## 步骤 1:选择 Fetcher ``` 目标网站 → │ ├─ 已有 HTML 字符串/文件,只需解析? │ → Selector(纯解析,无网络请求) │ → 模板: templates/parse_only.py │ ├─ 静态页面,无 JS 渲染,无反爬? │ → Fetcher(最快,基于 curl_cffi) │ → 模板: templates/basic_fetch.py │ ├─ 需要登录(HTTP 表单,非 JS 登录)? │ → FetcherSession(保持会话 cookie) │ → 模板: templates/session_login.py │ ├─ 有 Cloudflare / WAF 保护? │ → StealthyFetcher(Camoufox 浏览器,自动过 CF) │ → 模板: templates/stealth_cloudflare.py │ ├─ SPA 应用(React/Vue),需要 JS 渲染? │ → DynamicFetcher(Playwright 浏览器) │ → 基于模板即时生成 │ └─ 不确定? → 先用 Fetcher 试,403/空内容 → 升级到 StealthyFetcher ``` ## 步骤 2:执行工作流 ``` 1. 检查版本(步骤 0) 2. 查阅 references/site-patterns.md — 匹配已有模式则直接复用 3. 无匹配 → 用决策树选择 Fetcher 4. 读取对应模板 → 替换参数 → 生成完整脚本 5. 执行脚本 → 返回结果 6. **沉淀经验(必做)**: - 新站点 → 追加到 site-patterns.md - 新 cookie / 用户提供了 cookie → 保存到 cookie-vault.md - **完成抓取后必须检查**:是否有新的 cookie 或 site pattern 需要保存 ``` ## Cookie 格式速查 | Fetcher 类型 | Cookie 格式 | 示例 | |-------------|-------------|------| | Fetcher / FetcherSession | `dict` | `{'name': 'value', 'token': 'abc'}` | | StealthyFetcher / DynamicFetcher | `list[dict]` | `[{'name': 'n', 'value': 'v', 'domain': '.site.com', 'path': '/'}]` | **浏览器 Fetcher cookie 必填字段**: `name`, `value`, `domain`, `path` ## 超时单位速查 | Fetcher 类型 | 超时单位 | 示例 | |-------------|--...

Details

Author
wzyxdwll
Repository
wzyxdwll/ccgx-workflow
Created
3 weeks ago
Last Updated
5 days ago
Language
TypeScript
License
MIT

Integrates with

Similar Skills

Semantically similar based on skill content — not just same category

AI & Automation Featured

scrapling

使用 scrapling 进行网页抓取和数据提取。自动选择 Fetcher,支持 Cloudflare/WAF 绕过、Session 登录、HTML 解析。当用户提到 scrape/crawl/fetch page/extract data/爬取/抓取/绕过Cloudflare/解析HTML/批量采集 时触发。

5,403 Updated 2 days ago
fengshao1227
AI & Automation Solid

scrapling

Web scraping with Scrapling - HTTP fetching, stealth browser automation, Cloudflare bypass, and spider crawling via CLI and Python.

175,435 Updated today
NousResearch
Data & Documents Listed

ez-crawl

Cloudflare /crawl API 網站爬取工具。當使用者想要爬取、擷取、抓取一個網站的內容時, 用 Cloudflare Browser Rendering 的 /crawl REST API 來完成,而不是用瀏覽器手動操作。 觸發時機:使用者說「/ez」、「ez crawl」、「用 Cloudflare 爬」、「CF crawl」、 「用 /crawl API」、「幫我爬這個網站」、「抓這個站的內容」、「crawl this site」、 「把這個網站的內容都抓下來」、「爬完整站」、「抓整站 markdown」等。 也���用於使用者提到想把某個文件站、部落格、產品頁批量轉成 markdown 或 JSON, 或者需要建 RAG knowledge base、訓練資料集時想批量抓網頁內容。 只要涉及「用 API 批量爬網站」的場景都應觸發,即使使用者沒有明確說 Cloudflare。 不適用於單一頁面的簡單抓取(那用 WebFetch 就好)或需要登入互動的瀏覽器操作。

4 Updated 2 months ago
0xedgelessblade
Data & Documents Listed

firecrawl

Firecrawl produces cleaner markdown than WebFetch, handles JavaScript-heavy pages, and avoids content truncation. This skill should be used when fetching URLs, scraping web pages, converting URLs to markdown, extracting web content, searching the web, crawling sites, mapping URLs, LLM-powered extraction, autonomous data gathering with the Agent API, interacting with scraped pages (clicking, filling forms, extracting dynamic content via Interact API), or fetching AI-generated documentation for GitHub repos via DeepWiki. Provides complete coverage of Firecrawl v2 API endpoints including parallel agents, spark-1-fast model, sitemap-only crawling, and the Interact API for post-scrape browser interaction.

33 Updated 2 days ago
tdimino
AI & Automation Listed

scrapling

Use Scrapling for web extraction (HTTP, async, dynamic, stealth fetchers). Prefer Scrapling for scraping pipelines; fallback to `playwright-ext` when blocked.

7 Updated today
codingSamss