Crawl4AI skill for OpenClaw - Web crawling with login support for Twitter/X and Xiaohongshu
npx skills add https://github.com/lancelin111/crawl4ai-skill --skill crawl4ai-skillقم بتثبيت هذه المهارة باستخدام واجهة سطر الأوامر (CLI) وابدأ في استخدام سير عمل SKILL.md في مساحة عملك.
智能搜索与爬取工具 | LLM 优化输出
在使用 AI 助手处理信息时,我经常需要爬取网页内容。尝试了很多方案后,遇到了 crawl4ai —— 一个专为 LLM 设计的爬虫引擎,它的 Fit Markdown 输出简直是为 AI 量身定做的,去除了所有冗余内容,只保留核心信息。
这个项目就是这些探索的成果。希望能帮助到有同样需求的朋友。
pip install crawl4ai-skill
适用于 Claude、Copilot、通用 AI Agent:
npx skills add lancelin111/crawl4ai-skill@crawl4ai-skill
clawhub install crawl4ai-skill
PyPI 包已通过:
git clone https://github.com/lancelin111/crawl4ai-skill.git
cd crawl4ai-skill
# 可选:使用 bandit 审计代码
pip install bandit
bandit -r src/
# 安装
pip install -e .
crawl4ai-skill search "python web scraping"
crawl4ai-skill crawl https://example.com -o page.md
crawl4ai-skill crawl-site https://docs.example.com --max-pages 50
crawl4ai-skill search-and-crawl "AI tutorials" --crawl-top 3
对于 JavaScript 渲染的动态页面(如雪球、知乎等),使用 --wait-until 和 --delay 参数:
# 等待网络空闲 + 额外等待 2 秒
crawl4ai-skill crawl https://xueqiu.com/S/BIDU --wait-until networkidle --delay 2
# 等待特定元素出现
crawl4ai-skill crawl https://example.com --wait-for ".content-loaded"
| 参数 | 说明 |
|---|---|
--wait-until |
等待策略:domcontentloaded(默认), networkidle(推荐动态页面), load, commit |
--delay |
返回前额外等待时间(秒) |
--wait-for |
等待特定 CSS 选择器元素出现 |
| 命令 | 说明 |
|---|---|
search <query> |
搜索网页 |
crawl <url> |
爬取单页 |
crawl-site <url> |
爬取全站 |
search-and-crawl <query> |
搜索并爬取 |
| 格式 | 说明 |
|---|---|
fit_markdown |
优化后的 Markdown,去除冗余(推荐) |
markdown_with_citations |
带引用列表,便于溯源 |
raw_markdown |
原始 Markdown |
这个项目的诞生,离不开以下优秀的开源项目:
一个真正为 LLM 设计的爬虫引擎。
当我第一次看到 crawl4ai 的 Fit Markdown 输出时,我被震撼了。它不是简单地把 HTML 转成 Markdown,而是智能地提取核心内容,去除导航、广告、侧边栏等噪音。这正是 AI 需要的输入格式 —— 干净、精炼、直击要点。
crawl4ai 的 PruningContentFilter 和 DefaultMarkdownGenerator 是本项目 Markdown 生成的核心。感谢 @unclecode 创造了这个强大的工具。
免 API key 的搜索能力来自这个项目。简单、可靠、无需注册。
如果这个项目对你有帮助,请给上面这些项目一个 Star
它们才是真正的英雄。
MIT License
Built with open source