Crawlee-Python: エンドツーエンドのウェブクローラーとブラウザ自動化のオープンソースプロジェクト
人間らしい動作でのクローリングが可能で、アンチクローリングシステムを効果的に回避
2つの主要なクローラータイプを提供:
· BeautifulSoupCrawler: HTTPライブラリを用いた軽量クローラーで、静的なウェブページ向き
· PlaywrightCrawler: ヘッドレスブラウザを用いた高機能クローラーで、JavaScript実行が必要な動的なページ向き
💡主な利点:
- HTTPとヘッドレスブラウザのクローリングを統一したインターフェースでサポート
- システムリソースに基づいた自動並列クローリング
- 完全なタイプヒントサポートで開発体験を向上
- 自動リトライとプロキシのローテーション機能
- URLキュー管理とデータストレージ機能を内蔵
🚇利用シーン:
- AIやLLMのデータ収集
- RAGシステムのデータ取得
- ウェブサイトコンテンツのダウンロード(HTML、PDF、画像など)
- アンチクローリングを回避する必要があるシーン
オープンソースリポジトリ:
https://github.com/apify/crawlee-python