分布式爬⾍技术架构
Spiderman 是⼀个Java开源Web数据抽取⼯具。它能够收集指定的Web页⾯并从这些页⾯中提取有⽤的数据。 Spiderman主要是运⽤了像XPath、正则、表达式引擎等这些技术来实现数据抽取。
项⽬结构:依赖关系如下:
webmagic
webmagic采⽤完全模块化的设计,功能覆盖整个爬⾍的⽣命周期(链接提取、页⾯下载、内容抽取、持久化),⽀持多线程抓取,分布式抓取,并⽀持⾃动重试、⾃定义UA/cookie等功能。
⼯程结构:⼯程间的关系:
众推
⽤整体正在进⾏中,⽬前积中在分布式爬⾍阶段。⽬前设计阶段的结构为:基本思想为:
WEB:界⾯及功能部分。SAMPLES:⽰例部分。CORE:需要调⽤的核⼼包。RULES:规则处理部分。PARSERS:解析部分。PLUGIN:插件部分。CDOOP:分布式处理部分。ADAPTER:代理适配部分。STORE:存储层。⽬前项⽬的地址在: