分布式爬虫技术架构

来源：测品娱乐

分布式爬⾍技术架构

Spiderman 是⼀个Java开源Web数据抽取⼯具。它能够收集指定的Web页⾯并从这些页⾯中提取有⽤的数据。 Spiderman主要是运⽤了像XPath、正则、表达式引擎等这些技术来实现数据抽取。

项⽬结构：依赖关系如下：

webmagic

webmagic采⽤完全模块化的设计，功能覆盖整个爬⾍的⽣命周期(链接提取、页⾯下载、内容抽取、持久化)，⽀持多线程抓取，分布式抓取，并⽀持⾃动重试、⾃定义UA/cookie等功能。

⼯程结构：⼯程间的关系：

众推

⽤整体正在进⾏中，⽬前积中在分布式爬⾍阶段。⽬前设计阶段的结构为：基本思想为：

WEB：界⾯及功能部分。SAMPLES：⽰例部分。CORE：需要调⽤的核⼼包。RULES：规则处理部分。PARSERS：解析部分。PLUGIN：插件部分。CDOOP：分布式处理部分。ADAPTER：代理适配部分。STORE：存储层。⽬前项⽬的地址在：

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

违法及侵权请联系：TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务