您好,欢迎来到测品娱乐。
搜索
您的当前位置:首页分布式爬虫技术架构

分布式爬虫技术架构

来源:测品娱乐
分布式爬⾍技术架构

Spiderman 是⼀个Java开源Web数据抽取⼯具。它能够收集指定的Web页⾯并从这些页⾯中提取有⽤的数据。 Spiderman主要是运⽤了像XPath、正则、表达式引擎等这些技术来实现数据抽取。

项⽬结构:依赖关系如下:

webmagic

webmagic采⽤完全模块化的设计,功能覆盖整个爬⾍的⽣命周期(链接提取、页⾯下载、内容抽取、持久化),⽀持多线程抓取,分布式抓取,并⽀持⾃动重试、⾃定义UA/cookie等功能。

⼯程结构:⼯程间的关系:

众推

⽤整体正在进⾏中,⽬前积中在分布式爬⾍阶段。⽬前设计阶段的结构为:基本思想为:

WEB:界⾯及功能部分。SAMPLES:⽰例部分。CORE:需要调⽤的核⼼包。RULES:规则处理部分。PARSERS:解析部分。PLUGIN:插件部分。CDOOP:分布式处理部分。ADAPTER:代理适配部分。STORE:存储层。⽬前项⽬的地址在:

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- cepb.cn 版权所有 湘ICP备2022005869号-7

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务