博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
分布式爬虫技术架构
阅读量:6759 次
发布时间:2019-06-26

本文共 410 字,大约阅读时间需要 1 分钟。

Spiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等这些技术来实现数据抽取。

项目结构:

依赖关系如下:

webmagic

webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。

工程结构:

工程间的关系:

众推

用整体正在进行中,目前积中在分布式爬虫阶段。

目前设计阶段的结构为:

基本思想为:

WEB:界面及功能部分。

SAMPLES:示例部分。

CORE:需要调用的核心包。

RULES:规则处理部分。

PARSERS:解析部分。

PLUGIN:插件部分。

CDOOP:分布式处理部分。

ADAPTER:代理适配部分。

STORE:存储层。

目前项目的地址在:

转载地址:http://xnzeo.baihongyu.com/

你可能感兴趣的文章
关于c语言的输入输出
查看>>
(三)springmvc+mybatis+dubbo+zookeeper分布式架构 整合 - maven模块规划
查看>>
OC语言 关于description的探讨
查看>>
windows串口通信的一个活动图
查看>>
递归算法题
查看>>
【Algorithm】转一个ACM训练计划
查看>>
HashSet其实就那么一回事儿之源码浅析
查看>>
浏览器的标准模式和怪异模式
查看>>
[C#]分享一个以前的项目使用的DataBaseAccess类
查看>>
POJ-2236-Wireless Network
查看>>
ASP.NET引用母版页属性的问题
查看>>
JavaScript 模块模式
查看>>
链接返回上级或事件返回上级
查看>>
ROS学习之catkin_make
查看>>
Android中的颜色值RGB对照表表
查看>>
css单位
查看>>
jquery.validate remote BUG
查看>>
一百元的智能家居——Asp.Net Mvc Api+讯飞语音+Android+Arduino
查看>>
C/C++变量命名规则
查看>>
pandas安装及使用
查看>>