【原创python开发淘宝优惠券搜索引擎】http://www.tbquan.cn(谢谢支持!)【原创python开发淘宝优惠券搜索引擎】http://www.tbquan.cn大数据项目实战系列博文开启,记得关注微信公众号哦~觉得不错,记得收藏!>>
站长原创网站:淘宝优惠券 | (已上线,谢谢支持) | 百度云搜索-淘宝圈 | 雷乾坤编程学习导航(待完善) | 攻城狮VIP影院(搜看各种vip) | 攻城狮VIP解析站(搜看各种vip) | it快速自学搜索

可代理办理各大银行信用卡赚取佣金,银行正规内部渠道(也可自己申请各大银行信用卡):http://www.buglib.cn/?id=5

Web数据采集系统

开发背景 

  随着用户对信息获取速度的要求,很多网站开始做面向各行各业的垂直搜索引擎,垂直搜索引擎最核心的就是准确及时的获取数据源。本系统的设计目标就是为了满足这个需求。给垂直搜索引擎提供准确及时是数据采集服务。
  本系统同样能够给信息类网站提供内容采集服务,以提高网站的信息量。

适应客户群 

1. 政府机关 
  实时跟踪、采集与业务工作相关的信息。 
  全面满足内部工作人员对互联网信息的全局观测需求。 
  及时解决政务外网、政务内网的信息源问题,实现动态发布。 
  快速解决政府主网站对各地级子网站的信息获取需求。 
  全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有效沟通。 
  节约信息采集的人力、物力、时间,提高办公效率。 
2. 企业 
  实时准确地监控、追踪竞争对手动态,是企业获取竞争情报的利器。 
  及时获取竞争对手的公开信息以便研究同行业的发展与市场需求。 
  为企业决策部门和管理层提供便捷、多途径的企业战略决策工具。 
  大幅度地提高企业获取、利用情报的效率,节省情报信息收集、存储、挖掘的相关费用,是提高企业核心竞争力的关键。 
  提高企业整体分析研究能力、市场快速反应能力,建立起以知识管理为核心的竞争情报数据仓库,提高核心竞争力。 
3. 新闻媒体 
  快速准确地自动跟踪、采集数千家网络媒体信息,扩大新闻线索,提高采集速度。 
  支持每天对数万条新闻进行有效抓取。监控范围的深度、广度可以自行设定。 
  支持对所需内容的智能提取、审核。 
  实现互联网信息内容采集、浏览、编辑、管理、发布的一体化。 
4. 信息应用系统 
  垂直搜索引擎 
  网络舆情监控系统 
  竞争情报分析系统 
  行业知识库 
  其它需要互联网海量信息作为数据源的应用系统

功能介绍 

  本系统提供对互联网数据进行采集的服务。
  根据用户事先配置好的规则(网页下载规则,网页解析规则等),进行数据采集。
  当对方网站数据进行了更新,或者添加新数据时,系统自动会进行检测,并进行采集,然后更新到自己的数据库(或者别的存储方式),这个过程不再需要人工干涉。 
  对需要登录的网站可以根据设定好的帐号密码进行自动登录,以便采集登录后才能获取的数据 
  本系统采用分布式处理,可以通过采集管理平台把采集任务发布到不同的服务器,能够进行对大量数据源网站进行高频率的并行监控采集。
  对服务器群管理方便快捷,通过采集管理平台进行统一管理,监控,统计,分析。
  本系统主要适合于对数据量要求大的行业垂直搜索引擎和情报分析系统的数据采集,也适合于一些对数据量要求不高的信息发布网站。 
  本系统采用插件方式,对采集来的数据可以进行修正。对输出方式可以通过插件自由定制。可扩展性高。
  当前比较多的采集软件是单独发布到客户端的方式,也就是单机版。用户安装软件后,可以在自己的单机进行采集。有些采用WEB的方式,直接在线采集。而本系统采用WEB方式配置采集参数,然后把配置好的采集参数形成XML配置文件,作为任务发布到其他采集服务器,多台服务器进行后台分布式采集。适用于大型项目对海量网页数据的抓取和分析。是专为数据采集用户设计的专业级产品。

名词解释 

  爬虫配置 - 爬虫使用的规则配置
  解析配置 - 解析使用的规则配置
  网页爬虫 - 把指定网站的网页按爬虫配置下载到本地的程序
  网页解析 - 对下载到本地的网页按解析配置进行解析的程序
  采集任务 - 由爬虫配置和解析配置组合成的采集规则
  管理进程 - 运行在各个采集服务器,接收采集管理平台命令,进行采集任务的管理和状态反馈
  采集进程 - 运行在各个采集服务器提供的采集服务的进程,通过管理进程与管理平台进行交互
  采集管理平台 - 负责其他所有采集进程的管理和任务分配,采集任务的创建管理。与其他采集进程通过管理进程进行通讯。
  采集服务器 - 运行采集进程的服务器硬件
  管理服务器 - 运行采集管理平台的服务器硬件
  输出插件 - 采集到的结果输出调用的插件。
  修正插件 - 对采集到的数据进行修正或者重组的插件。

模块组成 

  1. 网页下载配置 
    负责制定网页下载规则,登录设置,下载策略设置。主要供网页下载进程使用。 
  2. 网页下载进程 
    根据网页下载配置的规则进行网页下载。等待网页解析进程进行解析 
  3. 网页解析配置 
    负责制定网页解析规则,选择结果修正方法,并进行采集测试。 
  4. 网页解析进程 
    根据网页解析配置对下载到的网页进行解析修正,然后通过插件输出到指定存储方式 
  5. 采集任务配置 
    把网页下载配置和网页解析配置(多选)组合起来,然后设置输出方式(多选)。 
  6. 采集任务测试和分配 
    可以对采集配置角色提交的任务进行测试检验,合格后发布到采集服务器上(通过XML格式配置文件)。 
  7. 角色管理 
    对采集配置角色,任务分配角色,系统管理角色三种角色的帐号管理。 

  8. 采集服务器的管理,监控,统计,分析等 
    通过对服务进程发命令的方式,获取采集服务器的信息,进行管理,监控,统计,分析。 
  9. 数据的导入,导出,备份等 
    对已经配置好的采集任务以及其他数据进行数据库备份,对任务进行导入导出,以便发布到其他采集管理平台。 
  10. 插件管理发布 
    对不断新增的插件进行上传,发布,管理。 
  11. 服务进程 
    运行在每台采集服务器,响应采集管理平台的命令,负责对采集服务器的管理和状态反馈。

运行部署 

  采集管理平台 
    运行在一台服务器,负责其他所有采集服务器的管理,监控,统计,分析和任务分配。与其他采集服务器采用HTTP协议发送查询命令,然后返回要查询的相关信息。 
  采集进程 
    每台采集服务器运行10个采集进程。每个进程负责多个采集任务,任务越多,数据更新的频率就越低。 
    所以服务器越多,分配给每个进程的任务就越少,数据更新的频率就越高。数据采集的效率就越高。

维护管理监控 

  系统安装完毕后,维护主要通过基于WEB的采集管理平台。可以通过管理平台创建分配采集任务,监控每台服务器的运行状态,采集数据的统计,以及性能分析。根据分析结果可以调整服务器的运行配置,以便于更充分的利用硬件资源。 
  数据源网站的采集配置采用分用户的管理方式,用户分三种角色采集配置角色,任务分配角色,系统管理角色。 
  采集配置角色 
    用户可以配置管理自己的采集工程,配置完成的工程才可以提交给任务分配角色。 
  任务分配角色 
    对采集配置角色提交上来的工程进行测试,测试成功后分配给采集服务器处理,否则驳回,另外具有服务器运行状态, 
    数据统计,性能分析等权限,可以根据分析结果进行采集任务分配。 
  系统管理角色 
    具有以上两者所有权限,并具有用户帐号管理,系统参数数据管理等所有权限。 
  另外对系统的稳定性和准确性采取如下措施: 
  进程监控: 
    对采集进程和管理进程的监控,采取在管理服务器定期对每个服务器进行检查的方式,发送一个检查指令,判断某台采集服务器上这两个进程的运行状态,出现异常则报警。 
  采集监控: 
    为了防止目标网站的网页模板变化,采取对采集结果进行监控的方式,如果长时间没有数据采集成功,则进行报警。也可以通过命令服务进程检查每个采集任务的状态。

软硬件要求 

  软件: 
    跨平台,对操作系统无要求,建议使用Windows Server 2008 R2操作系统,安全稳定可靠。 
    .net 4.0或以上。 
  硬件: 
    硬件要求低,能运行C#虚拟机即可。 
    建议带宽10Mbps。 
    最低配置:CPU频率:1GHz, 内存1GB,硬盘70G。 
    建议配置:CPU频率:2.5GHz, 内存6GB,硬盘2TG

性能分析 

  如果以每台服务器运行2个采集爬虫,带宽在10Mbps为准。在数据源网站不存在带宽瓶颈的情况下,每小时采集大概6万个网页(网页平均大小60KB)。对于大量的数据,建议采用分布式的服务器群进行采集。

更多

名字:

个人主页地址:

E-mail:

内容:

评论列表