数据采集组件俗称“网络爬虫”,其目的就是通过程序自动到目标网站上下载相关的网页数据或文档数据,并将抓取到的信息传送到数据处理引擎进行后续的处理。有些接触过数据采集的用户往往会认为这不就是一个简单的数据采集程序而已,没什么难度。是的,确实是这样,如果只采集一两个网页乃至于上千个网页信息这样的采集程序确实不难写。
而瞬速科技的数据采集组件面向的显然不是这种只采集极少数量的用户。我们的目标是海量的网页信息采集,这时我们需要面对的是复杂的网络环境。需要解决诸如网站编码不一、网站需要登录验证、网站数据加密、网页多页排版等情况。还需要解决哪些网页已采集,哪些网页未采集等查重问题。中间的任何一个环节没有处理好,都会导致整个采集组件无法有效、高效地完成采集任务。那么,我们在此一起深入瞬速科技采集组件能达到何种效果。
Ⅰ 我们的网络数据采集组件是基于VC开发的,其比其它的用C#、JAVA等实现的采集程序更具有高效。依托微软的底层通过异步的形式实现,除了比其它的同步的形式的采集组件更高效外,还可以更好地模拟实际人为访问的习惯。
简单易懂的配置界面
自动对需要采集的信息进行分类
Ⅱ 当网页数据被下载到本地后,开发将面对网页的编码不一的境界,有些网页是用UTF8格式,而有些则是用UNICODE,其它的是用GB2312。看到的一些还是用GBK编码。如果是采集少数民旅语言的网页则一些连看都不看不懂(指的是不懂相应的语言)的形式进行编码。如何将这种繁多的编码格式统一转换成一种可供处理程序统一处理的编码是软件开发人员必须面对的问题。现在瞬速信息采集组件已解决了这个问题,瞬速统一编码器枚举了当前常见的数十种编码格式,当采集到的网页将会被送到我们的网页编码器进行识别与转换。从而为后续的网页处理程序提供了统一编码格式的数据源。而处理程序则不必困扰于网页的风格迥异的问题。
Ⅲ 现在很多的网页都是通过将一篇文章拆分成多个页面展示。而且这样的网页分页是网格是无规律的。如此一来采集组件就要求能够自动识别这些分页,并能够自动重组这些网页整一条完整的记录。很多采集组件往往是通过配置规则来实现,往往能实现几种风格的分页,而我们的采集组件可以自动识别这些分页风格。使得对于使用用户来说无需经过复杂的配置就可以达到完整采集的目的。
分布于多页的信息示例
自动对分布于多页的信息重组
Ⅳ 采集组件如何知道采集目标网站上哪些链接是新增的、哪些是已采集的、哪些是已更新的,是一个成熟的采集组件所必须解决的。为了高效地识别哪些链接是处于什么样的状态,我们摒弃了纯数据库的日志查询模式,使用独创的二次方程进行计算产生位值,最终通位值映射到二维矩阵网进行判断。其查重速度和性能大大优于纯数据库索引形式的查重。
Ⅴ 我们的采集组件是为了满足复杂的业务需求而设计,然而在面对复杂的业务要求,需要采集组件能够自由地适应业务开发的需求。我们的采集组件可通过LUA脚本的形式进行扩展。可以识别整站的目标分类,并自动通过分类构建相应的采集分类,可以通过脚本从其它的网站整合其它的数据。如从招聘网站上抽取企业的信息,而从商城网站上抽取其发布的商品信息。
Ⅵ 更多的有关我们的采集组件的特色功能可以参照我们的性能参数表……
序号 | 组件功能 | 支持 |
---|---|---|
01 | 多种语言支持,支持少数民族语言的网页数据采集 | √ |
02 | 支持多种格式的编码:GBK、BIG5、UNICODE、UTF8,软件自动转换 | √ |
03 | 支持分布式采集部署 | √ |
04 | 相关图片自动下载到本地 | √ |
05 | 支持按监测主题生成快照文件 | √ |
06 | 支持静态网页网站(.htm, .html, .shtml) | √ |
07 | 支持动态网页网站(ASP,ASP.NET, PHP,JSP, CFM, CGI…) | √ |
08 | 支持Web 2.0 AJAX 动态网站 | √ |
09 | 支持采用了防盗链措施的网站 | √ |
10 | 支持采用了HTTPS通信加密的网站 | √ |
11 | 支持对查询次数限制作了限制的网站 | √ |
12 | 支持用户名、密码、验证码、需回复的自动登陆 | √ |
13 | 支持海量信息采集,可下载各种类型文件 | √ |
14 | 自动获取动态IP功能,可防止个别网站进行反监测 | √ |
15 | 数据增量采集,支持自动、实时更新 | √ |
16 | 支持每类采集信息的自定义来源和分类 | √ |
17 | 支持智能采集功能,可以将内容中嵌入的所有无关部分如广告去除 | √ |
18 | 支持多页面文章内容自动抽取与合并 | √ |
19 | 支持记录唯一索引,避免相同信息重复入库 | √ |
20 | 支持境外网站的采集 | √ |
21 | 支持简体转繁体,繁体转简体 | √ |
22 | 支持支持RSS页面的解析 | √ |
23 | 支持内外网数据同步存储 | √ |
24 | 支持相关图片入库 | √ |
25 | 支持图片先压缩再入库 | √ |
26 | 支持需要POST数据采集 | √ |
27 | 支持采集提取特殊链接地址的网站 | √ |
28 | 支持按列表的分页采集 | √ |
29 | 支持扩展字段采集如车牌号、手机、电话之类的 | √ |
30 | 支持FLASH下载 | √ |
31 | 支持视频文件下载 | √ |
32 | 支持WORD、EXCEL等文件的下载 | √ |
33 | 支持从纯文本类的信息采集 | √ |
34 | 支持自定义添加监测网站 | √ |
35 | 支持自定义添加监测网站的采集深度 | √ |
36 | 支持按监测站点的重要级别调度采集站点 | √ |
37 | 支持自动识别论坛回贴 | √ |
38 | 支持脚本动态摸拟多种业务综合采集 | √ |
01.一种互联网新闻网页的采集分析方法 |
设计了一种采集分析互联网新闻网页的方法。该方法根据给定的新闻网站的入口地址在网络上找出所有的相关链接;区分这些链接所指向的页面特征,过滤掉相关性不大的内容,提取所有新闻网页的链接;进而进行多层次链接分析,根据新闻的图片、标题字体属性及日期,采用NewsPageRank算法计算每个新闻链接的权重。测试结果表明该方法对Internet上的新闻站点普遍具有较好的分析效果。性能可以满足实用要求。 |
02.一种基于网页指纹的网页查重技术研究 |
研究网页查重问题。针对传统的SCAM网页查重算法根据比较几个关键词网页中出现次数来判断网页是否重复,当网站中存在相似网页时,由于其关键词非常相近,导致出现误判,造成查重准确率不高的问题。本文提出一种网页指纹查重算法,通过采用信息检索技术,提取出待检测网页的网页指纹,然后通过与网页库中的网页指纹比较判决,完成网页的查重,避免了传统方法只依靠几个关键词而造成的查重准确率不高的问题。实验证明,这种利用网页指纹查重的方法能准确判断网页是否重复,提高了网页信息的准确性,取得了满意的结果。 |
03.通用互联网信息采集系统的设计与初步实现 |
通过建立网页资源库,结合Spider技术、内容分析技术、引入用户数据项和替换抽取指令编辑器等,提供和定制可视化通用性较强的互联网信息采集系统,能定期自动跟踪相关网或网页进行比较分析、抽取、规整入库、分类等,从互联网上获取所需信息。 |
04.分布式Web信息采集系统的研究与设计 |
WEB信息的急速膨胀,使得WEB信息采集面临一个巨大的挑战。针对这一情况,实现了一个分布式WEB信息采集系统,以提高一般WEB信息采集的能力。文章论述了分布式信息采集的基本原理、分类、难点以及相应的对策,并就该分布式WEB信息采集系统进行了仔细的剖析。最后,对分布式WEB信息采集的发展作了一个展望。 |
05.www 论坛中的动态网页采集 |
网络论坛已经成为互联网信息发布的主要形式,对论坛信息的检索和挖掘都涉及到论坛信息的获取,然而传统的针对静态网页的广度优先采集工具,不能有效地获取论坛信息。该文利用论坛的结构特点,提出了一种“版面-主题关联判断”(BTJC)算法,采用一种基于版面扩展的采集策略。实验证明,该方法在论坛采集准确率和覆盖率方面显著于优广度优先策略;具有良好的泛化能力,应用在实跟中已覆盖各种类型的论坛12000余个。 |