当我们的采集组件从网络上采集到大量的数据后,采集到的网页数据中包含有大量的广告信息、导航链接或者一些与主题无关的信息。如何从这些海量的信息中剔除掉无效的信息,并自动抽取与我们业务相关的数据。就需要一个可以自动适应或可灵活配置的网页信息抽取组件。通过该组件我们可以从新闻网页中抽取出新闻文章和相关的图片,可以从房产信息网页中抽取出与房产信息的各个元数据如房产名称、位置、业主、装修情况等。可以从机票网上采集的网页中提取出各大机票官网的各个行程的最新优惠价格等。由于我们需要抽取的网页还可能分布于多个网页上,甚至于分布于几个不同的网站,就需要网页抽取组件能够与采集组件进行灵活的互动,从而整合成一条完整的记录。从而为数据应业务系统提供高效、完整、实时的数据。
瞬速科技的网页组件基于多年的数据抽取经验的基础上进行研发,集成了多种数据抽取的便捷算法。可以通过基于人工智能学习的模式对新闻内的网页进行识别新闻文章,并可以自动对分布于多页的新闻网页进行重组;可以通过正则表达式、前后智能标签等对网页的元数据进行抽取;可以对采集到的编码格式的数据进行解码成人工可阅读的形式。
Ⅰ 当我们需要采集的网页来自于四面八方,每个网站的风格各不相同如何从这些网页中正确地抽取出主体内容是网页抽取组件必须解决的课题之一。文章内容识别一般分为两种形式,一是通过配置模板规则,这种需要分析每个网站的网页风格,然后通过正则表达式或前后标识符的形式进行提取。另一种是基于人工智能的方式自动识别,无需通过模板。前者需要配置大量的规则,而后者则具备有自动识别的功能。瞬速网页抽取组件采用的是智能识别抽取,无需配置规则即可实现自动抽取。
自动识别网页演示效果
Ⅱ HTML网页有一套自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置、版式等。提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。但在识别这些信息的时候,需要同步记录许多版式信息,例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等.这些信息有助于计算单词在网页中的重要程度。我们的网页抽取组件是支持这样的设置,可以支持是否保留原文的版式以备后续的分析系统选用。
保留原文的排版并高亮标注重点内容
Ⅲ 网页抽取组件支持多种语言的识别,除了支持简体中文外,还支持繁体中文、英文、日本、韩文以及少数民族语言。只有支持多语言的网页抽取组件才能满足大数据时代下的复杂的网页信息抽取。
其它语言网页内容抽取效果(以上为俄文网页)
Ⅳ 自主研发的HTML结构分析树,通过C++对输入的网页数据流进行高速解析整个网页的结构,并在解析的过程中初步定位网页的主体结构所在的位置,从而为后续的网页元数据抽取提供了第一手数据。由于网页代码的风格不一,各个程序员所写的网页规范性也不一样,如果将成千上万篇的网页都能适应到该网页结构树,我们的HTML结构分析权算法几经多次的研究与实验,并经过了数百万个网页的压力考验,现已可以满足99%以上的网页内容分析与抽取。
高效准确的HTML结构分析树算法
Ⅴ 网页抽取组件除了具备智能识别外,还可以结合多种形式的网页结构化方法,并可以交叉组合使用,以满足不同的业务下的不同的字段内容的抽取。并可以对分布于多个页面的内容进行重组处理。
多种抽取方式交叉组合使用以满足不同的业务抽取需求
序号 | 组件功能 | 支持 |
---|---|---|
01 | 支持文章主体内容智能识别 | √ |
02 | 支持文章要素(作者、来源、发表时间)自动识别与提取 | √ |
03 | 支持自定义要素(如车牌、地点等)的抽取 | √ |
04 | 支持自动识别文章相关的图片(位于文章主体前、中、后) | √ |
05 | 支持文章相关的附件识别(如.doc,.pdf,.rar等相关文件的识别) | √ |
06 | 支持分布于多页面上的内容识别与重组(如一篇文章分成多页展现) | √ |
07 | 支持多种类型的时间格式转换为统一的时间格式(如2013/01/01、2013年07月01) | √ |
08 | 支持通过正则表式达式方式的内容抽取方式 | √ |
09 | 支持通过智能标签形式的内容抽取(如“房型:三房二厅“) | √ |
10 | 支持通过二级前后标识符的形式对内容进行抽取 | √ |
11 | 支持多表关联模式的网页内容抽取(如一个贴子有多个回贴) | √ |
12 | 支持将一个页面上的记录拆分成多条记录(如微博形式的数据抽取) | √ |
13 | 支持保留网页的原始排版,也可以支持对抽取到的内容二次排版 | √ |
14 | 支持对少数民族语言的网页结构化识别 | √ |
15 | 支持通过脚本扩展形式对复杂的业务要求进行抽取 | √ |
16 | 支持对已编码的内容进行反向解码处理 | √ |
17 | 支持对同一个网页的更新式的内容抽取(如网页上仅“优惠价格”变化) | √ |
企业名录抽取应用
文献期刊抽取应用
机票酒店数据采集应用
01.基于统计的网页正文信息抽取方法的研究 |
为了把自然语言处理技术有效的运用到网页文档中,本文提出了一种依靠统计信息,从中文新闻类网页中抽取正文内容的方法。该方法先根据网页中的HTML标记把网页表示成一棵树,然后利用树中每个结点包含的中文字符数从中选择包含正文信息的结点。该方法克服了传统的网页内容抽取方法需要针对不同的数据源构造不同的包装器的缺点,具有简单、准确的特点,试验表明该方法的抽取准确率可以达到95%以上。采用该方法实现的网页文本抽取工具目前为一个面向旅游领域的问答系统提供语料支持,很好的满足了问答系统的需求。 |
02.基于视觉热区的网页内容抽取方法 |
对网页抽取进行研究,提出一种新的网页正文信息提取方法,它利用网页布局特征与网页视觉热区来确定网页正文信息。首先选取网页的一部分区域作为网页视觉热区,通过文档对象模型得到候选正文信息块,在此基础上,给出候选正文信息块重要度函数确定网页正文信息。实验结果表明,该方法具有良好的性能。 |
03.基于结构树的网页正文内容抽取方法 |
网页文本抽取是一种在互联网上运用广泛的数据挖掘技术,主要目的是把一个网页的主题内容抽取出来,为Web数据挖掘提供好的基础数据。基于网页树形结构进行改进,首先对网页进行分块,把每一块存储在树形结构当中,然后通过对所有块进行方差和阈值计算,选择出主题信息。该方法相比传统的基于正则表达式的抽取方法,具有简单、实用的特点。实验结果表明,该抽取方法准确率达到96%。 |
04.基于DOM和网页模板的Web信息抽取 |
文章提出了一种基于DOM(文档结构模型)和网页模板的WEB信息提取方法.参照DOM的定义,通过构造HTML解析树来描述网页结构.在抽取网页之前,先通过归纳网页模板来过滤网页中的噪音信息。然后,使用基于相对路径的抽取规则来进行信息抽取。 |
05.网页正文提取方法研究 |
网络成为人们获取信息的重要途径。而网页上的内容除了主题内容外,还有如广告、版权信息、欢迎信息等与主题无关的内容,如何将网页中的正文内容提取出来已经成为机器学习和数据挖掘界的一个研究热点。本文将对网页正文提取方法的研究现状做一个简要介绍,并对未来的研究工作进行展望。 |
06.基于内容相似度的网页正文提取 |
提出一种将复杂的网页脚本进行简化并映射成一棵易于操作的树型结构的方法。该方法不依赖于DOM树,无须用HTMLparser包进行解析,而是利用文本相似度计算方法,通过计算树节点中文本内容与各级标题的相似度判定小块文本信息的有用性,由此进行网页清洗与正文抽取,获得网页文本信息,实验结果表明,该方法对正文抽取具有较高的通用性与准确率。 |
07.网页内容安全快速信息抽取方法 |
文章提出一种基于静态网页特征的文本信息抽取方法。该方法首先根据静态网页的URL特征判断其是否是静态网页,然后根据静态网页的结构特征和内容特征对标题和正文文本内容进行抽取.再按照统一规范将结果顺序存储便于再处理。实验结果表明,网页内容信息抽取的查全率和查准率分别为96.2%和95.9%,该方法计算量小、抽取速度快、正确率高,可实际应用于大规模的网页内容安全分析。 |
08.网页信息抽取及其自动文本分类的实现 |
Web页面中常包含非主题信息的内容,网页必须剔除这些无用的信息后才能形成有用的文本信息。文本分类对文本信息的进一步加工处理至关重要,是信息搜索领域的另一研究课题。为了剔除网页中的无用信息,提出一种基于HTML自身结构特点的网页正文信息抽取方法,同时结合文章标题信息,实现文本自动分类的简易分类方法。该方法可以提高网页正文提取及其自动文本分类的效率。实验证明,该方法是可行的。 |
09.基于逻辑行和最大接纳距离的网页正文抽取 |
网页正文抽取是很多互联网应用的基础工作和必须解决的问题。目前的主流方法是基于DOM树结构,此方法需要解析出 网页的DOM树结构。 对于目前互联网上的网页来源众多、结构众多的情形,基于DOM树的处理方法除了性能不足以外,还会遇到抽取精度上的问题。针对这些问题,该文提出了一个网页正文抽取的新方法,该方法不依赖DOM树,而是考虑人们编写网页的方式形成一些启发式规则,并结合相关的统计规律,以逻辑行为基本处理单位,基于最大接纳距离进行网页正文抽取。实验表明,论文的方法能够高效、高精度地抽取出网页正文。 |
10.维吾尔文网页正文抽取系统的研究与实现 |
从构建大规模维吾尔文语料库的角度出发,归纳总结各类网页正文抽取技术,提出一种基于文本句长特征的网页正文抽取方法。该方法定义一系列过滤和替换规则对网页源码进行预处理,根据文本句长特征来判断文本段是否为网页正文。整个处理过程不依赖DOM树型结构,克服了基于DOM树结构进行正文抽取方法的性能缺陷。实验结果表明,对于维文各类型的网页正文提取,该方法均具有较高的准确度和较好通用性。 |
11.基于新型坐标树的页面分析和内容提取框架 |
针对HTML的半结构化特片和DOM缺乏位置信息和空间关系描述的不足,本文提出了一种新型的WEB页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的页面坐标树模型,还包括能反映空间关系的GRAPH模型。通过将HTML文档转换为坐标树,并结合位置特征和空间关系可对网页进行分析和提取内容。 |