以Google为代表的通用搜索引擎已经成为人们在Web上检索信息的主要方式。然而,这些搜索引擎并不能满足所有用户的需要,有一部分用户对网上信息的利用有着特殊的方式。例如:企业内部OA系统的信息检索、企业通过特定网站随时获得竞争对手的情报以及商品原材料的供求信息;消费者关注购物网站上的特价商品动态;求职者在特定网站上了解最新的招聘单位信息等等。这一类用户对信息的获取有共同的特点:目标网站明确集中、目标网页涉及特定的主题、对信息的实时性要求比较高。通用搜索引擎无法很好的满足这类用户的要求。
为了使得各个来源的信息得到充分利用,最大程度地实现资源共享,避免重复建设为目标,基于统一的标准、技术架构、网络环境,利用先进的信息技术和网络技术手段,通过对知识管理流程和企业的功能需求的系统梳理,实现显性知识和隐性知识的获取、整合、利用和创新。通过知识资源门户对用户提供服务。
Ⅰ 智能关联检索 对于诸如网络上采集的文献信息、药品信息、药企厂商等多维信息以及非结构化数据,需要有智能的全库关联检索工具进行模糊检索,在海量信息中检索出全部可能的内容,提供多种检索方式检索(如字段内检索、跨字段检索、字段组合检索、关联检索、潜在关联等),并通过多维度排序或者相关度排序、筛选功能,直至找出目标信息。查询检索界面也应该足够简单,不需要用户了解具体线索应该对应到哪个数据表的哪个字段去查询,而能够快速找的相关的目标信息。
数据处理流程图
Ⅱ 针对不同形式的数据来源,系统会智能的以不同的展现形式提供给用户。例如:对于搜索结果来源于网页的内容,界面上会显示标题,网页摘要,URL时间,网页预览,数据来源等;对于搜索结果来源于数据库的内容,界面上会显示出数据库的主键,各个字段的名称和内容,数据的来源等,并可提供连接直接读取数据库中该条记录。针对码表显示的字段,检索结果能自动显示真实的信息内容,对于有关联的记录和包含附件的记录,检索结果还能提供相关链接,方便用户的查询。 系统提供了多种检索手段:各种逻辑运算符(逻辑或、与、非)组合检索、二次检索、渐进检索、追问内容关联检索、同义词检索。
文本索引结构图 | 分布式索引图 |
Ⅲ 高级搜索功能。可以使用关联规则等多种方式分析相关搜索词。例如当用户搜索安利时,会出现像:雅芳 直销 这样的非字面扩展的相关搜索词。当用户搜索 奔驰 也会出现 奥迪 欧宝 宝马 这样的同类品牌。这些相关搜索词都是机器自动生成而非人工干预的结果。支持包括按关键字查询和词组查询,组合查询,以及查询修饰符等。举例如下:
任意字符匹配 | Ro?e |
前缀匹配 | rom* |
模糊匹配 | rome~ rome~0.8 |
把搜索范围限定在标题中 | title:木工 |
把搜索范围限定在内容中 | body:机械 |
逻辑查询 | 电脑 && !IBM |
增加关键词的重要度 | 相机^4 手机 |
Ⅳ 调用接口 各单位都会建设各种各样的业务管理系统,而且开发的环境也各有不同,如Visual C++、Vissual Basic、Borland C++、Borland Delphi、WEB 和UNIX等开发环境,当涉及以上信息的查询时,又因受制于系统之间的隔阂无法直接访问资源库,所以也需要能够方便的调用资源库全文检索工具的接口,或者需要资源库的检索工具能够提供按清单协查(导入/导出式批量搜索)的功能。
序号 | 组件功能 | 支持 |
---|---|---|
01 | 支持文章主体内容智能识别 | √ |
02 | 支持文章要素(作者、来源、发表时间)自动识别与提取 | √ |
03 | 中英文同义词查找 | √ |
04 | 关键字飘红显示及自动摘要 | √ |
05 | 分类查找及层次展开 | √ |
06 | 支持分布式创建数据索引 | √ |
07 | 支持自定义排序方式 | √ |
08 | 支持关联词语 | √ |
09 | 支持通过智能标签形式的内容抽取(如“房型:三房二厅“) | √ |
10 | 支持通过二级前后标识符的形式对内容进行抽取 | √ |
11 | 支持多表关联模式的网页内容抽取(如一个贴子有多个回贴) | √ |
12 | 支持将一个页面上的记录拆分成多条记录(如微博形式的数据抽取) | √ |
13 | 支持保留网页的原始排版,也可以支持对抽取到的内容二次排版 | √ |
14 | 支持对少数民族语言的网页结构化识别 | √ |
15 | 支持通过脚本扩展形式对复杂的业务要求进行抽取 | √ |
16 | 支持对已编码的内容进行反向解码处理 | √ |
17 | 支持对同一个网页的更新式的内容抽取(如网页上仅“优惠价格”变化) | √ |
动态表单设计与索引
海量网络数据抽取
抽取数据字段级检索
多表关联数据检索效果
01.基于统计的网页正文信息抽取方法的研究 |
为了把自然语言处理技术有效的运用到网页文档中,本文提出了一种依靠统计信息,从中文新闻类网页中抽取正文内容的方法。该方法先根据网页中的HTML标记把网页表示成一棵树,然后利用树中每个结点包含的中文字符数从中选择包含正文信息的结点。该方法克服了传统的网页内容抽取方法需要针对不同的数据源构造不同的包装器的缺点,具有简单、准确的特点,试验表明该方法的抽取准确率可以达到95%以上。采用该方法实现的网页文本抽取工具目前为一个面向旅游领域的问答系统提供语料支持,很好的满足了问答系统的需求。 |
02.基于视觉热区的网页内容抽取方法 |
对网页抽取进行研究,提出一种新的网页正文信息提取方法,它利用网页布局特征与网页视觉热区来确定网页正文信息。首先选取网页的一部分区域作为网页视觉热区,通过文档对象模型得到候选正文信息块,在此基础上,给出候选正文信息块重要度函数确定网页正文信息。实验结果表明,该方法具有良好的性能。 |
03.基于结构树的网页正文内容抽取方法 |
网页文本抽取是一种在互联网上运用广泛的数据挖掘技术,主要目的是把一个网页的主题内容抽取出来,为Web数据挖掘提供好的基础数据。基于网页树形结构进行改进,首先对网页进行分块,把每一块存储在树形结构当中,然后通过对所有块进行方差和阈值计算,选择出主题信息。该方法相比传统的基于正则表达式的抽取方法,具有简单、实用的特点。实验结果表明,该抽取方法准确率达到96%。 |
04.基于DOM和网页模板的Web信息抽取 |
文章提出了一种基于DOM(文档结构模型)和网页模板的WEB信息提取方法.参照DOM的定义,通过构造HTML解析树来描述网页结构.在抽取网页之前,先通过归纳网页模板来过滤网页中的噪音信息。然后,使用基于相对路径的抽取规则来进行信息抽取。 |
05.网页正文提取方法研究 |
网络成为人们获取信息的重要途径。而网页上的内容除了主题内容外,还有如广告、版权信息、欢迎信息等与主题无关的内容,如何将网页中的正文内容提取出来已经成为机器学习和数据挖掘界的一个研究热点。本文将对网页正文提取方法的研究现状做一个简要介绍,并对未来的研究工作进行展望。 |
06.基于内容相似度的网页正文提取 |
提出一种将复杂的网页脚本进行简化并映射成一棵易于操作的树型结构的方法。该方法不依赖于DOM树,无须用HTMLparser包进行解析,而是利用文本相似度计算方法,通过计算树节点中文本内容与各级标题的相似度判定小块文本信息的有用性,由此进行网页清洗与正文抽取,获得网页文本信息,实验结果表明,该方法对正文抽取具有较高的通用性与准确率。 |
07.网页内容安全快速信息抽取方法 |
文章提出一种基于静态网页特征的文本信息抽取方法。该方法首先根据静态网页的URL特征判断其是否是静态网页,然后根据静态网页的结构特征和内容特征对标题和正文文本内容进行抽取.再按照统一规范将结果顺序存储便于再处理。实验结果表明,网页内容信息抽取的查全率和查准率分别为96.2%和95.9%,该方法计算量小、抽取速度快、正确率高,可实际应用于大规模的网页内容安全分析。 |
08.网页信息抽取及其自动文本分类的实现 |
Web页面中常包含非主题信息的内容,网页必须剔除这些无用的信息后才能形成有用的文本信息。文本分类对文本信息的进一步加工处理至关重要,是信息搜索领域的另一研究课题。为了剔除网页中的无用信息,提出一种基于HTML自身结构特点的网页正文信息抽取方法,同时结合文章标题信息,实现文本自动分类的简易分类方法。该方法可以提高网页正文提取及其自动文本分类的效率。实验证明,该方法是可行的。 |
09.基于逻辑行和最大接纳距离的网页正文抽取 |
网页正文抽取是很多互联网应用的基础工作和必须解决的问题。目前的主流方法是基于DOM树结构,此方法需要解析出 网页的DOM树结构。 对于目前互联网上的网页来源众多、结构众多的情形,基于DOM树的处理方法除了性能不足以外,还会遇到抽取精度上的问题。针对这些问题,该文提出了一个网页正文抽取的新方法,该方法不依赖DOM树,而是考虑人们编写网页的方式形成一些启发式规则,并结合相关的统计规律,以逻辑行为基本处理单位,基于最大接纳距离进行网页正文抽取。实验表明,论文的方法能够高效、高精度地抽取出网页正文。 |
10.维吾尔文网页正文抽取系统的研究与实现 |
从构建大规模维吾尔文语料库的角度出发,归纳总结各类网页正文抽取技术,提出一种基于文本句长特征的网页正文抽取方法。该方法定义一系列过滤和替换规则对网页源码进行预处理,根据文本句长特征来判断文本段是否为网页正文。整个处理过程不依赖DOM树型结构,克服了基于DOM树结构进行正文抽取方法的性能缺陷。实验结果表明,对于维文各类型的网页正文提取,该方法均具有较高的准确度和较好通用性。 |
11.基于新型坐标树的页面分析和内容提取框架 |
针对HTML的半结构化特片和DOM缺乏位置信息和空间关系描述的不足,本文提出了一种新型的WEB页面分析和内容提取框架,该框架既包括一种新型的含有位置信息的页面坐标树模型,还包括能反映空间关系的GRAPH模型。通过将HTML文档转换为坐标树,并结合位置特征和空间关系可对网页进行分析和提取内容。 |