欢迎您访问广州瞬速信息科技有限公司
信息抽取系统主要处理的对象
发表时间:2017/2/25 12:15:37

随着计算机的普及与互联网的高速发展,信息也是爆炸式地增长。信息的过量增长带来一定负面影响:面对巨量的信息,难以发现真正需要的信息。如何将大量无序的信息及时准确地进行提取、整理、组织成便于查询检索的形式,已成为研究开发的焦点。在很多行业信息化系统的建设中,既存在有结构化的数据,也存在有非结构化的数据。结构化数据如姓名、年龄、身份证号码等,而非结构化的数据如于公安行业处警人员对案件的描述、口供等;于电子商务有用户对产品的评论;于客服系统有客户对产品或服务的投诉与建议等。另外一些系统中为了冗余更是把对整个事件的描述以非结构化的形式存储在结构化的一个或多个字段中。而非结构化数据的重要性并不比结构化数据低。如公安行业描述案件经过的自然语言要比案件的基本信息等结构化数据更丰富形象,对公安的案件研判也具有很强的辅助作用。

信息抽取是以一个以未知的自然语言文档作为输入,产生固定格式、无歧义的输出数据的过程。这些数据可以直接向用户显示,也可作为原文信息检索的索引,或存储到数据库、电子表格中,以便于以后的进一步分析。从广义上讲,信息抽取的处理对象可以是文本、图像、语音、视频等多种媒体。但随着文本信息抽取的强势发展,特别是在美国防高级研究计划局(DARPA)所资助的消息理解会议(MUC)对不同文本信息抽取系统组织统一评估后,信息抽取已被用来专指文本信息的抽取。

信息抽取首先是自然语言理解技术和实际应用相折衷的产物。自然语言处理有着从根本上解决人机对话问题的良好前景。然而,目前的自然语言处理水平尚不能对任意的文本进行深入的分析,不具备深入理解自然语言的能力。与自然语言理解不同,《瞬速文本数据抽取分析系统》一般不对文本作深入的全面分析,它的主要功能是根据预先设定的任务,抽取特定类型的信息。例如,一个用于从新闻报道中抽取恐怖主义事件的信息抽取系统,只需提取诸如受害者、加害者、事件中使用的武器等信息即可达到要求。信息抽取的优势在于简化了自然语言处理的过程,只关注相关的信息,而忽略无关的内容。

《瞬速文本数据抽取分析系统》主要的处理文本对象有:

自由文本


非结构化数据

相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等等。

非结构化数据库是指其字段长度不等,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字、符号等信息)而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)。

非结构化WEB数据库主要是针对非结构化数据而产生的,与以往流行的关系数据库相比,其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制,支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和数据项的变长存储管理,在处理连续信息(包括全文信息)和非结构化信息(包括各种多媒体信息)中有着传统关系型数据库所无法比拟的优势。结构化数据即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等

关闭窗口
  • 地址: 广州市天河区员村四横路石东商务中心918
  • 电话: 020-2903 9615
  • 手机: 13533909695
  • QQ: 747484429
  • 邮箱: 747484429@qq.com
广州瞬速信息科技有限公司 版权所有 粤ICP备10220963号 站点地图 Copyright © 2017 SunShotTech. All Rights Reserved
13533909695
020-29039615