欢迎您访问广州瞬速信息科技有限公司

《瞬速文本数据抽取与分析系统》

正是基于各行业的数据抽取需求而进行研发通用文本信息抽取与分析系统。系统基于.Net+VC+(SQLServer、Oracle、MySQL)技术架构的开发的文本数据抽取与分析系统。系统通过预置的数十种抽取规则作为基础规则(如人名、地名、机构、手机号、邮编、性别、年龄、身份证号等),通过与扩展规则(如接警员*{人名}),死亡人数*{人数}等)进行结合抽取用户感兴趣的扩展信息。通过对抽取后的结构化信息结合其它的数据源进行统计分析、数据预警等。以使得沉淀的文本数据发挥最大的价值。

系统采用 B/S(Browser/Server,浏览器/服务器)系统结构。数据的分析和存储由位于网络中心的服务器处理,不管是系统管理员还是终端用户,都通过浏览器来访问本系统获取、分析和处理信息。

这种结构能做到真正的分布式网络计算,有效降低网络流量,减轻客户端负担,还能安全、方便地与互联网接口。另外用户分布或行走于全国各地,通常都有移动办公需求,系统提供移动终端访问接口,用户只需随身携带移动通信设备,就可以访问系统,获取最新文本信息。

产品
背景

  随着计算机的普及与互联网的高速发展,信息也是爆炸式地增长。面对巨量的信息,难以发现真正需要的信息。如何将大量无序的信息及时准确地进行提取、整理、组织成便于查询检索、统计分析的形式,是当前研究开的焦点。在很多行业信息化系统的建设中,既存在有结构化的数据,也存在有非结构化的数据。结构化数据如姓名、年龄、身份证号码等,而非结构化的数据如产品的评论信息、新闻内容、客服系统有客户对产品或服务的投诉与建议等。另外一些系统中为了冗余更是把对整个事件的描述以非结构化的形式存储在结构化的一个或多个字段中。而非结构化数据的重要性并不比结构化数据低。自然语言的文本信息要比基本信息等结构化数据更丰富形象。

数据组成多样性

30%的结构化数据+50%的
文本数据+其它数据

业务需求对数据要求高

非结构的文本数据信息量大
却难于利用

数据来源多样化

EXCEL 数据库
文本文件 网络数据
接口数据
  • 数据采集

    自动从多个数据源定时抽取各样的数据。支持EXCEL、文本文件、数据库、网络数据源等

  • 文本抽取

    自动从文本数据中抽取出各个行业应用业务需求的数据。内置128种抽取规则、支持多种扩展抽取规则与联想抽取规则

  • 数据清洗

    对文本中抽取出的数据进行重新审查、删除重复信息、纠正存在的错误,并提供数据一致性

  • 数据补整

    对不完整的数据通过多种方式进行补整,如有身份证号没有姓名等的自动补充

  • 数据分类

    对抽取的数据进行分类,可支持按时间点分类、按涉及金额分类、涉及人数等多个维度进行分类

  • 数据聚类

    支持对文本按抽取的多个维度进行聚类分析,自动划清各个数据类别

  • 数据分析

    持气泡图、柱状图、饼图等各种数据统计分析工具进行分析与输出

  • 数据预警

    支持数据在线实时输入与输出的预警,如当同类产品的网络评论中提取问题数超过阀值时预警

产品目标

信息抽取是以一个以未知的自然语言文档作为输入,产生固定格式、无歧义的输出数据的过程。这些数据可以直接向用户显示,也可作为原文信息检索的索引,或存储到数据库、电子表格中,以便于以后的进一步分析。从广义上讲,信息抽取的处理对象可以是文本、图像、语音、视频等多种媒体。然而,目前的自然语言处理水平尚不能对任意的文本进行深入的分析,不具备深入理解自然语言的能力。与自然语言理解不同,信息抽取一般不对文本作深入的全面分析,它的主要功能是根据预先设定的任务,抽取特定类型的信息。例如,一个用于从新闻报道中抽取恐怖主义事件的信息抽取系统,只需提取诸如受害者、加害者、事件中使用的武器等信息即可达到要求。信息抽取的优势在于简化了自然语言处理的过程,只关注相关的信息,而忽略无关的内容。

  但随着文本信息抽取的强势发展,特别是在美国防高级研究计划局(DARPA)所资助的消息理解会议(MUC)对不同文本信息抽取系统组织统一评估后,信息抽取已被用来专指文本信息的抽取。

  信息抽取首先是自然语言理解技术和实际应用相折衷的产物。自然语言处理有着从根本上解决人机对话问题的良好前景。

系统结构图
系统结构图
此图为本次共享资源平台逻辑架构图,该图整体展现说明包括以下几个方面:

应用系统建设

本次项目的一项重点就是实现原有应用系统的全面升级以及新的应用系统的开发,从而建立行业的全面的应用系统架构群。整体应用系统通过SOA面向服务管理架构模式实现应用组件的有效整合,完成应用系统的统一化管理与维护。

应用资源采集

整体应用系统资源统一分为两类,具体包括结构化资源和非机构化资源。本次项目就要实现对这两类资源的有效采集和管理。对于非结构化资源,我们将通过相应的资源采集工具完成数据的统一管理与维护。对于结构化资源,我们将通过全面的接口管理体系进行相应资源采集模板的搭建,采集后的数据经过有效的资源审核和分析处理后进入到数据交换平台进行有效管理。

数据分析与展现

采集完成的数据将通过有效的资源分析管理机制实现资源的有效管理与展现,具体包括了对资源的查询、分析、统计、汇总、报表、预测、决策等功能模块的搭建。

通过对文字进行结构化提取、分析和理解,从语义层面进行关联,精准理解文本含义。

数据的应用

最终数据将通过内外网门户对外进行发布,相关人员包括局内各个部门人员、区各委办局、用人单位以及广大公众将可以通过不同的权限登录不同门户进行相关资源的查询。

系统特色

01支持多数据源采集

系统支持从多种数据源抽取数据。可以支持从数据库的文本字段中抽取信息;支持从EXCEL、CSV、ZIP压缩文件中导入文本数据;支持从网络采集文本信息;支持从WebService中读取数据。

采集的数据时支持全量和增量两种形式。全量采集一般适用于初始数据抽取,数据采集时会根据数据源、数据字段等信息对数据进行查重,以保证不会把重复的文本信息采集过来。增量采集是指对数据源上的数据当有发生更新才采集过来进行抽取分析。

02预置常用抽取规则

系统中预置了数十种的常见的抽取字段,用户如果在设置抽取规则时,可以简便地从预置的规则中选择已有的规则。

03支持扩展抽取规则

除了抽取常用的字段信息外,抽取模块还需要能够抽取扩展字段。所谓的扩展字段就是一些不常见的字段。如有些文本中包含有血型信息,而有些文本中包含有身高,另外一些文本则包含有作案人祖籍。这些类型的信息在不同的文本出现的概率是不一样的。为了信息抽取的可扩展性,系统需要能够对文本信息进行扩展抽取,完全是根据用户的需求而定。如用户需要从大量的文本中抽取血型,就可以配置血型的抽取。通过设置扩展规则可以满足应用的更具体的要求。

04支持数据联想抽取

系统对一些抽取到的数据进行联想抽取,如抽取到IP地址后,可以自动分析出IP地址所在的物理位置。又如抽取银行卡信息可以自动联想到该银行卡所在的银行名称,银行所在的行政区划信息等。

05带丰富的图表控件

系统可通过与百度的echarts图表控件的相结合后,提供了数十种图表控件。通过控件与抽取的数据进行分析后,使得原本纯粹的数据变得可视化。

06支持多种数据分析

系统提供除了提供有常见的图表分析外,还有多数据分析手段,如数据关联分析、数据聚类分析、数据预测等功能。

07支持数据分类预警

监测预警是对一种时效性要求很高、重要程度要求很高的精准文本抽取分析功能。监测预警包括监测和预警两个过程,当系统监测到某类文本信息后将及时发出预警,让相关人员第一时间掌握实时文本抽取状况。

产品资讯 INFORMATION + MORE
  • 252017.02
    大数据中非结构化数据的挖掘:文本
    一、 点击流中的非结构化文本数据都有哪些? 首先来定性什么是非结构化文本数据,这里指的是点击流原始数据中以文字形式展现的...
  • 252017.02
    大数据时代破解非结构化信息难题
    导语:大数据是这个时代最热的词汇。互联网企业早已布局,通过数据分析了解用户的喜好和习惯。运营商也想在大数据浪潮中分一杯羹...
  • 252017.02
    什么是结构化数据和非结构化数据?什么是数据清洗?
    相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即...
  • 252017.02
    非结构化数据背后的真相
    随着大数据概念的流行,非结构化数据已经逐渐成为了大数据的代名词。Soltius公司的工程师Ram Subramanyam今天发表了一篇文章,对...
  • 252017.02
    挖掘非结构化文本数据背后的价值
    大数据时代的到来使得任何企业都无法忽视数据背后蕴藏的价值。大数据按照存储形式不同可以分为结构化数据和非结构化数据。随着网...
  • 252017.02
    信息抽取系统主要处理的对象
    随着计算机的普及与互联网的高速发展,信息也是爆炸式地增长。信息的过量增长带来一定负面影响:面对巨量的信息,难以发现真正需要的...
  • 地址:
    广州市天河区科韵路石东大厦4楼
  • 电话:
    020-2903 9615
  • 手机:
    13533909695
  • QQ:
    747484429
  • 邮箱:
    support@sunshotsoft.com
广州瞬速信息科技有限公司 版权所有 粤ICP备10220963 Copyright © 2017 SunShotTech. All Rights Reserved
13533909695
020-29039615

X