欢迎您访问广州瞬速信息科技有限公司
非结构化数据背后的真相
发表时间:2017-2-25 14:45:18

随着大数据概念的流行,非结构化数据已经逐渐成为了大数据的代名词。Soltius公司的工程师Ram Subramanyam今天发表了一篇文章,对非结构化数据进行了解读。

相比于交易型数据,非结构化数据(Unstructured Data)的增长速度要快很多。整理、组织并分析非结构化数据,能够为企业带来更多的竞争优势。每一个数据元素都有它的意义,尽管有些是和你不那么相关的。在本文中,我就将解释一些常见的非结构化数据问题。

非结构化数据包括以下几个类型:


文本:在掌握了元数据结构时,机器生成的数据,如传感器等就一定能够进行解译。当然,流数据中有一些字段需要更加高级的分析和发掘功能。


交互数据:这里指的是社交网络中的数据,大量的业务价值隐藏其中。人们表达对人、产品的看法和观点,并以文本字段的方式存储。为了自动分析这部分数据,我们需要借助实体识别以及语义分析等技术。你需要将文本数据以实体集合的形式展现,并结合其中的关系属性。


图像:图像识别算法已经逐渐成为了主流。此外,这些技术也会产生实体,尽管获取关系以及舆情分析更加具有挑战性。


音频:目前有许多研究是针对于解译音频流数据的内容,并能够判断说话者的情绪。然后在利用文本分析技术对这部分数据进行分析。


视频:毫无疑问,视频是最具挑战性的数据类型。图像识别技术可以对每一帧图像进行抽取,当然,要真正做到对视频内容进行分析还需要技术的进一步发展。而视频中又包括音频,可以用上述的技术进行解译。

根据上述内容,我们需要一些新的数据处理与分析功能,来获得这些数据类型的价值,下面就是其中一部分技术:


动态元数据发现:该技术主要针对文本数据,它能够动态地将元数据从结果集中抽取出来,比如新的REST结束点。在持续基础上维护和控制元数据。在运行时间,从大量可用选项中,选择适当的最佳匹配的元数据集。


分类设置:你需要能够针对其他分析层捕获并表现你的业务及其实体,以对输入的数据进行注释和参考。由于业务元素的加入,这一分类将变得更加普遍。


实体提取和语义分析:它能够将分类利用到任何数据流当中,并将数据流中表达的实体和关系进行提取。这种分析可以存储在一个关系型数据库当中,也可以以图表的形式进行存储。


多媒体识别技术:如上述所言,进行非结构化数据分析,我们就需要各种解译图片、音频视频的技术。


其层级如下所示:





我们看到,目前许多动作还都停留在最上层,但逐渐也会渗透到音频和视频层面。


关闭窗口
  • 地址:
    广州市天河区科韵路石东大厦4楼
  • 电话:
    020-2903 9615
  • 手机:
    13533909695
  • QQ:
    747484429
  • 邮箱:
    support@sunshotsoft.com
广州瞬速信息科技有限公司 版权所有 粤ICP备10220963 Copyright © 2017 SunShotTech. All Rights Reserved
13533909695
020-29039615