瞬速互联网舆情监测系统综合运用搜索引擎技术、文本处理技术、自然语言处理和智能分析等技术,对互联网海量信息自动获取和分析,提供面向互联网的热点话题监测、分析、挖掘、溯源以及报表展示等功能,满足网络舆情监控和热点事件追踪工作过程中各个环节的用户需求。用户只需输入一次关键词,即可以同时在国内外60多家的搜索引擎上搜集与些关键词相关的舆情信息。用户还可以设置全网监测的时间段,可以设置通知搜索引擎只返回某一个时间段内的信息,如一天前的,一周内的,一个月内的、一年的和任何时间段内的。使得用户在各大搜索引擎能发现的舆情信息,在我们的系统上一样可以发现。通过综合的展现的形式,可以在一套平台上管理所有的舆情信息。
从2011年诞生至今,微信已渗透到社会的各领域,成为中国新媒体发展的重要组成部分,并更加广泛和深入地影响社会发展的诸多方面。特别是微信在舆情传播方面具有不可忽视的作用,如何应用新媒体促进社会发展成为十分重要的问题。有数据统计,目前,微信用户量突破6亿,公众账号超过200万个,并保持每天8000个的增长速度以及超过亿次的信息交互。一个拥有如此用户群的自媒体,微信开启了移动互联网传播的新时代,并已经初现网络舆情发动机的雏形。
随着微信公众平台用户数量的急剧增长,其信息传播范围逐渐扩大,影响力不断加强,于是一些别有用心之人借助微信平台向公众传播谣言、暴力、恐怖、欺诈、色情等违法违规信息,企图左右网络舆论场;或者一些不明真相的网友,在面对虚假、违法信息时,因缺乏辨别能力而成为不自觉扩散源头,从而引发突发性舆情危机事件。这些都严重威胁着网络传播秩序和公共利益,甚至有害政府形象,危及国家安全。在此背景下,如何做好微信这一新型媒体的舆情监测工作是当下舆情管理工作的一个重要考验。
瞬速微信监测系统包含微信信息采集功能、智能分析功能和人工服务功能等,实现从信息的获取,分析到服务的全过程管理,支持海量数据分析、处理能力,最终实现对微信公共账号及微信文章的综合分析服务。系统可以支持到:1)通过关键字对所有的微信公众号发布的内容进行扫描,并将命中的信息收录到监测系统。2)可以支持对单个或批量导入的公众号上发布的内容进行定点监测,一旦某个公众号上有新的微信内容,系统可第一时间获取到,是监测竞争对手在微信上的动态的最好利器。
微博赋予人们无限话语权,其传播面广、传播迅速、使用面广、不受时间空间限制,一些敏感话题、焦点事件、热点问题、重大公共事件、突发事件一夕之间家喻户晓,或造成信任缺失、政府、企业形象受损、民怨沸腾……需要微博舆情系统时时监测其传播动态、发现重大事件,并积极疏进行疏导。瞬速网络舆情监测云平台充分运用自身搜索引擎技术、自然语言智能处理技术的开发优势,旨在深层次挖掘微博舆情价值,全天候并及时提供最新微博舆情信息。
对接主流微博平台,分秒级捕获最新最全的微博讯息;
在第一时间捕获自身的正、负面讯息,实时把握微博舆论导向;
多角度、多模型的强大分析,帮你抽丝剥茧,一切变得不再神秘,为企业的业务决策保驾护航;
同微博平台对比分析、多平台的自动回复功能,令微博公关和营销更为得心应手
微博信息不同于其它网页信息,其页面展示结构复杂,而且更新量巨大。需要按照一定的算法计算其是否存在有重复的信息,以保证重复的信息不能入库
网络舆情话题的发展通常是从一个或少数几个源头点开始,然后被转载并加入新的内容,从而在网络上扩散,同时话题内容也被不断丰富,并受到越来越多的关注,逐渐成为热点话题。分析舆情话题传播情况既有利于分析舆情话题的产生背景,又有利于对舆情话题进行有效管理和控制。
对于舆情工作者,每天需要面对的是盛千上万篇需要检查的舆情信息。一套好的舆情监测平台必须具备有相似舆情自动聚合的功能。瞬速舆情监测系统通过对同一话题的舆情信息进行时间识别并按时间排序,形成一个由老到新的序列;然后依次检查该序列中的每条舆情信息,判断其是否与其前面的各舆情信息构成传播关系,并以拓扑图的方式来描述这种传播关系。
为了判断舆情信息之间是否具有传播关系,我们从特征内容信息和普通内容信息上进行分析。特征性内容信息是指明确说明舆情信息之间的传播关系的文字内容或链接关系,如:新闻网页中通常会以文字方式或链接方式标明其来源、论坛帖子中会注明“转发”。但是,互联网上还有大量舆情信息没有包含这种标明传播关系的特征内容。这种情况下,可通过元数据和内容的相似性来判断其是否存在传播关系,如:对标题、作者和正文内容的相似度来进行判断,如果相似度很高,则它们之间存在传播关系的可能性就大。
舆情话题的发展过程是随着时间不断发展变化的,并且通常是有一定规律的。分析舆情话题的发展演化规律有利于动态掌握舆情状况和发展趋势,以便在必要的时候进行舆情预警和舆论引导。
通过话题演化能看清话题从产生到消失的完整生命周期,一般来说,一个话题会经历孕育潜伏期、显现爆发期、持续演进期、缓解衰退期、解除消失期。
随着话题的演化与发展,话题相关的文档数会不断增加,需要淘汰掉话题内的部分文档。这主要是基于三方面原因:
(1)存储空间的限制;
(2)话题发展过程中可能会给话题引入一些相关度不高的噪音文档;
(3)距离当前时刻比较久远的文档对于用户来说,参考意义不大。将相对不太重要的若干篇文档淘汰,减少噪声,为更为精确的计算出话题内部的各个文档的重要性提供保证。
由于大量信息源的存在,势必会出现众多的话题,从互联网舆情监管的应用角度,需要找出其中的热点话题。为此,需要对这些话题进行重要性排序,希望能够从高到低地反映各话题的热度,对话题近期各大网站相关报道篇数、用户普遍关注程度进行反映。
瞬速舆情监测系统采用一种基于时间和网页重要性等综合因素的话题评价策略,通过该评价策略对话题进行排序、合并、调整和淘汰,实现了针对持续互联网舆情信息流中热点话题的有效检测。热度算法主要综合考虑了以下几个因素:
(1)话题相关的新闻报道的篇数;
(2)这些新闻网页发布位置的权威性;
(3)这些新闻网页被点击和跟帖情况;
(4)随着时间的推移,新闻重要性应慢慢减弱。
坛BBS作为网络舆情的重要发起媒体之一,其是互联网上出现最早、使用最广泛、影响最深远的信息交流媒介。要了解各大论坛上讨论话题的舆情趋势,需要采集论坛上的大量贴子。而这些贴子以页面形式存在,以于数据的结构化存储来说,页面的数据是非结构化的。页面中不但包含了参与讨论的用户的观点信息,还包含了许多页面框架、格式、图片以及广告等噪音信息。需要舆情信息采集平台具备通过页面解析的方式过滤掉噪音信息、同时将与舆论相关的话题、主贴标题、回复内容、主贴发起人、发起时间、回贴人员、回贴时间等信息抽取出来,并存储到结构化的数据库中,以此得到论坛话题和观点的元数据。 目前国内论坛网站约有3万多家,每个论坛的风格互不相同。如果需要监测全国所有的论坛,就需要舆情信息采集平台能够满足对所有论坛的模板匹配。瞬速舆情监测通过使用自主研发的论坛模板智能匹配可满足国内80%以上的论坛的贴子信息采集与回贴的识别与抽取。
通过对论坛的回贴进行高效的识别,以达到可以对某一个主贴的信息进行跟踪。一旦发现某个贴子的回复量超过设定的预警值,就可以在平台上进行提醒工作人员。
大型论坛社区监测模块侧重于对国内外重点论坛社区发布的贴子进行扫描分析。由于大型论坛社区每日更新的贴子总量大、更新速度快,为了防止对有效信息的被漏掉需要对重点社区网站进行较高的实时扫描与分析。系统除了对社区发表的贴子进行分析外,还会针对每个贴子的作者、回复人、回复时间、回复内容等进行分析。
目前全国每个城市都会有几份平面报刊,如日报、晚报、商报等日常发行的报刊。这些报刊每天的发行量都是在上万份以上,信息覆盖面极广。为了对这些平面媒体发表的内容进行监测,我们通过独特的电子报刊内容采集与扫描技术对电子报刊进行监测。基本上可以做到平面媒体的电子报一旦发行,监测系统即可以在10分钟之内监测到与设定的关键字策略相符的信息。
问答网站应该说是UGC模式的另一种形态的产品,这其中最大的问答类有百度知道、知乎,截止到日前,百度知道解决了272664310个问题(数据来自百度知道首页),而国内其他的综合类问答网站的数据量也是非常巨大。现在用户可通过《瞬速互联网情报监测系统》提供的问答类信息采集系统,时刻监测问答类网站上最新的与您的企业息息相关的问答、行业信息。监测着有关您的企业和产品如何被提及?您的竞争对手都在做些什么? 提示您哪些情报中存在有您潜在的业务和发展机会。揭示着您企业新产品发布后的媒体传播轨迹,收集用户的评价与反馈,为产品的改进与升级提供第一手的情报资料。时刻跟踪您企业所在的行业最新的技术与行业发展动态资讯、展会信息。
用户只需提供需要采集关键字或关键字组合,系统自动根据用户所提供的关键字在百度视频、优酷视频、腾讯视频、网易视频、搜狐视频等二百多家国内外知名的视频网站上进行搜集,并将搜集结果返回到系统中按设定的提取元素进行全面、细致的关键字过滤,并将相关的视频进元素抽取与视频下载。未来系统将提供有十四大类型的网络视频引擎涵盖:主流媒体、综合类、电视台类、教育类、动漫类与其它类等。随着互联网媒体的不断发展,系统将同步提供相应类型的搜索引擎,以满足用户对网络视频信息采集的更高需求。
每一个视频网页在网络上除了提供有播放的功能,还有很多与视频相关的信息,如访客可以能视频文件进行评论。而且评论信息可以包含有很多有价值的信息。这些评论信息可以为未来的视频扩展与综合应用、大数据分析等提供了基础的数据来源。视频评论信息一般需要采集有:评论者昵称、评论内容、评论时间、评论者的头像、评论者的级别、评论者粉丝数等信息。
瞬速定制开发的网络视频信息采集系统综合运用搜索引擎技术、文件多线程下载技术、文本处理技术、自然语言处理和智能分析等技术,对网络上海量视频信息自动获取和分析,提供面向舆情监测业务需求的热点视频采集、分析、挖掘、溯源以及报表展示等功能,满足网络视频监控和热点事件追踪工作过程中各个环节的用户需求。
中国是统一的多民族国家, 多民族、多语言、多文字是国情的基本特征。近年来, 在国家通用语言文字网络信息资源飞速增长的同时, 以蒙古文、满文、维吾尔文、哈萨克文、柯尔克孜文、藏文、朝鲜文、彝文、傣文等为代表的一大批少数民族文字网站也在互联网上相继亮相。随着支持少数民族文字的计算机软件和移动通信设备应用范围逐步扩大, 越来越多的少数民族人口开始熟悉和掌握网络应用的使用方法, 互联网成为我国民族地区人口表达意愿、交流信息和共享文化重要空间的趋势已经开始显现。 采用科学的理论和方法进行少数民族语言网络舆情的分析和研究, 是政府在数字时代实现科学、民主决策的基本需要, 也是民族地区社会稳定和繁荣的重要保障。
瞬速境外舆情监测模块旨在解决国内境外舆情监测难度大、速度慢的问题,集成了境外监测系统与境外信息元搜索系统。瞬速境外监测系统采用先进的境外信息采集技术,能根据用户预定的监控关键词在15分钟以内发现境外多个国家的重点新闻、社区、博客、平媒等媒体的相关舆情信息,并对敏感信息及时报警。
支持中英、中俄、中日等多种语种的内容自动翻译成中文,并对监测的原文内容和翻译后的内容进行舆情分析。
报表是舆情监控系统管理的基本措施和途径。通过报表功能可以帮助舆情监控系统用户更清楚的了解舆情信息,并把舆情信息以可靠和安全的方式呈现给使用者。报表就是将内容信息(一般是数据、文字、图片等)以某种形式组织起来,并将组织结果呈现出来的文件。目前系统支持常用的报表形式有:表格、图形,Excel文档等。