由于互联网上的信息量十分巨大,并且形式多样,仅依靠人工的方法难以应对网上海量信息的收集和处理。尤其是新媒体的出现,开启了网络大数据的新景象。新媒体通过扁平化传播系统可将信息、观点迅速大量汇聚,构建了基于个人通信终端的大口碑传播系统。 传统数据分析经验不足以支撑单位业务的深度与广度发展。如何以最快速度收集网上相关数据、信息、资讯,跟踪产品营销数据,掌握对手情报,利用大数据管理用好外部与内部数据,促进业务发展,是任何一个企业亟需解决的问题。
候选词自动生成/切片算法相邻词统计/权重排序/清理词频
无监督学习/O(N)级时间复杂度/词库自维护领域自适应/支持多语种混合分词
关键词抽取/自动标签生成文本摘要/相似度计算
统计单篇文章的词汇权重计算两篇文章的相似度