摘要
舆情数据中经常会存在灌水、恶意评价、刷分、刷关注等各类无意义信息,这对大数据的分析处理带来了巨大的挑战.为了提高数据处理的效率,快速锁定敏感事件信息,提高舆情监控的实时性,在Hadoop云平台下提出了一种基于用户评价的实时监测算法.该算法在寻找最优用户数量的基础上建立了用户评价标准,使用基于MapReduce的频度近似的聚类算法对有效的抽样信息完成热点关注信息的实时监测过程.与经典KM算法的比较结果表明,该算法具有较强的可靠性和较快的收敛速度,特别是随着数据量地增大,收敛速度方面的优势更加明显.