摘要
企业员工访问网站的记录在企业服务器中形成了大规模日志数据,从这些海量数据中发掘出有意义的信息是管理企业员工重要的环节,并成为大数据时代关注的重点.完成数据挖掘的核心工作之一就是对原始数据的预处理,它影响到数据分析结果的准确度.但由于web日志是Apache、Nginx和ⅡS等web服务器运行时产生的系统日志,web日志格式根据使用web服务器的不同而不同.所以,传统的日志数据清洗方式难以应对目前如此复杂的日志格式.由于专家系统其技术特点能应对复杂的日志格式,所以通过结合专家系统,推理出对应的web日志格式,从而自动进行日志数据清洗,可以使得当下复杂海量web日志数据预处理更加高效,智能.首先,介绍了专家系统;其次,介绍了web日志数据一般的数据预处理流程;最后,结合专家系统对海量复杂的web日志数据进行数据预处理,并通过实验验证了该方法的可行性.
基金项目
国家自然科学基金(51774090)
黑龙江省自然科学基金(F2015020)
黑龙江省青年创新人才培养计划(UNPYSCT-2020144)
黑龙江省教育厅科研项目(2017-YDL-12)