文献综述(或调研报告):
1.用户行为分析现状。
随着互联网的不断发展,对用户行为分析也由最初的为科研服务转向为商业服务。用户行为分析在信息检索、搜索引擎优化、网站结构的调整以及商业领域都取得了一定的研究成果。
- 信息检索。1981—1983年,OCLC(Online Computer Library Center)办公室开始研究联机公共检索目录(OPACs),通过用户的事务日志分析和焦点人群的座谈来研究用户在线目录的使用情况。2003年Anick提出专业性的交互性反馈机制。2006年提出了一种聚类算法进行信息检索与搜索引擎的优化。2012年,通过对数字图书馆系统日志进行分析,研究信息管理系统。
- 提取用户群体的行为特征。根据网页及超链接发现用户社区;使用关联规则分析Web日志数据,对用户进行行为预测。从心理学的角度挖掘互联网用户的浏览行为,并提出用线性回归模型来描述用户浏览行为与关注度之间的相关性。使用社会网络分析,结合可视化技术画图社会网络图。根据社会网络图探索社会网络分析中的社会影响力模式。
- 网站结构的优化。利用序列关联规则发现Web访问日志的行为关联,不断完善网站的结构和提高用户的客户体验。通过对Web用户浏览状况分析,对网站的目录进行重构。从海量的日志数据集中自动、智能地挖掘隐藏在其中的信息。基于关联规则挖掘算法对用户行为进行分析,发现有商业价值的模式,以完善和优化企业的网站结构。应用关联规则建立模型,挖掘Web访问页面之间用户访问的关联度规则,进一步对Web站点的结构进行调整和优化。
- 商业领域。从基于内容的图像检索法,研究市场购物篮问题。将用户的上网行为限制在一定时间段内,然后进行上网日志数据的收集。并通过数据挖掘算法进行建模,得到用户的兴趣偏好,进而为企业的决策提供依据。通过模糊相似度模型挖掘用户的点击和阅读行为,分析用户对新闻信息的关注度,且更深入的分析了用户偏好结构与新闻结构的相似度。
- 用户上网行为分析的方法
早在上世纪 90 年代,国外的研究者为了更好的优化和管理网络,开始了对用户上网行为的研究。研究主要侧重于两个方面。一个是通过对用户访问单个Web 站点
的日志记录来跟踪和分析用户的上网行为习惯,从而为优化站点设计、完善 Web 站点功能提供技术支持。另一个则是通过对某一特定人群上网行为的研究,提取出群体用户的行为征,从而有针对性地对该人群所在网络的结构和布局、带宽分配等进行调整优化。国内在用户上网行为方面的研究起步相对较晚,对用户上网行为的分析绝大多数还处于分析服务器原始数据的阶段。通过分析服务器上存储的用户上网行为日志,找出用户在搜索、浏览、查询等方面的行为特征。涉及的用户上网行为分析的方法有:(1) 基于Web 日志的分析方法。(2)采用神经网络分析方法。(3)基于IP地址的分析方法。(4)基于点击率的分析方法。
3.数据挖掘发展趋势
数据挖掘是伴随着信息技术的出现和发展逐渐演变而产生的。数据库系统行业见证了从数据的采集、数据库的建立以及对数据库的进行管理,再到高级数据分析的各功能演变过程。由于数据库系统可以用来查询和筛选过滤,而且因为数据库系统能够处理事务被越来越多的行业所应用,对数据进行更为高级分析系统毫无疑问会成为下一个目标。
数据挖掘技术在全球范围内的研究时间不过四五年,就已从理论研究向产品开发推进,这确实是一个非常惊人的速度。此外,据外电报道,即使数据挖掘工具存在不足,但它的市场份额稳中有增,许多大中型的企业开始以使用数据挖掘工具来分析公司的数据。
数据挖掘是一门新兴学科,却已被广泛应用于各项领域,尽管目前数据挖掘的研究还没有尽善尽美,但并没有影响它被广泛应用在实践中,进一步研究的不断深入,各个领域对数据挖掘的需求还会更广更大。
参考文献
