面向微博的网络社交数据抓取与分析系统文献综述

 2022-07-15 07:07

文献综述

微博信息检索与推荐

信息检索(information retrieval)是从大规模非 结构化数据的集合中找出满足用户信息需求的资料 的过程.信息推荐(information recommendation)是 将满足需求的信息通过某种方式推荐给相关用户. 微博数据的海量性、短文本性、富含噪音性等特性为 信息检索和信息推荐带来了新的问题.

信息检索:信息检索的目标为将信息按一定 的方式组织起来,并根据信息用户的需要找出有关 的信息.信息检索主要模型为概率模型,文档d,对 于查询串q的相关度值定义为 Sim(d,,q)=P(R d,)/P(R d,).根据贝叶斯原理: Sim(d,,q)=P(d,J R)P(R)IP(dj R)P(R),其中,P(d,IR)代表从相关文档集合R中随机选取 文档d,的概率,P(R)表示从整个集合中随机选取 一篇文档作为相关文档的概率,依此定义P(d,1R) 和P(R). 概率模型是基于以下基本假设:

①给定一个用户的查询串q和集合中的文档 d,、概率模型估计用户查询串与文档d,相关的 概率;

②概率模型假设这种概率只决定于查询串和文档;

③该模型假定在文档集合中存在一个子集,即相对于查询串q的结果文档子集,这种理想的集合 用R表示,集合中的文档是被预料与查询串相关的. 为了解决微博中信息检索问题,著名文本检索 会议TREC从2011年开始,增加了微博检索 (microblog track)这一新任务,公布了约1 600万条 Twitter中的博文数据,目的是实现微博的实时检 索.信息检索主要任务之一是检索项的排序问题, Sarma等人口朝利用用户的评论研究了Twitter中博 文排序方法;Dong等人针对微博检索中的实时性问题,利用微博流数据实时地检测最新的URLs, 同时根据URLs的新颖度与有效特征对URLs排序. 万方数据 计算机研究与发展信息检索另一项主要任务是索引问题,Yao等人口朝利用Twitter数据集,研究了微博中的索引技术,能够有效地支持微博中的查询检索任务.Teevan等人系统地对比了微博搜索与Web搜索问题. Spina等人比较了信息检索方法与意见目标识别 法,利用微博流识别微博中的实体,有利于微博中的实体检索.

信息推荐:信息推荐的目标为分析大量用户的行为规律,计算大部分用户的行为偏好,从而自动向用户推荐相关信息. 协同过滤技术是信息推荐中最广泛使用的技术,协同过滤算法的推荐原理就是查找与目标用户 相似的近邻用户,通过近邻用户的评价对目标用户 产生推荐.近邻用户的选择方法如下:计算目标用户与推荐系统中其他所有用户的相似性,根据相似性 排序从大到小依次选择前面K个最相似的用户作为目标用户的近邻集合.其中,相似性度量方法的选 择对于推荐精度有着至关重要的影响,常用的相似 性度量方法有皮尔逊相关、余弦相似性、修正的余弦相似性等. 为了解决微博中的信息推荐问题,数据挖掘及 知识发现专委会主办的“国际知识发现和数据挖掘 竞赛(KDD-CUP)”于2012年增加了微博信息推荐 这一新项目,会议组提供了腾讯微博(Tencent Weibo) 约1 000万个用户、50 000个推荐项、以及3亿个推荐 记录的数据集,目的是预测用户是否会关注推荐项. Ting等人13胡利用博文内容与网络关系实现微博中 的信息推荐.Brzozowski等人』利用有向网络的结构模式向用户推荐好友.Abel等人分析了微博中 的用户模型,实现了Twitter中的个性化新闻推荐. 微博通常反映实时新闻,且信息存在大量的重 复性、琐碎性等特点,如何检索实时的、有价值的、有影响力的信息将是微博检索面临的挑战.微博中用 户特性复杂、表现存在差异性,如何克服微博海量 性、富含噪音性等特点对每个用户建立个性化模型, 实现微博个性化推荐将是微博信息推荐面临的挑 战.所谓微博个性化推荐是指根据不同用户的兴趣 特点,对每个用户建立不同的推荐模型,向用户推荐感兴趣的信息.

微博关系分析与挖掘

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。