面向微博的网络社交数据抓取与分析系统文献综述-综述网

文献综述

微博信息检索与推荐

信息检索(information retrieval)是从大规模非结构化数据的集合中找出满足用户信息需求的资料的过程．信息推荐(information recommendation)是将满足需求的信息通过某种方式推荐给相关用户．微博数据的海量性、短文本性、富含噪音性等特性为信息检索和信息推荐带来了新的问题．

信息检索：信息检索的目标为将信息按一定的方式组织起来，并根据信息用户的需要找出有关的信息．信息检索主要模型为概率模型，文档d，对于查询串q的相关度值定义为 Sim(d，，q)=P(R d，)／P(R d，)．根据贝叶斯原理： Sim(d，，q)=P(d，J R)P(R)IP(dj R)P(R)，其中，P(d，IR)代表从相关文档集合R中随机选取文档d，的概率，P(R)表示从整个集合中随机选取一篇文档作为相关文档的概率，依此定义P(d，1R) 和P(R)．概率模型是基于以下基本假设：

①给定一个用户的查询串q和集合中的文档 d，、概率模型估计用户查询串与文档d，相关的概率；

②概率模型假设这种概率只决定于查询串和文档；

③该模型假定在文档集合中存在一个子集，即相对于查询串q的结果文档子集，这种理想的集合用R表示，集合中的文档是被预料与查询串相关的．为了解决微博中信息检索问题，著名文本检索会议TREC从2011年开始，增加了微博检索 (microblog track)这一新任务，公布了约1 600万条 Twitter中的博文数据，目的是实现微博的实时检索．信息检索主要任务之一是检索项的排序问题， Sarma等人口朝利用用户的评论研究了Twitter中博文排序方法；Dong等人针对微博检索中的实时性问题，利用微博流数据实时地检测最新的URLs，同时根据URLs的新颖度与有效特征对URLs排序．万方数据计算机研究与发展信息检索另一项主要任务是索引问题，Yao等人口朝利用Twitter数据集，研究了微博中的索引技术，能够有效地支持微博中的查询检索任务．Teevan等人系统地对比了微博搜索与Web搜索问题． Spina等人比较了信息检索方法与意见目标识别法，利用微博流识别微博中的实体，有利于微博中的实体检索．

信息推荐：信息推荐的目标为分析大量用户的行为规律，计算大部分用户的行为偏好，从而自动向用户推荐相关信息．协同过滤技术是信息推荐中最广泛使用的技术，协同过滤算法的推荐原理就是查找与目标用户相似的近邻用户，通过近邻用户的评价对目标用户产生推荐．近邻用户的选择方法如下：计算目标用户与推荐系统中其他所有用户的相似性，根据相似性排序从大到小依次选择前面K个最相似的用户作为目标用户的近邻集合．其中，相似性度量方法的选择对于推荐精度有着至关重要的影响，常用的相似性度量方法有皮尔逊相关、余弦相似性、修正的余弦相似性等．为了解决微博中的信息推荐问题，数据挖掘及知识发现专委会主办的“国际知识发现和数据挖掘竞赛(KDD-CUP)”于2012年增加了微博信息推荐这一新项目，会议组提供了腾讯微博(Tencent Weibo) 约1 000万个用户、50 000个推荐项、以及3亿个推荐记录的数据集，目的是预测用户是否会关注推荐项． Ting等人13胡利用博文内容与网络关系实现微博中的信息推荐．Brzozowski等人』利用有向网络的结构模式向用户推荐好友．Abel等人分析了微博中的用户模型，实现了Twitter中的个性化新闻推荐．微博通常反映实时新闻，且信息存在大量的重复性、琐碎性等特点，如何检索实时的、有价值的、有影响力的信息将是微博检索面临的挑战．微博中用户特性复杂、表现存在差异性，如何克服微博海量性、富含噪音性等特点对每个用户建立个性化模型，实现微博个性化推荐将是微博信息推荐面临的挑战．所谓微博个性化推荐是指根据不同用户的兴趣特点，对每个用户建立不同的推荐模型，向用户推荐感兴趣的信息．

微博关系分析与挖掘

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

免费ai写开题、写任务书：免费Ai开题 | 免费Ai任务书 | 免费降AI率 | 免费降重复率 | 论文免费排版

注册

找回密码

面向微博的网络社交数据抓取与分析系统文献综述

您可能感兴趣的文章

登录

注册

找回密码

您可能感兴趣的文章