社区舆论数据采集工具的设计与实现文献综述

 2022-08-19 11:27:40

一、文献综述

  1. 国内外研究现状
  2. 主题爬虫研究现状

随着网络信息资源的快速增长,我们需要使用更精准的检索工具才能更快速且精确地从海量信息中获取人们需要的信息。因此够定向获取信息的检索工具——面向某一特定主题服务型垂直搜索引擎成为研究热点,出现了抓取特定领域信息的主题爬虫技术。

主题爬虫又称主题网络爬虫和聚焦爬虫。主题爬虫是垂直搜索引擎的主要信息获取模块,通过网页间的链接结构进行遍历,对网页的主题进行判定,定向收集主题相关网页。

目前主题爬虫研究主要集中在搜索策略、网页抓取优先级设计、主题爬虫系统设计这三大领域。[15]搜索策略用于预测链接的主题相关性,给出量化评价,减少无关主题的网页爬取。主题搜索策略的优劣直接影响到主题爬虫的性能。搜索策略依据搜索方式的不同分为静态搜索策略和动态搜索策略[13],它们的主要区别是有无事先确定搜索规则。静态搜索策略依照确定的规则进行搜索,搜索策略的规则制定后不会改变;而动态搜索策略可以根据网页结构、文本信息的改变而实时调整搜索路线,以高效、快速完成爬取任务为目的,动态搜索策略可细分为基于网页文本内容的搜索和基于网页链接关系的搜索。当前主流的主题搜索策略基于以下三种方式实现:基于网页文本内容、基于网页链接结构和基于混合的文本内容与链接结构[9]。常用的判别主题相关度的方法主要是结合网页中链接的锚文本、网页标签等来计算网页中 URL 与主题的相关度。主题相似度判别常用的算法有向量空间模型、语义相似度。

  1. 网络舆情监测研究现状

现代社会信息传播迅速,网友活跃于各个交流平台,在娱乐、新闻、政府等各个方面的热点事件都能迅速传播形成舆论。网络舆情对我们生活秩序和社会稳定的影响不容小觑。舆情监测关键技术的研究在国内外都备受重视,其主要研究方向包括网络舆论的传播、控制及相关问题。现有的众多舆情监测涉技术中,技术核心多为网络信息抓取技术、网络信息提取技术、自然语言处理技术[4]

网络信息抓取技术多指利用网络爬虫工具进行信息抓取工作;网络信息提取技术则指将文本里的信息进行结构化处理,多被处理为表格形式;自然语言处理技术主要研究人与计算机交互的语言问题,通过分词、关键词提取等一系列操作对舆情状况进行分析,从而达到舆情监测的目的。

网络爬虫现如今是舆情监测的主要手段。运用主题爬虫的方式对某一话题信息进行分析形成更准确的监测结果,并进行持续的跟踪监测,可以提高对舆情监控的效率。主题爬虫对于信息的整理更加专业,可以形成对舆情工作的专业流程,专业平台,对微博、贴吧、论坛等社交平台进行实时的舆情监控。

国内对网络舆情的监测起步较晚,在文本内容处理方面存在中西文化差异造成中文分词技术、文本挖掘技术等许多现有的先进技术无法借鉴,同时研究机构与应用机构又严重脱节,导致国内的舆情监测产品价格昂贵、发展迟缓。目前国内舆情监测的发展还没有形成专业的规模,也很少有负责舆情监测的专业部门,现有的对于信息的大数据分析不能满足舆情监测的需求。

  1. 研究主要成果
  2. 主题爬虫研究成果:

目前为了提升主题爬虫获取页面时的准确度和高效性,主要是通过在主题相似度和搜索策略上制定爬行策略和算法。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。