基于树莓派的网络爬虫系统设计文献综述

 2023-09-25 08:09

文献综述

本课题的现状及发展趋势:

Raspberry Pi(中文名为“树莓派”,简写为RPi),是为学生计算机编程教育而设计,只有信用卡大小的微型电脑,其系统基于Linux。自问世以来,受众多计算机发烧友和创客的追捧,曾经一“派”难求。别看其外表“娇小”,内“心”却很强大,视频、音频等功能通通皆有。

随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎,例如传统的通用搜索引擎Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:在不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。

为了解决上述问题,定向抓取相关网页资源的网络爬虫系统应运而生。网络爬虫系统是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。

本课题的价值:

事实上,Python、PHP、JAVA等常见的语言都可以用于编写网络爬虫,本论文要选择一款合适的编程语言,这些编程语言各有优势,本人选择了使用Python进行爬虫项目的编写,其优点是:简洁、掌握难度低。

网络爬虫是通过运行指定程序,自动捕获有关网站的信息,搜索引擎通过它从网络上爬取信息,获得需要的数据。爬虫程序的实行效率和实现手段会对搜索引擎的搜索结果产生直接的影响。根据用户对查找结果的不同需求,不同的搜索引擎能够选取最便捷的爬行方法来收集互联网上的信息。高效和高质量的爬虫使人们能够在因特网上更及时的找到准确的信息。

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。