Python全栈开发:数据分析
上QQ阅读APP看书,第一时间看更新

第1章 网络爬虫

1.1 网络爬虫简介

网络爬虫,又称为网络蜘蛛或网络机器人等,是一种按照一定规则自动爬取万维网信息的程序或者脚本,通俗地讲就是通过程序去获取Web页面上所需要的数据,也就是自动爬取数据。

例如搜索引擎就是一个大型的网络爬虫,百度搜索引擎的爬虫叫作Baiduspider,360搜索引擎的爬虫叫360Spider,搜狗搜索引擎的爬虫叫Sogouspider,必应搜索引擎的爬虫叫Bingbot等。

据权威网站统计调查,世界上近80%的网络爬虫是基于Python开发的,而学习网络爬虫则可以为后续的数据分析、数据挖掘和机器学习等技术提供重要的数据源。

此外,通过网络爬虫可以爬取任何能通过浏览器访问的数据,包括文字、图片、声频、视频和应用程序等,进而可以从中获取所需要的数据资源,例如电影封面图片、证券交易数据、金融信息数据、天气数据和网站用户数据等。

网络爬虫按照实现的技术和结构可以进一步分为通用网络爬虫和聚焦网络爬虫。

1.通用网络爬虫

通用网络爬虫是捜索引擎抓取系统的重要组成部分,主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。

2.聚焦网络爬虫

聚焦网络爬虫是面向特定需求的一种网络爬虫程序,其目的是在实施网页抓取时,对内容进行筛选和处理,尽量保证只抓取与需求相关的网页信息。聚焦网络爬虫又可以细分为积累网络爬虫、增量网络爬虫和深度网络爬虫,而在实际的使用过程中,通常将这几类网络爬虫组合使用。