全站7大分类 16219+视频教程 APP离线学习 VIP免费学全部
零基础入门学习 96款软件 4582+视频教程 APP离线学习 VIP免费学全部
PS 2021
共79节 11.72万人已学
草图大师2021
共160节 25.75万人已学
PR2020
共75节 16.99万人已学
CAD教程
共105节 38.84万人已学
3dsMax教程
共66节 7.67万人已学
C4D教程
共71节 22.93万人已学
VRay5.0教程
共27节 10.58万人已学
AE(影视)
共109节 9.99万人已学
AI教程
共132节 12.95万人已学
Rhino教程
共26节 4.33万人已学
Python教程
共93节 4.61万人已学
solidworks教程
共72节 8.97万人已学
Keyshot教程
共61节 4.31万人已学
Revit教程
共34节 4.05万人已学
更多热门软件>
亲,您上次观看至 03:20 处,现在为您继续播放
恭喜您学完本小节
重播
好评
收藏
分享
点击免费学习
有事离开?不用担心!
[ 下载羽兔网APP,随时随地学习 ]
扫描下侧二维码下载APP
Python爬虫零基础入门教程
课程参数
爬虫是什么
网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
通俗地讲,我们把互联网比作一张大蜘蛛网,每个站点资源比作蜘蛛网上的一个结点,爬虫就像一只蜘蛛,按照设计好的路线和规则在这张蜘蛛网上找到目标结点,获取资源。
为什么使用爬虫
为什么我们需要使用爬虫呢?
大家可以想象一下一个场景:你非常崇拜一个微博名人,对他的微博非常着迷,你想把他十年来微博上的每一句话摘抄下来,制作成名人语录。这个时候你怎么办呢?手动去 Ctrl+C 和 Ctrl+V 吗?这种方法确实没错,数据量小的时候我们还可以这样做,但是数据成千上万的时候你还要这样做吗?
我们再来想象另一个场景:你要做一个新闻聚合网站,每天需要定时去几个新闻网站获取最新的新闻,我们称之为 RSS 订阅。难道你会定时去各个订阅网站复制新闻吗?恐怕个人很难做到这一点吧。
上面两种场景,使用爬虫技术可以很轻易地解决问题。所以,我们可以看到,爬虫技术主要可以帮助我们做两类事情:一类是数据获取需求,主要针对特定规则下的大数据量的信息获取;另一类是自动化需求,主要应用在类似信息聚合、搜索等方面。
爬虫的分类
从爬取对象来看,爬虫可以分为通用爬虫和聚焦爬虫两类。
通用网络爬虫又称全网爬虫(Scalable Web Crawler),爬行对象从一些种子 URL 扩充到整个 Web,主要为搜索引擎和大型 Web 服务提供商采集数据。这类网络爬虫的爬取范围和数量巨大,对于爬行速度和存储空间要求较高,对于爬行页面的顺序要求相对较低。例如我们常见的百度和谷歌搜索。我们输入关键词,它们会从全网去找关键词相关的网页,并且按照一定的顺序呈现给我们。
相关推荐
难度: 中级提升| VIP免费
难度: 基础入门| VIP免费
难度: 中级提升| VIP免费
难度: 基础入门| VIP免费
难度: 基础入门| VIP免费
难度: 基础入门| VIP免费
难度: 中级提升| VIP免费
难度: 基础入门| VIP免费
难度: 基础入门| VIP免费
难度: 基础入门| VIP免费
麻麻说名字长才有人看
学习第12课:会话和cookie 2022-10-29
麻麻说名字长才有人看
现在的github.com网站没有form data ,也没有commit:了
老师怎么办?
学习第16课:会话维持实现 2022-10-19
麻麻说名字长才有人看
学习第13课:获取知乎cookie 2022-10-18
麻麻说名字长才有人看
学习第10课:状态码 2022-10-18
麻麻说名字长才有人看
上传的文件是中文的时候,怎么使返回打开网站也是中文?
学习第10课:状态码 2022-10-18
麻麻说名字长才有人看
学习第2课:requests库安装及使用 2022-10-18
麻麻说名字长才有人看
浏览器没有cookie部分怎么办![[生病]](https://static.yutu.cn/yutu/layui/images/face/15.gif)
学习第2课:requests库安装及使用 2022-10-18
麻麻说名字长才有人看
学习第2课:requests库安装及使用 2022-10-18
麻麻说名字长才有人看
学习第2课:requests库安装及使用 2022-10-18
羽兔_495576787
学习第2课:requests库安装及使用 2022-09-06