前言

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

爬虫可以帮助我们在开发中快速获得网页上所需要的信息,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。

准备

1.一台计算机(我在说废话)
2.基础的H5,CSS知识
3.基础的Python知识

运行流程

1.发出Request
通过URL向网站发出请求
2.获得Response
通过网站服务器发出的数据获得网站的内容
3.解析Response
根据所获得的Response的内容进行解析,如果是HTML代码,则可以使用网页解析器进行解析,如果是Json数据,则可以转换成Json对象进行解析,如果是二进制的数据,则可以保存到文件进行进一步处理。
4.进行后续的操作
最后修改:2020 年 05 月 13 日 02 : 42 PM
欢迎投食