学习爬虫的第一天

发布时间:2019-06-07 20:35:07编辑:auto阅读(1970)

    爬虫是什么?

    网络就如同蜘蛛网,而数据相当于里面的节点,爬虫如同蜘蛛,通过节点去获取蜘蛛网上的内容,获取想要的数据信息

    获取网页数据方式:

    1、浏览器访问——下载网页数据

    2、模拟浏览器对网页进行访问——解析数据——将所需要的内容保存在本地

    其中第二种方式就是爬虫的整体流程

     

    首先先了解下关于网页必备知识

    https和http的区别?

    http:明文显示,端口号为80

    https:进行加密,添加数字证书,端口号为443

     

    网络请求方式

    GET

    POST

    PUT

    HEAD

    DELETE

    PATCH

    简单说下GET和POST区别

    GET请求:HTPP默认的请求方式是GET;

    GET请求的特点:

    *没有请求体,携带数据保存在URL后面

    *GET请求携带的参数必须在4k之内

    *GET请求的携带的数据由于封装在URL后面,所以会暴露在浏览器地址栏中

     

    POST请求的特点

    *有请求体,数据保存在请求体中

    *上传提交的数据可以无限大

    *请求体中如果存在中文,会使用URL编码!

     第一次写博客,过程不太熟悉,望大神们多加指导2019-05-23

关键字

上一篇: 社区发现

下一篇: [Python]有关pygame库中的f