01_爬虫的基本概念和流程

发布时间:2019-06-11 21:30:21编辑:auto阅读(1745)

    为什么我们要学习爬虫?学习爬虫有什么意义?

    • 进行数据分析,可以爬取网站上面的数据,来进行数据分析
    • 我们现在身处大数据时代,大数据的数据是怎么来的?
      • 爬虫来获取(方法之一)
        • 比如微博的微指数可以看热词的趋势
      • 从官方下载
        • 利用爬虫下载
      • 买数据
      • 很多网页会通过cookie来获取用户的浏览信息,然后保存到后台形成大数据
    • 学完爬虫把爬取到的内容直接呈现出来
      • 做成新闻网页等等
      • 视频网页等等
      • 音乐app网页等
    • 其他用途
      • 12306抢票
      • 微信公众号的爬取
      • 短信轰炸
      • 网络上的投票

    爬虫的定义是什么呢?

    • 网络爬虫又叫网页蜘蛛,网络机器人
      • 模仿客户端发送网络请求,接受请求响应
      • 按照一定的规则,自动地抓取互联网信息的程序
      • 原则上,只要是浏览器能做的事,爬虫都能做
    • 爬虫一般分为哪几类?
      • 通用爬虫
        • 搜素引擎的爬虫
      • 聚焦爬虫
        • 针对特定引擎特定网站的爬虫
        • 我们重点写的是聚焦爬虫

    爬虫的合法性

    • 什么是robots协议?
      • 通过网站的robots协议告诉搜索引擎哪些网页可以抓取哪些不可以抓取
      • 一般在当前网站的根目录里的/robots.txt
      • 是道德层面上的,如果爬取的数据只是个人使用,那还好
        • 不过最好还是遵守
    • 如果是个人分析所用,不泄漏转载 合法
    • 如果是真实数据,比如营业地址,电话清单等, 合法
      • 但如果是黑客手段获取的某公司人员的个人信息,这个不好了
    • 如果是原创作品,最好不要转载

    聚焦爬虫的基本流程是什么?

    • 首先准备我们要提取的url_list
      • 然后我们发送请求获取响应
      • 从响应里面提取我们要的数据
        • 把数据提取出来
        • 把下一步要进行发送请求的url提取出来
          • 重复1-3
      • 把数据保存到数据库,或者导出为csv等格式的文件

关键字