爬虫笔记1：Python爬虫常用库

发布时间：2019-09-17 07:45:25编辑：auto阅读（2881）

请求库：
1、urllib：urllib库是Python3自带的库（Python2有urllib和urllib2，到了Python3统一为urllib），这个库是爬虫里最简单的库。
2、requests：requests属于第三方库，使用起来比urllib要简单不少，且功能更加强大，是最常用的请求库。
3、Selenium：Selenium属于第三方库，它是一个自动化测试工具，可以利用它自动完成浏览器的操作，如点击，下拉，拖拽等等，通常完成ajax复杂的操作。

解析库：
1、lxml：属于第三方库，支持HTML和xml的解析，支持XPath的解析方式，解析效率非常高。
2、Beautiful Soup：属于第三方库，API强大，使用也方便。
3、pyquery：属于第三方库，功能强大在于css选择器上，对jQuery比较了解的话使用pyquery将会十分方便，因此我也比较推荐使用pyquery。

存储库：
1、PyMySQL：MySQL作为最常用的数据库之一，PyMySQL也是爬虫后存储数据的非常好的选择，它可以实现对数据库的创建表，增删查改等操作。
2、PyMongo：PyMongo是和MongoDB进行交互的库。
3、redis-py：redis-py是和Redis进行交互的库。

图像识别库：
1、tesserocr：tesserocr是Python使用OCR技术来识别图像，本质是对tesseract做一层API的封装，所以在安装tesserocr之前必须先安装tesseract。

爬虫框架
1、pyspider：pyspider 是由国人 binux 编写的强大的网络爬虫系统，它带有强大的 WebUI、脚本编辑器、任务监控器、项目管理以及结果处理器，它支持多种数据库后端、多种消息队列、JavaScript 渲染页面的爬取。依赖库有PhantomJS。
2、Scrapy：功能极其强大，依赖库较多。

关键字：

上一篇： Python运算符重载

下一篇： H3C交换机型号区分



搜索

热门推荐

最新文章

Python搭建一个RAG系统(分片/检索/召回/重排序/生成)
 2178°
Browser-use:智能浏览器自动化(Web-Agent)
 2870°
使用 LangChain 实现本地 Agent
 2396°
使用 LangChain 构建本地 RAG 应用
 2338°
使用LLaMA-Factory微调大模型的function calling能力
 2883°
复现一个简单Agent系统
 2345°
LLaMA Factory-Lora微调实现声控语音多轮问答对话-1
 3135°
LLaMA Factory微调后的模型合并导出和部署-4
 5152°
LLaMA Factory微调模型的各种参数怎么设置-3
 4982°
LLaMA Factory构建高质量数据集-2
 3557°

博主信息

姓名：Run
职业：谜
邮箱：383697894@qq.com
定位：上海 · 松江

扫我打开

友情链接

百度 淘宝 腾讯 慕课网 CSDN 博客园 51cto博客