-
auto
2019-05-12 20:16:15
python
2028°
20
「Google面试题」 【题目】 判断一个字符串是否包含重复字符。例如:“good”就包含重复字符‘o’,而“abc”就不包含重复字符 【题目分析】 对字符串进行遍历,统计每一个字符的个数,如果不为1则跳出遍历并返回True 【解答】 1 #!/Users/minutesheep/.pyenv/sh ...
-
auto
2019-05-12 20:14:45
python
2071°
20
[TOC] 1. 新建scrapy项目 得到了如下的文件 其内部文件结构如下: 2. 爬虫文件: 我们打算抓取:http://www.itcast.cn/channel/teacher.shtml 网站里的所有讲师的姓名、职称和个人信息。 2.1. 查看需要爬取内容存在哪里: 我们可以通过respo ...
-
auto
2019-05-12 20:14:45
python
1815°
20
创建一个名为 Restaurant 的类,其方法 __init__() 设置两个属性: name 和 type 1、创建一个名为 describe_restaurant() 的方法,前者打印前述两项信息 2、创建一个名为 open_restaurant() 的方法,打印一条消息,指出餐馆正在营业 3 ...
-
auto
2019-05-12 20:14:45
python
1952°
20
[TOC] 1. 目标 目标:https://hr.tencent.com/position.php?&start=0 a 爬取所有的职位信息信息 职位名 职位url 职位类型 职位人数 工作地点 发布时间 2. 网站结构分析 3. 编写爬虫程序 3.1. 配置需要爬取的目标变量 3.2. 写爬虫文 ...
-
auto
2019-05-12 20:14:45
python
2073°
20
[TOC] 1. Scrapy介绍 1.1. Scrapy框架 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。 (引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。 (调 ...
-
auto
2019-05-12 20:14:45
python
1889°
20
一、写在前面 有时候你的爬虫刚开始的时候可以正常运行,能够正常的爬取数据,但是过了一会,却出现了一个“403 Forbidden",或者是”您的IP访问频率太高“这样的提示,这就意味着你的IP被ban了,好一点的情况是过一段时间你就能继续爬取了,坏一点的情况就是你的IP已经进入别人的黑名单了,然后你 ...
-
auto
2019-05-12 20:14:45
python
1847°
20
说下拿到这道题时的思路: 给人的感觉并不难,首先的想法就是遍历数组中每一个元素,判断如果为0则删除,同时末尾增加0 上代码(通过240ms)击败20%的用户 代码非常简洁,只有短短4行,但是对比其他方法效率却不高, 分析代码的时间复杂度 外层for循环需要N次,remove(i)需要N次,appen ...
-
auto
2019-05-12 20:14:45
python
1966°
20
一.yum源理解 yum源仓库的地址 在/etc/yum.repos.d/,并且只能读出第一层的repo文件 yum仓库的文件都是以.repo结尾的 二.下载阿里云的.repo仓库文件 ,放到/etc/yum.repos.d/ 备份原本的仓库文件 1.下载第一个阿里云仓库文件 wget -O /et ...
-
auto
2019-05-12 20:14:45
python
2235°
20
说下Python3不使用gdb的自身调试 前情提要:服务器莫名卡死,用网上的方法用gdb,下载了很多组件,包括那个libpython.py,都没什么用,看不到堆栈,也试了保存core文件等等 大事找官方:官方介绍了python3的调试方法——pdb 用法: 进入到你程序的目录 python3 >>> ...
-
auto
2019-05-12 20:14:45
python
1886°
20
[TOC] 1. Spider Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 class scrapy.Spider是最 ...
-
auto
2019-05-12 20:14:45
python
1947°
20
[TOC] 1.CrawlSpider介绍 通过下面的命令可以快速创建 CrawlSpider模板 的代码: 它是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制,从爬取的网页中获 ...
-
auto
2019-05-12 20:14:45
python
2017°
20
在编写python文件时,一般会在入口文件中加入if __name__ == "__main__", 这样当这个脚本文件执行时就会执行这个语句下面的内容,而如果这个脚本文件被当作模块引入(import xxx)到其他文件中时这个下面的语句就不会执行。 在flask中还有另一个作用 一般在入口文件中, ...
-
auto
2019-05-12 20:14:45
python
2141°
20
python多线程有个全局解释器锁(global interpreter lock)。 这个锁的意思是任一时间只能有一个线程使用解释器,跟单cpu跑多个程序一个意思,大家都是轮着用的,这叫“并发”,不是“并行”。 多进程间共享数据,可以使用 multiprocessing.Value 和 multi ...
-
auto
2019-05-12 20:14:45
python
1652°
20
```python class OrderBy(object): def __init__(self, sequence, *condition, **extra_condition): """ 排序初始化条件 condition为优先排序条件,序列内元素必须为字典类型 extra_conditio... ...
-
auto
2019-05-12 20:14:45
python
1833°
20
37、对10个数进行排序。 程序分析:可以利用选择法,即从后9个比较过程中,选择一个最小的与第一个元素交换,下次类推,即用第二个元素与后8个进行比较,并进行交换。 38、求一个3*3矩阵主对角线元素之和。 程序分析:利用双重for循环控制输入二维数组,再将a[i][i]累加后输出。 39、有一个已经 ...
-
auto
2019-05-12 20:14:45
python
1932°
20
原版: TCP分为客户端(client)和服务器(server),每次服务器只能为客户端提供一次的下载服务。 改良版: TCP分为客户端(client)和服务器(server), (1)每次服务器能为客服端循环提供下载服务, (2)服务器能够识别出不存在的文件并且发送客户端, (3)客户端能够通过输 ...
-
auto
2019-05-12 20:14:45
python
1859°
20
迭代器的执行流程,以及说明可迭代对象不一定是迭代器,但迭代器一定是可迭代对象 实例1 实例1的优化 ...
-
auto
2019-05-12 20:14:45
python
2543°
20
原因:python是64位的python,而windll.LoadLibrary只能由32位的python使用 参考: 64位Python调用32位DLL方法(一) 解决方法:使用32位的python(切记版本不要太新,本人一开始使用最新的32位python3.7.2再次报错,换成python3.6 ...
-
auto
2019-05-12 20:14:45
python
1961°
20
一、闭包 1.举例 注意:inner()是局部变量,在全局范围不可调用(即不能直接调用inner()函数),但是在法二中,在执行完 f = outer() 之后,outer()函数就已经结束,执行f()的时候却可以调用inner()函数,并输出x的值,这是因为outer()里 return 的 in ...
-
auto
2019-05-12 20:14:45
python
1907°
20
向后台提交数据除了前端url,form表单,Ajax外还可以用cookie,secure_cookie,提交更多信息可以在用cookie基础上用session, cookie,secure_cookie提交用户数据:浏览器访问1页面,后端判断前端浏览器提供的用户对不对,对的话,设置cookie或se ...