Python 简单业务爬虫

发布时间:2019-06-22 23:47:03编辑:auto阅读(1802)


    如何快速下载贴吧图片呢?

    #!/usr/bin/python
    # -*- coding: UTF-8 -*-
    import urllib
    import re
    
    def getHtml(url):
        page = urllib.urlopen(url)
        html = page.read()
        return html
    
    def getImg(html):
        reg = r'src="(.+?\.jpg)" pic_ext'
        imgre = re.compile(reg)
        imglist = re.findall(imgre,html)
        x = 0 
        for imgurl in imglist:
            urllib.urlretrieve(imgurl,'%s.jpg' % x)
            x+=1
    
    html = getHtml("http://tieba.baidu.com/p/2460150866")                                                                                                                  
    
    print getImg(html)


关键字