Python的系统管理_07_pytho

发布时间:2019-06-26 09:48:38编辑:auto阅读(2050)

    一个通过正则匹配来下载指定页面图片的示例,

    几个可能出错的地方都用print打印出来,可以观察是否正确。


    目标站点::http://www.tupian.com/tag/xinggan

    #引入数据包

    import re

    import urllib

    #定义获得urlHTML代码的方法。

    def getHtml(url):

    page=urllib.urlopen(url)

    html = page.read()

    return html

    #获得指定网站的源代码

    html =getHtml("http://www.tupian.com/tag/xinggan")

    #显示出来查看是否正确。

    print html

    clear

    #正则表达式对比截取图片文件路径

    printre.findall(r'src="(.*?\.jpg)"alt',html)


    imglist =re.findall(r'src="(.*?\.jpg)"alt',html)

    #迭代下载图片,另存为1的叠加

    x = 0

    for imgurl in imglist:

    urllib.urlretrieve(imgurl,'%s.jpg' %x)

    x+=1



关键字