博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python爬某个网站的图片
阅读量:4980 次
发布时间:2019-06-12

本文共 1857 字,大约阅读时间需要 6 分钟。

# _*_ coding: gbk _*_import urllibimport urllib2import reclass Spider:        def getImage(self,html):        request=urllib2.Request(html);        page=urllib2.urlopen(html);        html=page.read();                pattern=r'src="http:.*\.jpg'        imglist=re.findall(pattern,html);        cnt=0        for i in imglist:            print i[5:];            urllib.urlretrieve(i[5:], 'E:\\images\%s.jpg' % cnt);            cnt+=1            if cnt==2:                break;                print 'the end'        if __name__=="__main__":    print 'hello'    s=Spider();    #html=r"http://baike.baidu.com/link?url=pj6QaA2Zyrxx2WcD4f7vN50LWVIZjJUKYdnnLGMOWnmInlALGH4dXmU86hE3Ar-jmaiahjf2MiEZ3n_0WCOUlFuKwVfYZNKnBwxidD1cC3i";    html=r"http://baike.baidu.com/link?url=rHaKx7RPBWuR4MxzY0BPhwbLKH4DEdwKPN8EYH-78Zzm7IMUuFTYM0eUZw-j27lHxDxyyNiqkjUg4JG8FvyjNUsuqiTzLixsNSXUtTWiOpQqrtxbf4hkj-n6gF1Nyn4D"    s.getImage(html);

  

 

python从某个网站上面爬很多图片的url,主要是从百度风云榜上面爬的,男演员,女演员,男歌手,女歌手,总共200张

# _*_ coding: gbk _*_import urllibimport urllib2import reimport osclass Spider:        def getImage(self,html):        request=urllib2.Request(html);        page=urllib2.urlopen(html);        html=page.read();                pattern=r'href="http:.*简介'        imglist=re.findall(pattern,html);        with open(r'e:\\images\\paths.txt','w+') as f:            for i in imglist:                print i[6:len(i)-6];                f.write(i[6:len(i)-6]);                f.write('\n')        print len(imglist)        print 'the end'  if __name__=="__main__":    print 'hello'    s=Spider();    #html=r"http://baike.baidu.com/link?url=pj6QaA2Zyrxx2WcD4f7vN50LWVIZjJUKYdnnLGMOWnmInlALGH4dXmU86hE3Ar-jmaiahjf2MiEZ3n_0WCOUlFuKwVfYZNKnBwxidD1cC3i";    html=r'http://top.baidu.com/buzz?b=18&qq-pf-to=pcqq.group'    s.getImage(html);

  

转载于:https://www.cnblogs.com/wuxiangli/p/6099334.html

你可能感兴趣的文章
查找算法总结
查看>>
10-4. 字符串循环左移(20)
查看>>
一个js验证类
查看>>
CListUI控件的认识
查看>>
通过单元测试理解spring容器以及dubbo+zookeeper单元测试异常处理
查看>>
接口测试自动化框架搭建
查看>>
IDEA如何打包可运行jar的一个问题
查看>>
单例模式的八种写法比较
查看>>
Gatling的进阶三
查看>>
js --基本语法3 函数,数组,堆棧
查看>>
protobuf 测试 & Makefile example
查看>>
理解Linux系统负荷
查看>>
angular 初学(二)ng-class ng-disabled
查看>>
android 检查网络连接状态实现步骤
查看>>
网上商城(OnlineMall)用户模块
查看>>
安装opencv 在ubuntu
查看>>
《信息安全技术》实验三 数字证书应用
查看>>
Leetcode: Search in Rotated Sorted Array
查看>>
对象如何实现排序
查看>>
高性能NIO框架Netty-对象传输
查看>>