博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
web crawling(plus6) pic mining
阅读量:6811 次
发布时间:2019-06-26

本文共 1175 字,大约阅读时间需要 3 分钟。

#Author:Mini #!/usr/bin/env python import urllib.request import re import urllib.error headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0") opener=urllib.request.build_opener() opener.addheaders=[headers] urllib.request.install_opener(opener) keyword="连衣裙" key=urllib.request.quote(keyword) for i in range(1,101):    try:        url="https://s.taobao.com/search?q="+key+"&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20171003&ie=utf8&bcoffset=4&ntoffset=4&p4ppushleft=1%2C48&s="+str(i*44)        data=urllib.request.urlopen(url).read().decode("utf-8","ignore")        pat1='"pic_url":"//(.*?)"'        pic=re.compile(pat1).findall(data)        print("success!")        print(pic)        for j in range(0,len(pic)):            thispic=pic[j]            thispicurl="http://"+thispic            picf="E:/m/"+str(i)+"."+str(j)+".jpg"            urllib.request.urlretrieve(thispicurl,filename=picf)    except urllib.error.URLError as e:        if hasattr(e, "code"):            print(e.code)        if hasattr(e, "reason"):            print(e.reason)

转载于:https://www.cnblogs.com/rabbittail/p/7623819.html

你可能感兴趣的文章
设计模式之模板方法模式
查看>>
关于配置
查看>>
如何更好的通过Inflate layout的方式来实现自定义view
查看>>
smali语法中文版
查看>>
快如闪电、超轻量级的基于.Net平台的依赖注入框架Ninject
查看>>
Oracle数据库的经典问题 snapshot too old是什么原因引起的
查看>>
linux 查看系统信息命令(比较全)
查看>>
[Bootstrap]modal弹出框
查看>>
14.7-2
查看>>
士兵杀敌(三)(线段树)
查看>>
类string的构造函数、拷贝构造函数和析构函数
查看>>
OC 消息机制本质
查看>>
BT.601与BT.656
查看>>
用css3让溢出内容显示省略号
查看>>
算法排序之冒泡排序
查看>>
IIS、Asp.net 编译时的临时文件路径(转载)
查看>>
Curvilinear structure detections
查看>>
[Android Pro] 临时关闭selinux模式 setenforce 0
查看>>
ASP.NET Web API WebHost宿主环境中管道、路由
查看>>
BZOJ4340 : BJOI2015 隐身术
查看>>