百度图片搜索爬虫提效作业完成-只打开一次浏览器，打开多个页面

周文扬发表于2021年02月11日

import reimport randomimport requests #request库用于获取网络资源pip install requests #反爬措施user_agents = ['Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20130406 Firefox/23.0',   \'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0', \  'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/533+ (KHTML, like Gecko) Element Browser 5.0', \  'IBM WebExplorer /v0.94', \  'Galaxy/1.0 [en] (Mac OS X 10.5.6; U; en)', \  'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)', \  'Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14', \  'Mozilla/5.0 (iPad; CPU OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) Version/6.0 Mobile/10A5355d Safari/8536.25', \  'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1468.0 Safari/537.36', \  'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.0; Trident/5.0; TheWorld)']r=random.randint(0,9)fakeHeaders=user_agents[r] browser='' #定义一个全局变量，以配合完成只启动一个浏览器的功能。 #用pyppeteer爬取网页def getHtml(urllist): #暂时适用于百度图片搜索 dalb=[] import asyncio #Python 3.6之后自带的协程库  import pyppeteer as pyp for url in urllist: async def asGetHtml(url): #获取url对应网页的源代码   #如下三行代码是完成在启动一个浏览器的前提下打开多个网页的功能 global browser   if urllist.index(url)==0: browser = await pyp.launch(headless=False) # 启动Chromium,browser即为Chromium浏览器，非隐藏启动 page = await browser.newPage() # 在浏览器中打开一个新页面 await page.setUserAgent(fakeHeaders) #反反爬措施 await page.evaluateOnNewDocument( '() =>{ Object.defineProperties(navigator,\ { webdriver:{ get:()=> false }})}')#反反爬措施 #用pyppeteer获取网页 await page.goto(url) # 装入url对应的网页 text = await page.content() # page.coutent就是网页源代码字符串  if urllist.index(url)==len(urllist)-1:  #当爬完最后一个关键词，关闭网页。 await browser.close() # 关闭浏览器 return text  #速度大约比用requests.get慢5,6倍 m = asyncio.ensure_future(asGetHtml(url)) #协程外启动协程   asyncio.get_event_loop().run_until_complete(m) #等待协程结束   dalb.append(m.result()) return dalb def getBaiduPictures(gjc,n):#下载n个百度图片搜来的关于word的图片保存到本地 url = "https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111111&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=" urljh = [url+i for i in gjc] hqsj = getHtml(urljh) for d in range(len(hqsj)): html = hqsj[d] r=re.findall('thumbURL":"(.*?)"',html)[0:n] for i in range(n): x = r[i] if not (x.lower().endswith(".jpg") or x.lower().endswith(".jpeg") or x.lower().endswith(".png")): continue#只获取后缀名是.jpg或.png的图片文 try: pos = x.rfind(".") p = requests.get(x, stream=True) f = open('C:\\Users\\明月心\\temp\\{0}{1}{2}'.format(gjc[d],i,x[pos:]), "wb") #"wb"表示二进制写方式打开文件 f.write(p.content)  #图片内容写入文件 f.close() except Exception as e : pass so = ["佳人","美景","牛"]  #定义多个搜索关键词getBaiduPictures(so,10) #获取各关键词搜索图片结果的前十张

发表回复

百度图片搜索爬虫提效作业完成-只打开一次浏览器，打开多个页面

友情链接

关注我们

关于我们