课堂交流区
帖子详情

Requests库的爬取性能分析

嵩天发表于2023年03月09日

<p>尽管Requests库功能很友好、开发简单（其实除了import外只需一行主要代码），但其性能与专业爬虫相比还是有一定差距的。请编写一个小程序，“任意”找个url，测试一下成功爬取100次网页的时间。（某些网站对于连续爬取页面将采取屏蔽IP的策略，所以，要避开这类网站。）</p><p>请回复代码，并给出url及在自己机器上的运行时间。</p><p><br/></p><p><br/></p><p><br/></p>

64 回复

王皓阳041319250

1楼

王皓阳041319250 发表于2023年03月14日

0 | 0 | 举报

<p><code class="brush:python;toolbar:false" >import requests import time start = time.perf_counter() for i in range(100):     try:         r = requests.get("https://python123.io/", timeout=30)         r.raise_for_status()         r.encoding = r.apparent_encoding     except:         print("产生异常") end = time.perf_counter() print(end - start)</code>爬取https://python123.io100次耗时63.7722963s。</p>

王皓阳041319250 发表于2023年03月14日

0 | 评论(0) | 举报

添加评论

Zouyea

2楼

Zouyea 发表于2023年03月19日

0 | 0 | 举报

<p>import time<br >import requests<br >def getHTMLtext(url):<br >    try:<br >        r = requests.get(url,timeout = 30)<br >        r.raise_for_status()<br >        r.encoding = r.apparent_encoding<br >        return r.text<br >    except:<br >        return '产生异常'<br ><br >start = time.perf_counter()<br >if __name__ == '__main__':<br >    for i in range(100):<br >        url = 'https://www.fishc.com.cn'<br >        getHTMLtext(url)<br >    dur = time.perf_counter() - start<br >    print(f'执行程序一共耗费了{dur}s')</p><p><br ></p><p>爬取鱼C工作室(https://www.fishc.com.cn)100次耗时45.1654737s</p>

Zouyea 发表于2023年03月19日

0 | 评论(0) | 举报

添加评论

mooc109659764727099005

3楼

mooc109659764727099005 发表于2023年03月19日

0 | 0 | 举报

<p>import time<br >import requests<br >def getHTML(url):<br >    try:<br >        r = requests.get(url, timeout=30)<br >        r.raise_for_status()<br >        r.encoding = r.apparent_encoding<br >        return r.text<br >    except:<br >        return '产生异常'<br >start = time.time()<br >for i in range(100):<br >    url = f'https://movie.douban.com/'<br >    getHTML(url)<br >end = start = time.time()<br >print(f'time:{i}s'.format(i=end-start))</p><p><br ></p><p>运行结果 time:99s</p>

mooc109659764727099005 发表于2023年03月19日

0 | 评论(0) | 举报

添加评论

φk1260072289826808925

4楼

φk1260072289826808925 发表于2023年03月20日

1 | 0 | 举报

<p><code class="brush:python;toolbar:false" >import requests import time def getHTML(Url):     try:         r = requests.get(Url, timeout=30)         r.raise_for_status()         r.encoding = r.apparent_encoding     except:         print("产生异常") start = time.perf_counter() if __name__ == "__main__":     for i in range(100):         url = "https://www.icourse163.org"         getHTML(url)     end = time.perf_counter()     print("爬虫100次mooc官网用时为'{}'s".format(end - start))</code></p>

φk1260072289826808925 发表于2023年03月20日

1 | 评论(0) | 举报

添加评论

小政今天也很困

5楼

小政今天也很困发表于2023年03月20日

0 | 0 | 举报

<p>import requests</p><p>import time</p><p><br ></p><p><br ></p><p>def getHTML(Url):</p><p>    try:</p><p>        r = requests.get(Url, timeout=30)</p><p>        r.raise_for_status()</p><p>        r.encoding = r.apparent_encoding</p><p>    except:</p><p>        print("产生异常")</p><p><br ></p><p><br ></p><p>start = time.perf_counter()</p><p>if __name__ == "__main__":</p><p>    for i in range(100):</p><p>        url = "https://www.hbue.edu.cn"</p><p>        getHTML(url)</p><p>    end = time.perf_counter()</p><p><br ></p><p>    print("爬虫100次湖北经济学院官网用时为'{}'s".format(end - start))</p><p><br ></p><p>爬虫100次湖北经济学院官网用时为'20.27549691699994's<img src="https://mooc-image.nosdn.127.net/c01ee606ff364afc8c0947b7664465aa.png" /></p>

小政今天也很困发表于2023年03月20日

0 | 评论(0) | 举报

添加评论

huihui1996

6楼

huihui1996 发表于2023年03月22日

0 | 0 | 举报

<p><code class="brush:python;toolbar:false" >import requests import time def getHTMLText(url):     try:         r = requests.get(url,timeout = 30)         r.raise_for_status()         r.encoding = r.apparent_encoding         return r.text     except:         return "产生异常" if __name__ == "__main__":     url = "https://www.bilibili.com/"     start_time = time.time()     for i in range(100):         getHTMLText(url)     end_time = time.time()     print("The time is :", end_time - start_time)</code>爬取B站，总用时：52.18911814689636s</p>

huihui1996 发表于2023年03月22日

0 | 评论(0) | 举报

添加评论

无端ykt1460790672428

7楼

无端ykt1460790672428 发表于2023年03月22日

0 | 0 | 举报

<p>import requests</p><p>import time</p><p><br ></p><p><br ></p><p>def getHtmlText(url):</p><p>    try:</p><p>        start_time=time.time()</p><p>        hd={"user-agent":"Mozilla/5.0"}</p><p>        r=requests.get(url,headers=hd,timeout=30)</p><p>        r.raise_for_status()</p><p>        r.encoding=r.apparent_encoding</p><p>    except:</p><p>        return "失败"</p><p>def main():</p><p>    url="https://movie.douban.com/top250"</p><p>    start_time=time.time()</p><p>    for i in range(100):</p><p>        getHtmlText(url)</p><p>    finish_time=time.time()-start_time</p><p>    print(finish_time)</p><p><br ></p><p>main()</p><p><code class="brush:python;toolbar:false" ><br ></code></p>

无端ykt1460790672428 发表于2023年03月22日

0 | 评论(0) | 举报

添加评论

YD.k1262824198151654282

8楼

YD.k1262824198151654282 发表于2023年03月23日

0 | 0 | 举报

<p>import requests<br >import time<br ><br >def getHTMLText(url):<br >    try:<br >        r = requests.get(url, timeout=30)<br >        r.raise_for_status()  # 如果状态不是200，引发HTTPError异常<br >        r.encoding = r.apparent_encoding<br >        return r.text<br >    except:<br >        return "产生异常！"<br ><br >if __name__ == "__main__":<br >    url = "https://www.bilibili.com"<br >    start_time = time.time()<br >    for i in range(100):<br >        getHTMLText(url)<br >    end_time = time.time()<br >    print(start_time)<br >    print(end_time)<br >    print("爬取时间： ", end_time - start_time)<br ></p><p><br ></p><p>1679542387.7249022</p><p>1679542438.832644</p><p>爬取时间：  51.107741832733154</p><p><br ></p>

YD.k1262824198151654282 发表于2023年03月23日

0 | 评论(0) | 举报

添加评论

9楼

1900300730石海弘发表于2023年03月24日

0 | 0 | 举报

<p><code class="brush:python;toolbar:false" >import requests import time def HTMLtest(url):     try:         r=requests.get(url,timeout=30)         r.encoding=r.apparent_encoding         r.raise_for_status()         return r.text     except:         return "产生异常" url="https://www.baidu.com" start_time=time.time() for i in range(100):     HTMLtest(url) end_time=time.time() print("爬取百度100次需要时间：%.10f"%(end_time-start_time))</code>爬取百度100次需要时间：6.2275991440</p>

1900300730石海弘发表于2023年03月24日

0 | 评论(0) | 举报

添加评论

10楼

城轨2004李宸泽发表于2023年03月24日

0 | 0 | 举报

importrequestsimporttimedefHTMLtest(url):try:r=requests.get(url,timeout=30)r.encoding=r.apparent_encodingr.raise_for_status()returnr.textexcept:return"产生异常"url="https://www.baidu.com"start_time=time.time()foriinrange(100):HTMLtest(url)end_time=time.time()print("爬取百度100次需要时间：%.10f"%(end_time-start_time))爬取百度100次需要时间：6.2275991440

城轨2004李宸泽发表于2023年03月24日

0 | 评论(0) | 举报

添加评论

11楼

whyinxj110 发表于2023年03月26日

0 | 0 | 举报

<p>import requests<br >import time<br ><br >def gethtmltxt(url):<br >    try:<br >        r = requests.get(url,timeout=30)<br >        r.raise_for_status()<br >        r.encoding = r.apparent_encoding<br >        return r.text<br >    except:<br >        return "爬取异常"<br >if __name__=="__main__":<br >    url = "https://www.baidu.com"<br >    star = time.time()<br >    for i in range(100):<br >        gethtmltxt(url)<br >    end = time.time()<br >    print("爬取百度首页100次耗时{}秒".format(end-star))</p><p><br ></p><p>爬取百度首页100次耗时8.04139757156372秒<br ></p>

whyinxj110 发表于2023年03月26日

0 | 评论(0) | 举报

添加评论

乌波乌波

12楼

乌波乌波发表于2023年03月27日

0 | 0 | 举报

<p>import requests<br >import time<br >def getHTMLText(url):<br >    try:<br >        r = request.get(url, timeout=30)<br >        r.raise_for_status()<br >        r.encoding=r.apparent_encoding<br >        return r.text<br >    except:<br >        return "产生异常"<br >start_time=time.perf_counter()<br >url="https://www.icourse163.org/"<br >for i in range(100):<br >    getHTMLText(url)<br >end_time=time.perf_counter()<br >print('爬取"{}"网站100次耗时{:.6f} s。'.format(url,end_time-start_time))<br ><br ><br >爬取"https://www.icourse163.org/"网站100次耗时0.000056 s。<br ></p>

乌波乌波发表于2023年03月27日

0 | 评论(0) | 举报

添加评论

沙漠绿洲k1229419850896922880

13楼

沙漠绿洲k1229419850896922880 发表于2023年03月27日

0 | 0 | 举报

<p>import requests</p><p>import time</p><p>def getHTMLText(url):</p><p>    try:</p><p>        r=requests.get(url,timeout=30)</p><p>        r.raise_for_status()</p><p>        r.encoding=r.apparent_encoding</p><p>        return r.text</p><p>    except:</p><p>        return "产生异常"</p><p>url=r'https://www.runoob.com/python3/python3-date-time.html#comment-35499'</p><p>a=time.perf_counter()</p><p>for i in range(100):</p><p>    getHTMLText(url)</p><p>b=time.perf_counter()</p><p>print("爬取了{}网址一百次耗费时间{:.6f}".format(url,b-a))</p><p>        </p><p><br ></p>

沙漠绿洲k1229419850896922880 发表于2023年03月27日

0 | 评论(0) | 举报

添加评论

收旧铜凹铁

14楼

收旧铜凹铁发表于2023年03月28日

0 | 0 | 举报

<p># -*- coding:utf-8 -*-</p><p><br ></p><p>import requests</p><p>from datetime import datetime</p><p><br ></p><p>def get_page_content(url,ii):</p><p>    try:</p><p>        r = requests.get(url,timeout=30)</p><p>        r.raise_for_status()</p><p>        r.encoding = r.apparent_encoding</p><p>        return r.text</p><p>    except:</p><p>        return '第'+str(ii)+'次，爬取失败'</p><p><br ></p><p>def main():</p><p>    url = 'https://www.csdn.net/'</p><p>    print('爬取网站：'+url)</p><p><br ></p><p>    t_start = datetime.now()</p><p>   </p><p>    for ii in range(1,101):</p><p>        get_page_content(url,ii)</p><p>   </p><p>    t_end = datetime.now()</p><p><br ></p><p>    print('爬取100次网页所需时间为',t_end-t_start)</p><p><br ></p><p>if __name__=='__main__':</p><p>    main()</p><p><br ></p><p>结果：</p><p>    爬取网站：https://www.csdn.net/</p><p>    爬取100次网页所需时间为 0:02:41.812902</p>

收旧铜凹铁发表于2023年03月28日

0 | 评论(0) | 举报

添加评论

15楼

2262410212陈文豪发表于2023年03月28日

0 | 0 | 举报

<p>import requests<br >import time<br >url = 'https://baidu.com'<br >def gehttptext(url):<br >    try:<br >        r = requests.get(url,timeout=30)<br >        r.raise_for_status()<br >        r.encoding = r.encoding<br >        return r.text<br >    except:<br >        print("error")<br >def main():<br >    for i in range(1,100):<br >        gehttptext(url)<br >start = time.perf_counter()<br >main()<br >end = time.perf_counter()<br >print("爬取{}网址所用的时间为{:.5f}".format(url,end-start))</p><p>结果为：19.54443s</p>

2262410212陈文豪发表于2023年03月28日

0 | 评论(0) | 举报

添加评论

16楼

专升本监狱学一区罗递容发表于2023年03月29日

0 | 0 | 举报

import requestsimport timeurl = 'https://baidu.com'def gehttptext(url): try: r = requests.get(url,timeout=30) r.raise_for_status() r.encoding = r.encoding return r.text except: print("error")def main(): for i in range(1,100): gehttptext(url)start = time.perf_counter()main()end = time.perf_counter()print("爬取{}网址所用的时间为{:.5f}".format(url,end-start))结果为：19.54443s

专升本监狱学一区罗递容发表于2023年03月29日

0 | 评论(0) | 举报

添加评论

17楼

心心若水发表于2023年04月03日

1 | 0 | 举报

<p>try:</p><p>    import time</p><p>    import requests</p><p>    start_time=time.perf_counter()</p><p>    for i in range(100):</p><p>        r=requests.get('https://www.baidu.com',timeout=30)</p><p>        r.raise_for_status()</p><p>        r.encoding=r.apparent_encoding</p><p>        r.text</p><p>    end_time=time.perf_counter()</p><p>    all_time=end_time-start_time</p><p>    print('成功爬取100次baidu网页首页的时间为：{:.6f}s'.format(all_time))</p><p><br ></p><p><br ></p><p>except:</p><p>    print('程序异常!')</p><p>运行结果：成功爬取100次baidu网页首页的时间为：14.811744s</p>

心心若水发表于2023年04月03日

1 | 评论(0) | 举报

添加评论

18楼

偶遇余温发表于2023年04月05日

0 | 0 | 举报

<p>import requests</p><p>import time</p><p>try:</p><p>    start_time = time.perf_counter()</p><p>    for i in range(100):</p><p>        r = requests.get("https://www.baidu.com",timeout = 30)</p><p>        r.raise_for_status()</p><p>        r.encoding = r.apparent_encoding</p><p>        r.text</p><p>    end_time = time.perf_counter()</p><p>    all_time=end_time-start_time</p><p>    print('成功爬取100次baidu网页首页的时间为：{}s'.format(all_time))</p><p>except:</p><p>    print("程序异常")</p><p><br ></p><p>成功爬取100次baidu网页首页的时间为：10.521762099997432s</p><p><br ></p>

偶遇余温发表于2023年04月05日

0 | 评论(0) | 举报

添加评论

19楼

黑大帅k 发表于2023年04月05日

1 | 0 | 举报

<p><code class="brush:python;toolbar:false" >import requests import time try:     start_time=time.perf_counter()     for i in range(100):         r=requests.get("https://www.baidu.com",timeout=30)         r.raise_for_status()         r.encoding=r.apparent_encoding         r.text     end_time=time.perf_counter()     all_time=end_time-start_time     print("成功爬取100次百度网页首页的时间为：{}s".format(all_time)) except:     print("程序异常")</code><code class="brush:python;toolbar:false" >成功爬取100次百度网页首页的时间为：11.2087748s</code></p>

黑大帅k 发表于2023年04月05日

1 | 评论(0) | 举报

添加评论

20楼

尔厘发表于2023年04月05日

0 | 0 | 举报

<p>import requests<br >import time<br ><br ># 爬取bing首页100次计时<br ><br >try:<br >    start_time = time.perf_counter()  # 初始计时<br >    for i in range(100):<br >        r = requests.get("https://www.bing.com", timeout=10)  # requests 在经过以 timeout 参数设定的秒数时间之后停止等待响应<br >        r.raise_for_status()<br >        r.encoding = r.apparent_encoding<br >        r.text<br >    end_time = time.perf_counter()  # 末尾计时<br >    all_time = end_time - start_time  # 计算总时长<br >    print("成功爬取100次bing网页首页的时间为：{}s".format(all_time))<br >except:<br >    print("程序异常")<br ></p><p><br ></p><p>运行结果：成功爬取100次bing网页首页的时间为：42.14350469969213s</p>

尔厘发表于2023年04月05日

0 | 评论(0) | 举报

添加评论

点击加载更多

由高教社联手网易推出，让每一个有提升愿望的用户能够学到中国知名高校的课程，并获得认证。

友情链接

网易云课堂智慧高教

关注我们

关于我们

关于我们学校云联系我们常见问题意见反馈法律条款

网上有害信息举报（涉未成年人）：网站 https://www.12377.cn 邮箱（涉未成年人） youdao_jubao@rd.netease.com

粤B2-20090191-26 | 京ICP备12020869号-2 | 京公网安备44010602000207
©2014-2025 icourse163.org

浙公网安备 33010802012594号