网络爬虫的应用场景

嵩天发表于2020年09月23日

关心TA，希望为TA的每条微博都及时点赞，这个需求有没有？请大家描述一些自己关心或感兴趣的网络爬虫应用场景，只管设想，不考虑技术是否能够实现，开开脑洞吧~ （看到其他同学有好的应用建议，一定要点赞哦~）

163 回复

1楼

国醒发表于2020年10月20日

2 | 0 | 举报

想要爬微博。对于某个特点话题，在不同的时间点爬微博和评论，做必要的文字分析，好奇各网友针对事件意见发生的心态变化

国醒发表于2020年10月20日

2 | 评论(0) | 举报

添加评论

2楼

mooc65581211298875334 发表于2020年10月20日

4 | 0 | 举报

想要爬取网上护肤品，彩妆的销售数据，分析变化趋势并找到销售的最优解。如果可以能反馈当前的消费状态最好了

mooc65581211298875334 发表于2020年10月20日

4 | 评论(0) | 举报

添加评论

3楼

playjo 发表于2020年10月21日

1 | 0 | 举报

爬取区域性各银行机构的存款理财产品信息，对应期限、利率、风险等要素进行数据分析，获得最佳投资组合。

playjo 发表于2020年10月21日

1 | 评论(0) | 举报

添加评论

4楼

CUG_1201910042 发表于2020年10月21日

2 | 2 | 举报

亚马逊现在需要添加cookie信息才能够爬取商品信息。

CUG_1201910042 发表于2020年10月21日

2 | 评论(2) | 举报

要努力学ABC呀 2020年10月29日

2 | 举报

#亚马逊商品页面的爬取 try:     headers={         "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36",         "Cookie":'session-id=459-6274182-5099337; ubid-acbcn=462-7287877-0517061; session-token="8THc3xQC6vM8ghzd6Lk6X9zV+1dXq/EP2QJpU3Dbso0NBCqr4dwYWPadscDoLTfCbEIHpnzmDPjGuqQDxvmDAZBpThyjMURBM4k7Yvu//WpiV5K+9mf/oQXfJJzm8jOFlUWQ2sFztJsOYOh00lldg4Ubrpuo3Lz87lWZ8+SES+zdMTfXMX/vLeY/vLbxz39zWp4WxE0XhituZOvIZ+35ZD12fKLID6JVG1WgvbbEweGy+k3dvhfABVFhad9njYyGKCayQDCbGo9xTxhY5pCNJA=="; x-acbcn="wlO@AHDeqVtcdXnsIkcbsE@Qw0EcEP2q12ykhVLBAQyOAmC17RZbZYQzqf95lns9"; at-main=Atza|IwEBIHavsjSgp3DMPq1PoPtV4Kxh2rr0EmlC2RIUtL4YSpaQwlMmrUwQxtbO9AdS8fCO8oqiQnkZj45GsnQZrx6CTRzM4KA74yP0BhFBOglyThVCoe5Sdwh1KM3cwY3O6u-FGSxL-jS51YJn8CKyi9eTkSWWOSe-RE9c1lB9DkLQMgjvtrh-G2Ccq-pd55B4K20xjQPaNdqkr69CJ0bqQfw4T_Y3D9YZz8Tk-KR86dKVbZKkc2DJYQHkELyPZs3X54K2j00; sess-at-main="tU3nHA7oQG9rrS1I++HgTUKtD0s48C7cxj+449WGuhs="; sst-main=Sst1|PQFjONtjF2Er2xkMPtSCkOgRCc0Eo15ndZSsfwN4hy5LRfC1vTnRgL35INRG-EjdoAfYswP4y70o42OFr0jYvfvse7i-vCpJPgZ8PbWo22aHzgEjxCaqEd7-bcUDY9BIhNE3itnaqlLp1oGrgamolWdQ17BeXafw9pCjLp47UiSo1o20206J0KRIb-Ccmf7TbD5HO0r2AZuZmh_gCjIvWc679NP2JU_gXbKJ_1b1cvJpPIkXP4l-EuWELTT8MfMKmBhxmdw2soOlsV09pkpfsm7HweCayod3nwcgyRTUITB6NCQ; lc-acbcn=zh_CN; i18n-prefs=CNY; session-id-time=2082729601l; csm-hit=tb:EZPXMG3SP1MXPBBW5ZHB+b-7DW4MB2F6MMW44EQPZFD|1603971942879&t:1603971942879&adb:adblk_no'         }     r=requests.get('https://www.amazon.com/gp/product/B01M8L5Z3Y',headers=headers)     r.raise_for_status()     r.encoding=r.apparent_encoding     print(r.text[:1000]) except:     print('爬取失败')

要努力学ABC呀发表于2020年10月29日

2 | 举报
要努力学ABC呀 2020年10月29日

0 | 举报

可以自己注册一个亚马逊账号，登录后，解析网站，获得cookie

要努力学ABC呀发表于2020年10月29日

0 | 举报

添加评论

5楼

CUG_1201910042 发表于2020年10月21日

3 | 2 | 举报

爬取IP页面显示升级chrome内核浏览器 <code class="brush:python;toolbar:false" >import requests from fake_useragent import UserAgent url = 'https://www.ip138.com/iplookup.asp?ip={}&action=2' ip = "183.85.236.91" headers = {"User-Agent": UserAgent().edge} # r = requests.get(url.format(ip), headers=headers) # print(r.status_code) try:     r = requests.get(url.format(ip), headers=headers)     r.raise_for_status()     r.encoding = "utf-8"     print(r.content[-3000:].decode()) except:     print('爬取失败')</code>

CUG_1201910042 发表于2020年10月21日

3 | 评论(2) | 举报

mooc2247755408978069 2020年10月26日

0 | 举报

这个是干什么用的？ 

mooc2247755408978069 发表于2020年10月26日

0 | 举报
wade2019 2020年11月05日

0 | 举报

我使用 {'user-agent':'Mozilla/5.0'}的headers可以访问，没问题。

wade2019 发表于2020年11月05日

0 | 举报

添加评论

6楼

大数据18102 发表于2020年10月21日

1 | 0 | 举报

想要爬取网上护肤品，彩妆的销售数据，分析变化趋势并找到销售的最优解。如果可以能反馈当前的消费状态最好了

大数据18102 发表于2020年10月21日

1 | 评论(0) | 举报

添加评论

7楼

康维新发表于2020年10月21日

1 | 0 | 举报

个人比较关心或感兴趣的网络爬虫应用场景有:分析一些专业发展的趋势及关键词。

康维新发表于2020年10月21日

1 | 评论(0) | 举报

添加评论

8楼

袁不溜秋Na 发表于2020年10月21日

1 | 0 | 举报

能够爬取符合自己条件的电影

袁不溜秋Na 发表于2020年10月21日

1 | 评论(0) | 举报

添加评论

9楼

inweiu 发表于2020年10月21日

2 | 0 | 举报

爬取金融数据库和微博热点事件，做量化分析

inweiu 发表于2020年10月21日

2 | 评论(0) | 举报

添加评论

10楼

MOOC唯一认证的夏李逸笙发表于2020年10月21日

1 | 4 | 举报

爬了京东，上去就要登录呀...>>> import requests>>> r = requests.get('https://item.jd.com/100012920590.html')>>> r.status_code200>>> r.encoding'UTF-8'>>> r.text[:1000]"window.location.href='https://passport.jd.com/uc/login?ReturnUrl=http%3A%2F%2Fitem.jd.com%2F100012920590.html'"

MOOC唯一认证的夏李逸笙发表于2020年10月21日

1 | 评论(4) | 举报

国醒 2020年10月22日

0 | 举报

我也是

国醒发表于2020年10月22日

0 | 举报
MOOC唯一认证的夏李逸笙 2020年10月23日

0 | 举报

等周六研究下再看看

MOOC唯一认证的夏李逸笙发表于2020年10月23日

0 | 举报
僵晓渔 2020年10月24日

1 | 举报

我加了一个headers就正常了>>> headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:65.0) Gecko/20100101 Firefox/65.0','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Language': 'en-US,en;q=0.8,zh-CN;q=0.5,zh;q=0.3','Referer': 'https://www.jd.com/','DNT': '1','Connection': 'keep-alive','Upgrade-Insecure-Requests': '1','TE': 'Trailers',}>>> r = requests.get('https://item.jd.com/100012015170.html#crumb-wrap',headers=headers)>>> r.status_code200>>> r.encoding'utf-8'>>> r.text[:1000]'<!DOCTYPE HTML>\n<html lang="zh-CN">\n<head>\n    \n    <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />\n    <title>【华为P40 Pro】华为 HUAWEI P40 Pro 麒麟990 5G SoC芯片 5000万超感知徕卡四摄 50倍数字变焦 8GB+256GB亮黑色全网通5G手机【行情报价价格评测】-京东</title>\n    <meta name="keywords" content="HUAWEIP40 Pro,华为P40 Pro,华为P40 Pro报价,HUAWEIP40 Pro报价"/>\n    <meta name="description" content="【华为P40 Pro】京东JD.COM提供华为P40 Pro正品行货，并包括HUAWEIP40 Pro网购指南，以及华为P40 Pro图片、P40 Pro参数、P40 Pro评论、P40 Pro心得、P40 Pro技巧等信息，网购华为P40 Pro上京东,放心又轻松" />\n    <meta name="format-detection" content="telephone=no">\n    <meta http-equiv="mobile-agent" content="format=xhtml; url=http://item.m.jd.com/product/100012015170.html">\n    <meta http-equiv="mobile-agent" content="format=html5; url=http://item.m.jd.com/product/100012015170.html">\n    <meta http-equiv="X-UA-Compatible" content="IE=Edge">\n    <link rel="canonical" href="//item.jd.com/100012015170.html"/>\n        <link rel="dns-prefetch" href="//misc.360buyimg.com"/>\n    <link rel="dns-' 

僵晓渔发表于2020年10月24日

1 | 举报
wade2019 2020年11月05日

0 | 举报

是的。现在京东对 user-agent也有限制了，需要模拟浏览器

wade2019 发表于2020年11月05日

0 | 举报