置顶 老师参与

网络爬虫的应用场景

嵩天 发表于2020年09月23日
<p>关心TA,希望为TA的每条微博都及时点赞,这个需求有没有?</p><p>请大家描述一些自己关心或感兴趣的网络爬虫应用场景,只管设想,不考虑技术是否能够实现,开开脑洞吧~ (看到其他同学有好的应用建议,一定要点赞哦~)</p>
163 回复

    1楼

  • 国醒 发表于2020年10月20日
    2 | 0 | 举报
    <p>想要爬微博。对于某个特点话题,在不同的时间点爬微博和评论,做必要的文字分析,好奇各网友针对事件意见发生的心态变化</p>
    国醒 发表于2020年10月20日
    添加评论
  • 2楼

  • mooc65581211298875334 发表于2020年10月20日
    4 | 0 | 举报
    想要爬取网上护肤品,彩妆的销售数据,分析变化趋势并找到销售的最优解。如果可以能反馈当前的消费状态最好了
    mooc65581211298875334 发表于2020年10月20日
    添加评论
  • 3楼

  • playjo 发表于2020年10月21日
    1 | 0 | 举报
    <p>爬取区域性各银行机构的存款理财产品信息,对应期限、利率、风险等要素进行数据分析,获得最佳投资组合。</p>
    playjo 发表于2020年10月21日
    添加评论
  • 4楼

  • CUG_1201910042 发表于2020年10月21日
    2 | 2 | 举报
    <p>亚马逊现在需要添加cookie信息才能够爬取商品信息。</p>
    CUG_1201910042 发表于2020年10月21日
    • 要努力学ABC呀 2020年10月29日
      2 | 举报
      <p>#亚马逊商品页面的爬取<br >try:<br >&nbsp;&nbsp;&nbsp; headers={<br >&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &quot;User-Agent&quot;:&quot;Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36&quot;,<br >&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; &quot;Cookie&quot;:'session-id=459-6274182-5099337; ubid-acbcn=462-7287877-0517061; session-token=&quot;8THc3xQC6vM8ghzd6Lk6X9zV+1dXq/EP2QJpU3Dbso0NBCqr4dwYWPadscDoLTfCbEIHpnzmDPjGuqQDxvmDAZBpThyjMURBM4k7Yvu//WpiV5K+9mf/oQXfJJzm8jOFlUWQ2sFztJsOYOh00lldg4Ubrpuo3Lz87lWZ8+SES+zdMTfXMX/vLeY/vLbxz39zWp4WxE0XhituZOvIZ+35ZD12fKLID6JVG1WgvbbEweGy+k3dvhfABVFhad9njYyGKCayQDCbGo9xTxhY5pCNJA==&quot;; x-acbcn=&quot;wlO@AHDeqVtcdXnsIkcbsE@Qw0EcEP2q12ykhVLBAQyOAmC17RZbZYQzqf95lns9&quot;; at-main=Atza|IwEBIHavsjSgp3DMPq1PoPtV4Kxh2rr0EmlC2RIUtL4YSpaQwlMmrUwQxtbO9AdS8fCO8oqiQnkZj45GsnQZrx6CTRzM4KA74yP0BhFBOglyThVCoe5Sdwh1KM3cwY3O6u-FGSxL-jS51YJn8CKyi9eTkSWWOSe-RE9c1lB9DkLQMgjvtrh-G2Ccq-pd55B4K20xjQPaNdqkr69CJ0bqQfw4T_Y3D9YZz8Tk-KR86dKVbZKkc2DJYQHkELyPZs3X54K2j00; sess-at-main=&quot;tU3nHA7oQG9rrS1I++HgTUKtD0s48C7cxj+449WGuhs=&quot;; sst-main=Sst1|PQFjONtjF2Er2xkMPtSCkOgRCc0Eo15ndZSsfwN4hy5LRfC1vTnRgL35INRG-EjdoAfYswP4y70o42OFr0jYvfvse7i-vCpJPgZ8PbWo22aHzgEjxCaqEd7-bcUDY9BIhNE3itnaqlLp1oGrgamolWdQ17BeXafw9pCjLp47UiSo1o20206J0KRIb-Ccmf7TbD5HO0r2AZuZmh_gCjIvWc679NP2JU_gXbKJ_1b1cvJpPIkXP4l-EuWELTT8MfMKmBhxmdw2soOlsV09pkpfsm7HweCayod3nwcgyRTUITB6NCQ; lc-acbcn=zh_CN; i18n-prefs=CNY; session-id-time=2082729601l; csm-hit=tb:EZPXMG3SP1MXPBBW5ZHB+b-7DW4MB2F6MMW44EQPZFD|1603971942879&amp;t:1603971942879&amp;adb:adblk_no'<br >&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; }<br >&nbsp;&nbsp;&nbsp; r=requests.get('https://www.amazon.com/gp/product/B01M8L5Z3Y',headers=headers)<br >&nbsp;&nbsp;&nbsp; r.raise_for_status()<br >&nbsp;&nbsp;&nbsp; r.encoding=r.apparent_encoding<br >&nbsp;&nbsp;&nbsp; print(r.text[:1000])<br >except:<br >&nbsp;&nbsp;&nbsp; print('爬取失败')</p>
      要努力学ABC呀 发表于2020年10月29日
      2 | 举报
    • 要努力学ABC呀 2020年10月29日
      0 | 举报
      <p>可以自己注册一个亚马逊账号,登录后,解析网站,获得cookie</p>
      要努力学ABC呀 发表于2020年10月29日
      0 | 举报
    添加评论
  • 5楼

  • CUG_1201910042 发表于2020年10月21日
    3 | 2 | 举报
    <p>爬取IP页面显示升级chrome内核浏览器</p><p><br ></p><p><code class="brush:python;toolbar:false" >import&nbsp;requests from&nbsp;fake_useragent&nbsp;import&nbsp;UserAgent url&nbsp;=&nbsp;'https://www.ip138.com/iplookup.asp?ip={}&amp;action=2' ip&nbsp;=&nbsp;&quot;183.85.236.91&quot; headers&nbsp;=&nbsp;{&quot;User-Agent&quot;:&nbsp;UserAgent().edge} #&nbsp;r&nbsp;=&nbsp;requests.get(url.format(ip),&nbsp;headers=headers) #&nbsp;print(r.status_code) try: &nbsp;&nbsp;&nbsp;&nbsp;r&nbsp;=&nbsp;requests.get(url.format(ip),&nbsp;headers=headers) &nbsp;&nbsp;&nbsp;&nbsp;r.raise_for_status() &nbsp;&nbsp;&nbsp;&nbsp;r.encoding&nbsp;=&nbsp;&quot;utf-8&quot; &nbsp;&nbsp;&nbsp;&nbsp;print(r.content[-3000:].decode()) except: &nbsp;&nbsp;&nbsp;&nbsp;print('爬取失败')</code></p>
    CUG_1201910042 发表于2020年10月21日
    添加评论
  • 6楼

  • 大数据18102 发表于2020年10月21日
    1 | 0 | 举报
    <p>想要爬取网上护肤品,彩妆的销售数据,分析变化趋势并找到销售的最优解。如果可以能反馈当前的消费状态最好了</p>
    大数据18102 发表于2020年10月21日
    添加评论
  • 7楼

  • 康维新 发表于2020年10月21日
    1 | 0 | 举报
    <p>个人比较关心或感兴趣的网络爬虫应用场景有:分析一些专业发展的趋势及关键词。</p>
    康维新 发表于2020年10月21日
    添加评论
  • 8楼

  • 袁不溜秋Na 发表于2020年10月21日
    1 | 0 | 举报
    <p>能够爬取符合自己条件的电影</p>
    袁不溜秋Na 发表于2020年10月21日
    添加评论
  • 9楼

  • inweiu 发表于2020年10月21日
    2 | 0 | 举报
    <p>爬取金融数据库和微博热点事件,做量化分析</p>
    inweiu 发表于2020年10月21日
    添加评论
  • 10楼

  • MOOC唯一认证的夏李逸笙 发表于2020年10月21日
    1 | 4 | 举报
    <p>爬了京东,上去就要登录呀...</p><p>&gt;&gt;&gt; import requests</p><p>&gt;&gt;&gt; r = requests.get('https://item.jd.com/100012920590.html')</p><p>&gt;&gt;&gt; r.status_code</p><p>200</p><p>&gt;&gt;&gt; r.encoding</p><p>'UTF-8'</p><p>&gt;&gt;&gt; r.text[:1000]</p><p><strong>&quot;window.location.href='https://passport.jd.com/uc/login?ReturnUrl=http%3A%2F%2Fitem.jd.com%2F100012920590.html'&quot;</strong></p><p><br ></p>
    MOOC唯一认证的夏李逸笙 发表于2020年10月21日
    • 国醒 2020年10月22日
      0 | 举报
      <p>我也是</p>
      国醒 发表于2020年10月22日
      0 | 举报
    • 等周六研究下再看看
      MOOC唯一认证的夏李逸笙 发表于2020年10月23日
      0 | 举报
    • 僵晓渔 2020年10月24日
      1 | 举报
      <p>我加了一个headers就正常了</p><p>&gt;&gt;&gt; headers = {</p><p>'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:65.0) Gecko/20100101 Firefox/65.0',</p><p>'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',</p><p>'Accept-Language': 'en-US,en;q=0.8,zh-CN;q=0.5,zh;q=0.3',</p><p>'Referer': 'https://www.jd.com/',</p><p>'DNT': '1',</p><p>'Connection': 'keep-alive',</p><p>'Upgrade-Insecure-Requests': '1',</p><p>'TE': 'Trailers',</p><p>}</p><p>&gt;&gt;&gt; r = requests.get('https://item.jd.com/100012015170.html#crumb-wrap',headers=headers)</p><p>&gt;&gt;&gt; r.status_code</p><p>200</p><p>&gt;&gt;&gt; r.encoding</p><p>'utf-8'</p><p>&gt;&gt;&gt; r.text[:1000]</p><p>'&lt;!DOCTYPE HTML&gt;\n&lt;html lang=&quot;zh-CN&quot;&gt;\n&lt;head&gt;\n&nbsp; &nbsp; &lt;!--yushou--&gt;\n&nbsp; &nbsp; &lt;meta http-equiv=&quot;Content-Type&quot; content=&quot;text/html; charset=utf-8&quot; /&gt;\n&nbsp; &nbsp; &lt;title&gt;【华为P40 Pro】华为 HUAWEI P40 Pro 麒麟990 5G SoC芯片 5000万超感知徕卡四摄 50倍数字变焦 8GB+256GB亮黑色全网通5G手机【行情 报价 价格 评测】-京东&lt;/title&gt;\n&nbsp; &nbsp; &lt;meta name=&quot;keywords&quot; content=&quot;HUAWEIP40 Pro,华为P40 Pro,华为P40 Pro报价,HUAWEIP40 Pro报价&quot;/&gt;\n&nbsp; &nbsp; &lt;meta name=&quot;description&quot; content=&quot;【华为P40 Pro】京东JD.COM提供华为P40 Pro正品行货,并包括HUAWEIP40 Pro网购指南,以及华为P40 Pro图片、P40 Pro参数、P40 Pro评论、P40 Pro心得、P40 Pro技巧等信息,网购华为P40 Pro上京东,放心又轻松&quot; /&gt;\n&nbsp; &nbsp; &lt;meta name=&quot;format-detection&quot; content=&quot;telephone=no&quot;&gt;\n&nbsp; &nbsp; &lt;meta http-equiv=&quot;mobile-agent&quot; content=&quot;format=xhtml; url=http://item.m.jd.com/product/100012015170.html&quot;&gt;\n&nbsp; &nbsp; &lt;meta http-equiv=&quot;mobile-agent&quot; content=&quot;format=html5; url=http://item.m.jd.com/product/100012015170.html&quot;&gt;\n&nbsp; &nbsp; &lt;meta http-equiv=&quot;X-UA-Compatible&quot; content=&quot;IE=Edge&quot;&gt;\n&nbsp; &nbsp; &lt;link rel=&quot;canonical&quot; href=&quot;//item.jd.com/100012015170.html&quot;/&gt;\n&nbsp; &nbsp; &nbsp; &nbsp; &lt;link rel=&quot;dns-prefetch&quot; href=&quot;//misc.360buyimg.com&quot;/&gt;\n&nbsp; &nbsp; &lt;link rel=&quot;dns-'</p><p><br ></p>
      僵晓渔 发表于2020年10月24日
      1 | 举报
    • wade2019 2020年11月05日
      0 | 举报
      <p>是的。现在京东对 user-agent也有限制了,需要模拟浏览器</p>
      wade2019 发表于2020年11月05日
      0 | 举报
    添加评论
  • 11楼

  • 车辆161-杨亚昆 发表于2020年10月22日
    1 | 1 | 举报
    <p>爬取手机的性能对比、笔记本的配置对比、</p><p><br ></p>
    车辆161-杨亚昆 发表于2020年10月22日
    • 4I 2020年10月22日
      0 | 举报
      <p>https://item.jd.com/100012920590.html网址错了,不需要.html</p>
      4I 发表于2020年10月22日
      0 | 举报
    添加评论
  • 12楼

  • 大数据18102-殷彩荣 发表于2020年10月22日
    1 | 0 | 举报
    <p>想要爬取网上护肤品,彩妆的销售数据,分析变化趋势并找到销售的最优解。</p>
    大数据18102-殷彩荣 发表于2020年10月22日
    添加评论
  • 13楼

  • 若我终老此生 发表于2020年10月22日
    9 | 0 | 举报
    <p>新媒体时代来临,用爬虫可以获取大量的视频网站的视频内容,比如说做游戏视频,我们就可以爬取视频网站上的游戏视频点击量最高的视频加以分析,就能够使得自己知道怎样能够提高点击率,稳步的提升自己的视频质量<br ></p><br >
    若我终老此生 发表于2020年10月22日
    添加评论
  • 14楼

  • z13875008005 发表于2020年10月22日
    1 | 0 | 举报
    <p>想要每天的基金信息,自动对比趋势,判断是否卖出</p><p><br ></p>
    z13875008005 发表于2020年10月22日
    添加评论
  • 15楼

  • mooc_xminj 发表于2020年10月22日
    0 | 0 | 举报
    <p>想爬取汽车的信息,存档、对比. 对汽车销售的爬取</p>
    mooc_xminj 发表于2020年10月22日
    添加评论
  • 16楼

  • 南晓吴鹏云17131109 发表于2020年10月23日
    1 | 0 | 举报
    想要爬取网上护肤品,彩妆的销售数据,分析变化趋势并找到销售的最优解。如果可以能反馈当前的消费状态最好了
    南晓吴鹏云17131109 发表于2020年10月23日
    添加评论
  • 17楼

  • 赵其瑞 发表于2020年10月23日
    2 | 0 | 举报
    想要爬取网上护肤品,彩妆的销售数据,分析变化趋势并找到销售的最优解。如果可以能反馈当前的消费状态最好了
    赵其瑞 发表于2020年10月23日
    添加评论
  • 18楼

  • 浮生若梦ykt1514039198727 发表于2020年10月23日
    2 | 1 | 举报
    现在的视频网站,视频都是一段段加载出来的流媒体形式,所以我希望可以批量爬取网站视频内容,并且能够自动合并
    浮生若梦ykt1514039198727 发表于2020年10月23日
    添加评论
  • 19楼

  • Ethanykt1521364465167 发表于2020年10月23日
    9 | 0 | 举报
    想要爬取政府公共交易平台发布的招投标信息,筛选可竞标的项目
    Ethanykt1521364465167 发表于2020年10月23日
    添加评论
  • 20楼

  • 牛品 发表于2020年10月23日
    1 | 0 | 举报
    <p>想爬取一些数据,比如说是计划生育的信息等</p>
    牛品 发表于2020年10月23日
    添加评论
点击加载更多