- 课堂交流区
- 帖子详情
163
回复
-
<p>想要爬微博。对于某个特点话题,在不同的时间点爬微博和评论,做必要的文字分析,好奇各网友针对事件意见发生的心态变化</p>添加评论
-
想要爬取网上护肤品,彩妆的销售数据,分析变化趋势并找到销售的最优解。如果可以能反馈当前的消费状态最好了添加评论
-
<p>爬取区域性各银行机构的存款理财产品信息,对应期限、利率、风险等要素进行数据分析,获得最佳投资组合。</p>添加评论
-
<p>亚马逊现在需要添加cookie信息才能够爬取商品信息。</p>
-
<p>#亚马逊商品页面的爬取<br >try:<br > headers={<br > "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36",<br > "Cookie":'session-id=459-6274182-5099337; ubid-acbcn=462-7287877-0517061; session-token="8THc3xQC6vM8ghzd6Lk6X9zV+1dXq/EP2QJpU3Dbso0NBCqr4dwYWPadscDoLTfCbEIHpnzmDPjGuqQDxvmDAZBpThyjMURBM4k7Yvu//WpiV5K+9mf/oQXfJJzm8jOFlUWQ2sFztJsOYOh00lldg4Ubrpuo3Lz87lWZ8+SES+zdMTfXMX/vLeY/vLbxz39zWp4WxE0XhituZOvIZ+35ZD12fKLID6JVG1WgvbbEweGy+k3dvhfABVFhad9njYyGKCayQDCbGo9xTxhY5pCNJA=="; x-acbcn="wlO@AHDeqVtcdXnsIkcbsE@Qw0EcEP2q12ykhVLBAQyOAmC17RZbZYQzqf95lns9"; at-main=Atza|IwEBIHavsjSgp3DMPq1PoPtV4Kxh2rr0EmlC2RIUtL4YSpaQwlMmrUwQxtbO9AdS8fCO8oqiQnkZj45GsnQZrx6CTRzM4KA74yP0BhFBOglyThVCoe5Sdwh1KM3cwY3O6u-FGSxL-jS51YJn8CKyi9eTkSWWOSe-RE9c1lB9DkLQMgjvtrh-G2Ccq-pd55B4K20xjQPaNdqkr69CJ0bqQfw4T_Y3D9YZz8Tk-KR86dKVbZKkc2DJYQHkELyPZs3X54K2j00; sess-at-main="tU3nHA7oQG9rrS1I++HgTUKtD0s48C7cxj+449WGuhs="; sst-main=Sst1|PQFjONtjF2Er2xkMPtSCkOgRCc0Eo15ndZSsfwN4hy5LRfC1vTnRgL35INRG-EjdoAfYswP4y70o42OFr0jYvfvse7i-vCpJPgZ8PbWo22aHzgEjxCaqEd7-bcUDY9BIhNE3itnaqlLp1oGrgamolWdQ17BeXafw9pCjLp47UiSo1o20206J0KRIb-Ccmf7TbD5HO0r2AZuZmh_gCjIvWc679NP2JU_gXbKJ_1b1cvJpPIkXP4l-EuWELTT8MfMKmBhxmdw2soOlsV09pkpfsm7HweCayod3nwcgyRTUITB6NCQ; lc-acbcn=zh_CN; i18n-prefs=CNY; session-id-time=2082729601l; csm-hit=tb:EZPXMG3SP1MXPBBW5ZHB+b-7DW4MB2F6MMW44EQPZFD|1603971942879&t:1603971942879&adb:adblk_no'<br > }<br > r=requests.get('https://www.amazon.com/gp/product/B01M8L5Z3Y',headers=headers)<br > r.raise_for_status()<br > r.encoding=r.apparent_encoding<br > print(r.text[:1000])<br >except:<br > print('爬取失败')</p>
-
<p>可以自己注册一个亚马逊账号,登录后,解析网站,获得cookie</p>
添加评论 -
-
<p>爬取IP页面显示升级chrome内核浏览器</p><p><br ></p><p><code class="brush:python;toolbar:false" >import requests from fake_useragent import UserAgent url = 'https://www.ip138.com/iplookup.asp?ip={}&action=2' ip = "183.85.236.91" headers = {"User-Agent": UserAgent().edge} # r = requests.get(url.format(ip), headers=headers) # print(r.status_code) try: r = requests.get(url.format(ip), headers=headers) r.raise_for_status() r.encoding = "utf-8" print(r.content[-3000:].decode()) except: print('爬取失败')</code></p>
-
<p>这个是干什么用的?</p><p><br ></p>
-
<p>我使用 {'user-agent':'Mozilla/5.0'}的headers可以访问,没问题。</p>
添加评论 -
-
<p>想要爬取网上护肤品,彩妆的销售数据,分析变化趋势并找到销售的最优解。如果可以能反馈当前的消费状态最好了</p>添加评论
-
<p>个人比较关心或感兴趣的网络爬虫应用场景有:分析一些专业发展的趋势及关键词。</p>添加评论
-
<p>爬取金融数据库和微博热点事件,做量化分析</p>添加评论
-
<p>爬了京东,上去就要登录呀...</p><p>>>> import requests</p><p>>>> r = requests.get('https://item.jd.com/100012920590.html')</p><p>>>> r.status_code</p><p>200</p><p>>>> r.encoding</p><p>'UTF-8'</p><p>>>> r.text[:1000]</p><p><strong>"window.location.href='https://passport.jd.com/uc/login?ReturnUrl=http%3A%2F%2Fitem.jd.com%2F100012920590.html'"</strong></p><p><br ></p>
-
<p>我也是</p>
-
等周六研究下再看看
-
<p>我加了一个headers就正常了</p><p>>>> headers = {</p><p>'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:65.0) Gecko/20100101 Firefox/65.0',</p><p>'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',</p><p>'Accept-Language': 'en-US,en;q=0.8,zh-CN;q=0.5,zh;q=0.3',</p><p>'Referer': 'https://www.jd.com/',</p><p>'DNT': '1',</p><p>'Connection': 'keep-alive',</p><p>'Upgrade-Insecure-Requests': '1',</p><p>'TE': 'Trailers',</p><p>}</p><p>>>> r = requests.get('https://item.jd.com/100012015170.html#crumb-wrap',headers=headers)</p><p>>>> r.status_code</p><p>200</p><p>>>> r.encoding</p><p>'utf-8'</p><p>>>> r.text[:1000]</p><p>'<!DOCTYPE HTML>\n<html lang="zh-CN">\n<head>\n <!--yushou-->\n <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />\n <title>【华为P40 Pro】华为 HUAWEI P40 Pro 麒麟990 5G SoC芯片 5000万超感知徕卡四摄 50倍数字变焦 8GB+256GB亮黑色全网通5G手机【行情 报价 价格 评测】-京东</title>\n <meta name="keywords" content="HUAWEIP40 Pro,华为P40 Pro,华为P40 Pro报价,HUAWEIP40 Pro报价"/>\n <meta name="description" content="【华为P40 Pro】京东JD.COM提供华为P40 Pro正品行货,并包括HUAWEIP40 Pro网购指南,以及华为P40 Pro图片、P40 Pro参数、P40 Pro评论、P40 Pro心得、P40 Pro技巧等信息,网购华为P40 Pro上京东,放心又轻松" />\n <meta name="format-detection" content="telephone=no">\n <meta http-equiv="mobile-agent" content="format=xhtml; url=http://item.m.jd.com/product/100012015170.html">\n <meta http-equiv="mobile-agent" content="format=html5; url=http://item.m.jd.com/product/100012015170.html">\n <meta http-equiv="X-UA-Compatible" content="IE=Edge">\n <link rel="canonical" href="//item.jd.com/100012015170.html"/>\n <link rel="dns-prefetch" href="//misc.360buyimg.com"/>\n <link rel="dns-'</p><p><br ></p>
-
<p>是的。现在京东对 user-agent也有限制了,需要模拟浏览器</p>
添加评论 -
-
<p>爬取手机的性能对比、笔记本的配置对比、</p><p><br ></p>
-
<p>想要爬取网上护肤品,彩妆的销售数据,分析变化趋势并找到销售的最优解。</p>添加评论
-
<p>新媒体时代来临,用爬虫可以获取大量的视频网站的视频内容,比如说做游戏视频,我们就可以爬取视频网站上的游戏视频点击量最高的视频加以分析,就能够使得自己知道怎样能够提高点击率,稳步的提升自己的视频质量<br ></p><br >添加评论
-
<p>想要每天的基金信息,自动对比趋势,判断是否卖出</p><p><br ></p>添加评论
-
<p>想爬取汽车的信息,存档、对比. 对汽车销售的爬取</p>添加评论
-
想要爬取网上护肤品,彩妆的销售数据,分析变化趋势并找到销售的最优解。如果可以能反馈当前的消费状态最好了添加评论
-
想要爬取网上护肤品,彩妆的销售数据,分析变化趋势并找到销售的最优解。如果可以能反馈当前的消费状态最好了添加评论
-
现在的视频网站,视频都是一段段加载出来的流媒体形式,所以我希望可以批量爬取网站视频内容,并且能够自动合并
-
<p>优酷和腾讯视频等网站的,可以尝试通过you-get小工具,直接完成下载MP4格式文件,并自动完成合并</p>
添加评论 -
-
想要爬取政府公共交易平台发布的招投标信息,筛选可竞标的项目添加评论
点击加载更多
到底啦~