【学习心得】Python爬虫实战-Mooc个人排行榜

周文扬发表于2017年12月12日

昨天和大家分享了用python获取团队排行榜的方法. 那么个人排行榜能不能用python爬虫抓取呢? 但个人总排行榜的页面似乎不存在. 这是个挑战. 我们来试试,如何? 下一个目标:用python爬虫获取所有参赛课程列表.  敬请关注! <img src="https://nos.netease.com/edu-image/31584ff2-8f47-4f66-9bda-e139ba4bc441.png?imageView&thumbnail=520x520&quality=100" /> <code class="brush:python;toolbar:false" ></code>#!/usr/bin/python3 import requests,json import numpy as np import os import pandas as pd os.chdir(r'C:\Users\Administrator\Desktop') from datetime import datetime as dt2 import datetime now=dt2.now() def get_data():    url='https://www.icourse163.org/web/j/mocActivityScholarshipV3RpcBean.getTop100ByActivityId.rpc?csrfKey=c5b22864e441448894def7bb080f9e5c'    headers = {        'Accept': '*/*',        'Accept-Encoding':'gzip, deflate',        'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',        'Cache-Control':'max-age=0',        'Connection': 'keep-alive',        'Content-Length':'16',        'Content-Type': 'application/x-www-form-urlencoded',        'Cookie': '   '  #这里需填写自己电脑上的COOKIE信息。         'Host': 'www.icourse163.org',        'Referer':'https://www.icourse163.org/scholarship2017/rank.htm?id=17001',        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:57.0) Gecko/20100101 Firefox/57.0'    }    data = {        'activityId':'17001'    }    req = requests.post(url, data, headers=headers)    req.encoding = 'utf-8'    result = json.loads(req.text)    result = result['result']    id,name,value,ph=[],[],[],[]    for i in result:        id.append(i["memberId"])        name.append(i["nickName"])        value.append(i['value'])        ph.append(i['ranking'])    a={'排名':ph,'昵称':name,'成长值':value,'ID':id}    b=['排名','昵称','成长值','ID']    df=pd.DataFrame(a,columns=b,index=range(1,len(id)+1))    time_start = now.strftime('%m-%d')    df.to_excel(time_start+'-个人成长值排行榜.xls')    print(df) get_data()

6 回复

1楼

oo小溪发表于2017年12月12日

0 | 0 | 举报

老大给力，终于要分享了

oo小溪发表于2017年12月12日

0 | 评论(0) | 举报

添加评论

2楼

周文扬发表于2017年12月12日

1 | 0 | 举报

本程序编写过程中得到了full_stack, 叶卡林娜的思路指点,在此一并致谢.

周文扬发表于2017年12月12日

1 | 评论(0) | 举报

添加评论

3楼

周文扬发表于2017年12月12日

1 | 0 | 举报

获取个人排行榜的难点主要在网站上没有展示这个页面,只有12月和11月的排行.我前面想过抓取两个页面,然后把成长值加和.但问题是这样数据会不准确,会遗漏一些.后来看到full_stack分享了叶卡林娜的思路:由11,12月的网页ID是:'18001',19001,想到总榜可能是17001.从而获得完整准确的个人排行信息.. 这种举一反三的思维值得学习!

周文扬发表于2017年12月12日

1 | 评论(0) | 举报

添加评论