学校云 建设你的专属在线教育平台
中国大学MOOC 慕课考研
SPOC学校专有课程
大学计算机
分享
spContent=“The website is the API.”网络爬虫逐渐成为自动获取网络信息的主要形式。还等什么?快写个爬虫探索世界吧! ——“弹指之间·享受创新”,通过4周学习,你将掌握利用Python语言进行定向网络数据爬取和网页解析的基本能力。
—— 课程团队
课程概述




    “The website is the API.”网络爬虫逐渐成为自动获取网络信息的主要形式。还等什么?快写个爬虫探索世界吧!

    本课程面向各类编程学习者,讲解利用Python语言爬取网络数据并提取关键信息的技术和方法,帮助学习者掌握定向网络数据爬取和网页解析的基本能力。

    本课程介绍Python计算生态中最优秀的网络数据爬取和解析技术,具体讲授Requests-bs4-Re和Scrapy两条构建网络爬虫的技术路线,所讲述内容广泛服务Amazon、Google、NSA、PayPal、Twitter等国际知名公司和组织。包括必修内容和选修内容。

    必修内容包括:

  (1)Python第三方库Requests,讲解通过HTTP/HTTPS协议自动从互联网获取数据并向其提交请求的方法;

  (2)Robots协议,网络爬虫排除标准,讲解礼貌合法获取信息的规范;

  (3)Python第三方库Beautiful Soup,讲解从所爬取HTML页面中解析完整Web信息的方法;

  (4)Python标准库Re,讲解从所爬取HTML页面中提取关键信息的方法。

    选修(介绍性)内容包括:

  (1)“网络爬虫引擎”的设计原理;

  (2)Python专业网络爬虫框架第三方库Scrapy,简要介绍构造专业网络爬虫的基本方法。

    本课程希望传递“理解和运用计算生态,培养集成创新思维”的理念,重点培养学习者运用当代最优秀第三方专业资源,快速分析和解决问题的能力。

    "人生苦短,不要刀耕火种“,嵩老师教你直面问题和需求,用最好的工具解决它!



成绩要求

根据课程自学,完成实验报告

课程大纲

【第〇周】网络爬虫之前奏

“网络爬虫”课程内容导学

Python语言开发工具选择

【第一周】网络爬虫之规则

本周课程导学

单元1:Requests库入门

单元2:网络爬虫的“盗亦有道”

单元3:Requests库网络爬虫实战(5个实例)

第一周测验:网络爬虫之规则

【第二周】网络爬虫之提取

本周课程导学

单元4:Beautiful Soup库入门

单元5:信息组织与提取方法

单元6:实例1:中国大学排名爬虫

第二周测验:网络爬虫之提取

【第三周】网络爬虫之实战

课程综合测验:网络爬虫与信息提取(客观题)

本周课程导学

单元7:Re(正则表达式)库入门

单元8:实例2:淘宝商品比价定向爬虫

单元9:实例3:股票数据定向爬虫

【第四周】*网络爬虫之框架(选修)

本周课程导学

单元10:Scrapy爬虫框架

单元11:Scrapy爬虫基本使用

单元12:实例4:股票数据Scrapy爬虫

【第四周+】网络爬虫之未完待续

网络爬虫课程回顾和总结

网络爬虫课程的未完待续

预备知识

    本课程需要学习者具备Python语言编程的基本知识和初步技能,建议Python零基础学习者先修嵩老师的Python语言程序设计”课程。具体地,学习者需要预先掌握Python的数字类型、字符串类型、分支、循环、函数、列表类型、字典类型、文件和第三方库使用等概念和编程方法。


参考资料

Python集成开发环境(IDE)

[1] IDLE: Python解释器默认工具(推荐)

[2] Anaconda: http://www.continuum.io/ 

[3] PyCharm: http://www.jetbrains.com/pycharm/

参考教程

[1] Python零基础入门教程:Python语言程序设计基础(2)》,嵩天、礼欣、黄天羽著,高等教育出版社,2017.02。

教程链接:天猫地址  亚马逊地址  京东地址  当当地址  

[2] 专题参考教程课内资料。

参考网站

[1] Python Requests: http://www.python-requests.org

[2] Python Beautiful Soup: http://www.crummy.com/software/BeautifulSoup

[3] Python Scrapy: http://scrapy.org/


常见问题

Q1除了Python,这个课程需要其他编程语言基础吗?

A1

不需要,只要具备基本的Python编程能力,就可以学习本课程。

 

Q2Python 2.xPython 3.x,这个课程采用哪个版本?

A2

Python 3.x已经足够成熟,这是Python语言的现在和未来,嵩老师所有Python课程都采用Python 3.x系列版本。

 

Q3在线开放课程看不到老师,有问题谁来解答?

A3

为了更好服务同学们,本课程教师和多名助教会每天在线答疑,尽快解决与课程相关的各类问题。

 

Q4非计算机专业学生要不要学网络爬虫呢?老师有何建议。

A4

信息满天下的时代,不会点儿爬虫技术都不好意思和别人打招呼,果断选课吧,先听听看,万一学得会了呢。