北京理工大学

Python网络爬虫与信息提取

图片
课程概述


本课程第2次开课,首次开课共有57461人选课,深受好评,此次开课将持续更新!



    “The website is the API.”网络爬虫逐渐成为自动获取网络信息的主要形式。还等什么?快写个爬虫探索世界吧!

    本课程面向各类编程学习者,讲解利用Python语言爬取网络数据并提取关键信息的技术和方法,帮助学习者掌握定向网络数据爬取和网页解析的基本能力。

    本课程介绍Python计算生态中最优秀的网络数据爬取和解析技术,具体讲授Requests-bs4-Re和Scrapy两条构建网络爬虫的技术路线,所讲述内容广泛服务Amazon、Google、NSA、PayPal、Twitter等国际知名公司和组织。包括必修内容和选修内容。

    必修内容包括:

  (1)Python第三方库Requests,讲解通过HTTP/HTTPS协议自动从互联网获取数据并向其提交请求的方法;

  (2)Robots协议,网络爬虫排除标准,讲解礼貌合法获取信息的规范;

  (3)Python第三方库Beautiful Soup,讲解从所爬取HTML页面中解析完整Web信息的方法;

  (4)Python标准库Re,讲解从所爬取HTML页面中提取关键信息的方法。

    选修(介绍性)内容包括:

  (1)“网络爬虫引擎”的设计原理;

  (2)Python专业网络爬虫框架第三方库Scrapy,简要介绍构造专业网络爬虫的基本方法。

    本课程希望传递“理解和运用计算生态,培养集成创新思维”的理念,重点培养学习者运用当代最优秀第三方专业资源,快速分析和解决问题的能力。

    "人生苦短,不要刀耕火种“,嵩老师教你直面问题和需求,用最好的工具解决它!


2017年度全新上线的Python语言系列专题课,带给你不一样的学习体验!

>>Python 网络爬虫与信息提取

http://www.icourse163.org/course/BIT-1001870001

>>Python 数据分析与展示

http://www.icourse163.org/course/BIT-1001870002

>>Python 机器学习应用

http://www.icourse163.org/course/BIT-1001872001

>>Python 科学计算三维可视化

http://www.icourse163.org/course/BIT-1001871001

>>Python 游戏开发入门

http://www.icourse163.org/course/BIT-1001873001

>>Python 云端系统开发入门

http://www.icourse163.org/course/BIT-1001871002

证书要求

    本课程采取百分制,客观题占50分,主观编程题占45分,讨论占5分60-79分可获得合格证书,80分以上可获得优秀证书。

预备知识

    本课程需要学习者具备Python语言编程的基本知识和初步技能,建议Python零基础学习者先修嵩老师的Python语言程序设计”课程。具体地,学习者需要预先掌握Python的数字类型、字符串类型、分支、循环、函数、列表类型、字典类型、文件和第三方库使用等概念和编程方法。


授课大纲

    本专题课程共12个单元,包括8个内容单元和4个实战单元,每周3个单元。讲授Requests-BS4-Re和Scrapy两条技术路线。本课程注重实例的运用和讲解,全课程包括10+大小实例,将帮助学习者快速掌握网络爬虫与信息提取技术,体会运用Python语言将技术变为应用的乐趣。


    单元1      Requests库入门:Requests库的基本使用、主要接口函数介绍等

    单元2      网络爬虫的“盗亦有道”:Robots协议

    单元3      Requests库网络爬虫实战:5个使用Requests库的实用例子

    单元4      Beautiful Soup库入门:BS4库的基本使用、解析HTML网页信息方法等

    单元5      信息及信息提取方法:理解信息的结构和组织(XML、JSON、YAML)

    单元6+    实战:中国大学排名定向爬虫

    单元7      Re(正则表达式)库入门:Re库的基本使用、提取HTML页面关键信息的方法等

    单元8+    实战:淘宝商品比价定向爬虫

    单元9+    实战:股票数据定向爬虫

    单元10*   网络爬虫搜索引擎框架

    单元11*   Scrapy库入门

    单元12+* 实战:股票数据专业爬虫;表情包专业爬虫

    其中,+代表实战单元,非+标记为内容单元,*代表选修单元。


参考资料

Python集成开发环境(IDE)

[1] IDLE: Python解释器默认工具(推荐)

[2] Anaconda: https://www.continuum.io/ 

[3] PyCharm: http://www.jetbrains.com/pycharm/

参考教程

[1] Python零基础入门教程:Python语言程序设计基础(2)》,嵩天、礼欣、黄天羽著,高等教育出版社,2017.02。

教程链接:天猫地址  亚马逊地址  京东地址  当当地址  

[2] 专题参考教程课内资料。

参考网站

[1] Python Requests: http://www.python-requests.org

[2] Python Beautiful Soup: https://www.crummy.com/software/BeautifulSoup

[3] Python Scrapy: http://scrapy.org/


常见问题

Q1除了Python,这个课程需要其他编程语言基础吗?

A1

不需要,只要具备基本的Python编程能力,就可以学习本课程。

 

Q2Python 2.xPython 3.x,这个课程采用哪个版本?

A2

Python 3.x已经足够成熟,这是Python语言的现在和未来,嵩老师所有Python课程都采用Python 3.x系列版本。

 

Q3在线开放课程看不到老师,有问题谁来解答?

A3

为了更好服务同学们,本课程教师和多名助教会每天在线答疑,尽快解决与课程相关的各类问题。

 

Q4非计算机专业学生要不要学网络爬虫呢?老师有何建议。

A4

信息满天下的时代,不会点儿爬虫技术都不好意思和别人打招呼,果断选课吧,先听听看,万一学得会了呢。


授课老师
嵩天

嵩天

副教授

分享