课程详情
课程评价
spContent=“The website is the API.”网络爬虫逐渐成为自动获取网络信息的主要形式。还等什么?快写个爬虫探索世界吧! ——“弹指之间·享受创新”,通过4周学习,你将掌握利用Python语言进行定向网络数据爬取和网页解析的基本能力。
—— 课程团队
课程概述

本课程第2次开课,首次开课共有57461人选课,深受好评,此次开课将持续更新!

  “The website is the API.”网络爬虫逐渐成为自动获取网络信息的主要形式。还等什么?快写个爬虫探索世界吧!

  本课程面向各类编程学习者,讲解利用Python语言爬取网络数据并提取关键信息的技术和方法,帮助学习者掌握定向网络数据爬取和网页解析的基本能力。

  本课程介绍Python计算生态中最优秀的网络数据爬取和解析技术,具体讲授Requests-bs4-Re和Scrapy两条构建网络爬虫的技术路线,所讲述内容广泛服务Amazon、Google、NSA、PayPal、Twitter等国际知名公司和组织。包括必修内容和选修内容。

  必修内容包括:

 (1)Python第三方库Requests,讲解通过HTTP/HTTPS协议自动从互联网获取数据并向其提交请求的方法;

 (2)Robots协议,网络爬虫排除标准,讲解礼貌合法获取信息的规范;

 (3)Python第三方库Beautiful Soup,讲解从所爬取HTML页面中解析完整Web信息的方法;

 (4)Python标准库Re,讲解从所爬取HTML页面中提取关键信息的方法。

  选修(介绍性)内容包括:

 (1)“网络爬虫引擎”的设计原理;

 (2)Python专业网络爬虫框架第三方库Scrapy,简要介绍构造专业网络爬虫的基本方法。

  本课程希望传递“理解和运用计算生态,培养集成创新思维”的理念,重点培养学习者运用当代最优秀第三方专业资源,快速分析和解决问题的能力。

  "人生苦短,不要刀耕火种“,嵩老师教你直面问题和需求,用最好的工具解决它!

2017年度全新上线的Python语言系列专题课,带给你不一样的学习体验!

>>Python 网络爬虫与信息提取

https://www.icourse163.org/course/BIT-1001870001

>>Python 数据分析与展示

https://www.icourse163.org/course/BIT-1001870002

>>Python 机器学习应用

https://www.icourse163.org/course/BIT-1001872001

>>Python 科学计算三维可视化

https://www.icourse163.org/course/BIT-1001871001

>>Python 游戏开发入门

https://www.icourse163.org/course/BIT-1001873001

>>Python 云端系统开发入门

https://www.icourse163.org/course/BIT-1001871002

课程大纲
预备知识

  本课程需要学习者具备Python语言编程的基本知识和初步技能,建议Python零基础学习者先修嵩老师的 “Python语言程序设计 ”课程。具体地,学习者需要预先掌握Python的数字类型、字符串类型、分支、循环、函数、列表类型、字典类型、文件和第三方库使用等概念和编程方法。

证书要求

    本课程采取百分制,客观题占50分,主观编程题占45分,讨论占5分60-79分可获得合格证书,80分以上可获得优秀证书。

参考资料

Python集成开发环境(IDE)

[1] IDLE: Python解释器默认工具

[2] Visual Studio Codehttps://code.visualstudio.com/(本课程推荐)

[3] PyCharmhttps://www.jetbrains.com/pycharm/

[4] Anacondahttps://www.continuum.io/ (本课程不推荐)


参考教程

[1] Python网络爬虫专题参考教程: 课程内部资料。

[2] Python语言程序设计基础(3)》,嵩天、黄天羽、杨雅婷著,高等教育出版社,2024.9(讲授Python 3版本)


参考网站

[1] Python123学习主站https://python123.io

[2] Python Requestshttps://www.python-requests.org

[3] Python Beautiful Soup: https://www.crummy.com/software/BeautifulSoup

[4] Python Scrapy: https://scrapy.org/


常见问题

Q1除了Python,这个课程需要其他编程语言基础吗?

A1

不需要,只要具备基本的Python编程能力,就可以学习本课程。

 

Q2Python 2.xPython 3.x,这个课程采用哪个版本?

A2

Python 3.x已经足够成熟,这是Python语言的现在和未来,嵩老师所有Python课程都采用Python 3.x系列版本。

 

Q3在线开放课程看不到老师,有问题谁来解答?

A3

为了更好服务同学们,本课程教师和多名助教会每天在线答疑,尽快解决与课程相关的各类问题。

 

Q4非计算机专业学生要不要学网络爬虫呢?老师有何建议。

A4

信息满天下的时代,不会点儿爬虫技术都不好意思和别人打招呼,果断选课吧,先听听看,万一学得会了呢。