Python网络爬虫与信息提取_北京理工大学

Python网络爬虫与信息提取

课程详情

课程评价

spContent=“The website is the API.”网络爬虫逐渐成为自动获取网络信息的主要形式。还等什么？快写个爬虫探索世界吧！ ——“弹指之间·享受创新”，通过4周学习，你将掌握利用Python语言进行定向网络数据爬取和网页解析的基本能力。

—— 课程团队

课程概述

本课程第2次开课，首次开课共有57461人选课，深受好评，此次开课将持续更新！

“The website is the API.”网络爬虫逐渐成为自动获取网络信息的主要形式。还等什么？快写个爬虫探索世界吧！

本课程面向各类编程学习者，讲解利用Python语言爬取网络数据并提取关键信息的技术和方法，帮助学习者掌握定向网络数据爬取和网页解析的基本能力。

本课程介绍Python计算生态中最优秀的网络数据爬取和解析技术，具体讲授Requests-bs4-Re和Scrapy两条构建网络爬虫的技术路线，所讲述内容广泛服务Amazon、Google、NSA、PayPal、Twitter等国际知名公司和组织。包括必修内容和选修内容。

必修内容包括:

（1）Python第三方库Requests，讲解通过HTTP/HTTPS协议自动从互联网获取数据并向其提交请求的方法；

（2）Robots协议，网络爬虫排除标准，讲解礼貌合法获取信息的规范；

（3）Python第三方库Beautiful Soup，讲解从所爬取HTML页面中解析完整Web信息的方法；

（4）Python标准库Re，讲解从所爬取HTML页面中提取关键信息的方法。

选修（介绍性）内容包括：

（1）“网络爬虫引擎”的设计原理；

（2）Python专业网络爬虫框架第三方库Scrapy，简要介绍构造专业网络爬虫的基本方法。

本课程希望传递“理解和运用计算生态，培养集成创新思维”的理念，重点培养学习者运用当代最优秀第三方专业资源，快速分析和解决问题的能力。

"人生苦短，不要刀耕火种“，嵩老师教你直面问题和需求，用最好的工具解决它！

2017年度全新上线的Python语言系列专题课，带给你不一样的学习体验！

>>Python 网络爬虫与信息提取

https://www.icourse163.org/course/BIT-1001870001

>>Python 数据分析与展示

https://www.icourse163.org/course/BIT-1001870002

>>Python 机器学习应用

https://www.icourse163.org/course/BIT-1001872001

>>Python 科学计算三维可视化

https://www.icourse163.org/course/BIT-1001871001

>>Python 游戏开发入门

https://www.icourse163.org/course/BIT-1001873001

>>Python 云端系统开发入门

https://www.icourse163.org/course/BIT-1001871002

课程大纲

预备知识

本课程需要学习者具备Python语言编程的基本知识和初步技能，建议Python零基础学习者先修嵩老师的 “Python 语言程序设计 ”课程。具体地，学习者需要预先掌握Python的数字类型、字符串类型、分支、循环、函数、列表类型、字典类型、文件和第三方库使用等概念和编程方法。

证书要求

本课程采取百分制，客观题占50分，主观编程题占45分，讨论占5分。60分-79分可获得合格证书，80分以上可获得优秀证书。

参考资料

Python集成开发环境(IDE)

[1] IDLE: Python解释器默认工具

[2] Visual Studio Code: https://code.visualstudio.com/（本课程推荐）

[3] PyCharm: https://www.jetbrains.com/pycharm/

[4] Anaconda: https://www.continuum.io/ （本课程不推荐）

参考教程

[1] Python网络爬虫专题参考教程: 课程内部资料。

[2] 《Python语言程序设计基础(第3版)》，嵩天、黄天羽、杨雅婷著，高等教育出版社，2024.9（讲授Python 3版本）

参考网站

[1] Python123学习主站：https://python123.io

[2] Python Requests: https://www.python-requests.org

[3] Python Beautiful Soup: https://www.crummy.com/software/BeautifulSoup

[4] Python Scrapy: https://scrapy.org/

常见问题

Q1：除了Python，这个课程需要其他编程语言基础吗？

A1：

不需要，只要具备基本的Python编程能力，就可以学习本课程。

Q2：Python 2.x和Python 3.x，这个课程采用哪个版本？

A2：

Python 3.x已经足够成熟，这是Python语言的现在和未来，嵩老师所有Python课程都采用Python 3.x系列版本。

Q3：在线开放课程看不到老师，有问题谁来解答？

A3：

为了更好服务同学们，本课程教师和多名助教会每天在线答疑，尽快解决与课程相关的各类问题。

Q4：非计算机专业学生要不要学网络爬虫呢？老师有何建议。

A4：

信息满天下的时代，不会点儿爬虫技术都不好意思和别人打招呼，果断选课吧，先听听看，万一学得会了呢。

友情链接

关注我们

关于我们