认证学习
Python数据爬取与可视化
分享
课程详情
课程评价
spContent=
—— 课程团队
课程概述

  大数据时代,基于数据获取和数据分析去发现问题并做出科学、客观的决策变得越来越重要。在数据分析技术应用中,爬虫程序作为数据采集的重要手段之一,不仅在大数据、人工智能行业有广泛的应用,在其他工科、医科、商科、文科等学科也有重要应用。


  本课程的目标是教会学生使用Python程序设计语言编写程序,能够在互联网上进行不同类型数据爬取,并能够进行相应的数据预处理、数据存储、数据可视化以及简单数据分析。整门课程按照主题,分为了6个模块。

  第一个模块是Python的基础知识,对于没有Python语言基础的同学,可以通过第一个模块的学习,快速入门。

  第二个模块是关于网络爬虫的一些基础知识。包括编写与使用网络爬虫程序必须遵循的相关法律法规及伦理道德,以及与爬虫程序相关的一些Web开发相关知识。

  后续4个模块则是根据数据爬取目标的特点设计了4个大型案例,每个案例设置了不同的情境与任务,不断地提出问题,引导学习者不断地完善、改进程序,精益求精。


  在整门课程的学习过程中,强调数据获取过程中必须合理合法,授课方式更注重培养学习者的科学思维方式以及互联网时代新的学习方式。希望通过本课程的学习,能够为学习者后续专业知识学习、研究及工作需要,奠定数据获取、数据处理的基础。

授课目标

完成本课程的学习后,学习者将能收获以下基本技能:

   1)熟练分析网页元素、掌握静态页面数据、动态页面数据以及json数据的分析、爬取技能; 

   2)掌握requests、wordcloud、matplotlib、pyecharts等第三方库的使用;

   3)学会第三方库的使用技巧,未来在没有老师教授的情况下也能自主学习,完成任务;

   4)培养学习者科学思维,以及互联网时代新的学习方式,为后续专业知识学习、研究及工作需要,奠定数据获取和数据分析的技术基础。

课程大纲
预备知识

  1)如果具备Python程序设计语言基础,学习本课程将会较为轻松,可以直接略过第一部分【预备知识】,直接从【模块1】开始学习。

  2)如果具备C程序设计语言基础,只需要快速浏览一遍顺序结构、选择结构、循环结构、模块化思维(函数)的语法,但是1.5数据的类型中,包含组合数据类型,这是C语言中没有的,必须先认真学习,掌握之后,再开始学习后续知识,也能够快速上手。

  3)如果不具备任何程序设计语言基础,则需要认真观看完“第一章 Python语言基础”,并完成对应关练习,理解Python语言的数据类型、程序控制结构等,具备基本程序设计能力之后,方能较快理解后续章节的相关内容。

参考资料

    [1] Python主站:https://www.python.org

    [2] Python编写网络爬虫相关库的使用

    requests:https://cn.python-requests.org/zh_CN/latest/ 

    BeautifulSouphttps://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/ 

  • Python语言练习平台:

    [1] Python123学习主站:https://python123.io


 

对于没有任何Python语言基础的同学,可以自主选择在python123平台完成相应知识点的作业,不限时,不计入慕课学习成绩。

  • python123平台使用步骤:




     注册 - > 加入新课程 - > 绑定课程号C11382

     加课流程:平台注册后,学号为1~990中任何一个数

                       姓名为:学生

     建议:使用最简单的密码,确保自己不会忘记:)


绑定课程成功之后,即可完成每一次Python语言的作业。


常见问题

1)为什么写好的程序,双击打开,闪一下就没了?

答:如果只安装了python软件,没有安装其他集成环境的,则需要先打开IDLE,再在file中去open你需要打开的那个.py文件。


2)为什么会经常出现错误提示“AttributeError:'NoneType' object has no attribute 'text'”?

答:这是因为在前面find()某个标签时,没有正确地抓到任何数据,所以返回了一个None。而None是没有属性text的,所以报了以上错误。

----- 正确的做法,应该是find()数据时,先打印出筛选回来的标签数据,看是否正确拿到目标数据,如果已经拿到,再增加.text去获取标签的文本。