本课程基于Python3,全程理论讲解和案例展示相结合,通过爬虫技术从社区网站获取电视剧数据,经过数据提取和存储,实现数据分析及其可视化。课程分为三个模块:爬虫

*   第一章 爬虫基础知识/

  *   爬虫的定义和分类(本节下载课程PPT)/

    *   爬虫的定义

    *   爬虫的分类

  *   http和https/

    *   http和https的学习01

    *   http和https的学习02

    *   Python中的bytes类型和str类型的转化

  *   requests模块/

    *   requests模块的使用

    *   发送带header的请求

    *   发送post请求

    *   案例:百度翻译

    *   requests处理cookie

    *   添加超时参数和判断请求是否成功

*   第二章 数据提取和存储/

  *   结构化数据提取方法json/

    *   数据提取方法基础和网页返回json数据

    *   案例:豆瓣电视剧数据的提取

    *   案例:豆瓣电视剧反爬虫应对

  *   非结构化数据提取方法xpath/

    *   xpath的语法

  *   lxml模块/

    *   lxml模块的使用

  *   数据库MongoDB/

    *   MongDB的使用

    *   案例:糗事百科爬虫

*   第三章 数据分析和可视化/

  *   数据分析基础/

    *   数据分析基础

  *   数据可视化库Matplotlib/

    *   绘制折线图01

    *   绘制折线图02

    *   绘制散点图

    *   绘制条形图

  *   科学计算库Numpy/

    *   numpy介绍

  *   数据分析库Pandas/

    *   Series

    *   DataFrame

    *   缺失数据的处理和pandas的分组聚合

    *   豆瓣案例:展示不同国家电视剧评分的平均值

    *   Pandas常用方法

    *   豆瓣案例:不同分类电视剧的数量

    *   pandas时间处理

    *   豆瓣案例:7分以上电视剧随时间分布