每周导学-第九周-P3阶段总结

Nothing is particularly hard if you divide it into small jobs.

Hi,同学们,本周是我们P3阶段的最后一周,前三周我们掌握了数据分析的基本流程、Pandas在数据分析各个流程中的基本应用,使用matplotlib&Pandas进行可视化的技巧,并且在项目三中得到了巩固和锻炼。我也陆续收到了大家的项目展示,都十分厉害,尤其是问题的提出以及可视化,非常能吸引人,只是数据整理阶段的代码还需再慢慢磨练,得以精简。本周导学呢,我们就是对之前所学做一个总结,希望大家也能自己做一份总结(这份总结才是最贴切你自己需求的),优达日的时候我们会一起交流一下自己的项目心得以及踩过的坑,等你们哦~

项目三(P3)阶段总共包含四周,在这一个月内,我们要对数据分析入门进行学习,学习数据分析思维,掌握Python数据分析及可视化方法,并使用所学知识完成项目三:探索数据集,尝试着自己完成整个数据分析的流程,得到一些饶有兴趣的结论,你一定会非常有成就感哒!那么以下便是这四周的学习安排:

时间 学习重点 对应课程
第1周 数据分析过程-1 数据分析过程&案例研究-1
第2周 数据分析过程-2 案例研究-1&案例研究-2
第3周 完成项目 项目:探索数据集
第4周 项目修改与通过 修改项目、查缺补漏、休息调整
!!看这里!!:在P3课程里面安排了SQL的高阶课程,但是因为在项目三中并不会涉及到SQL知识,所以为了保证大家学习的连贯性,在完成前两周的课程之后,就开始项目。至于!!SQL的高阶知识,大家可以放在课程通关后进行选修!!;

本阶段可能是个挑战,请一定要保持自信,请一定要坚持学习和总结,如果遇到任何课程问题请参照如下顺序进行解决:

饭要一口一口吃,路要一步一步走,大家不要被任务吓到,跟着导学一步一步来,肯定没问题哒!那我们开始吧!

注:本着按需知情原则,所涉及的知识点都是在数据分析过程中必须的、常用的,而不是最全面的,想要更丰富,那就需要你们课下再进一步的学习和探索!

本周目标

  • 完成你的项目,并且对P3阶段做一个自我总结,最好能以博客或者朋友圈文章的形式进行输出。

学习计划

时间 学习资源 学习内容
周二 微信群 - 每周导学 预览每周导学
周三、周四 Udacity - Classroom 项目三
周五 微信/Classin - 1V1 课程难点
周六 Classin - 优达日 本周学习总结、答疑
周日 笔记本 总结沉淀
周一 自主学习 查漏补缺

知识点清单

第六周-数据分析过程

  • 数据分析的基本流程

    • 提出问题
    • 整理数据(收集、评估、清理)
    • 探索性数据分析
    • 得出结论,传达结果
  • Pandas在数据分析中的应用

    • 导入文件(read_csv/excel/sep/encoding)
    • 数据评估(shape / info / describe / columns/ isnull/ duplicated/ value_counts/ sort_values/ ascending/ unique/ nunique)
    • 数据筛选(df[‘col_name’]/loc/iloc/np.r_/isin/query/groupby/&/|
    • 数据清理(drop/inplace/fillna/dropna/drop_duplicates/rename/replace)
    • 数据融合(merge/concat/append/join)
    • 可视化(plot)
    • 导出数据(to_csv/index/encoding = ‘utf-8-sig’)

第七周-可视化

  • 基本概念(fig/ax)

  • 开始绘图(plt.subplots/plt.add_subplot/plt.figure)

  • 坐标轴设置

    • 调整范围(ax.axis/xlim/ylim)
    • 调整刻度

      • 设置间隔(locator_params)
      • 设置顺序,角度(xticks(order_list,tick_names,rotation)
    • 双轴(twinx)

  • 标题与轴标题(title,xlabel,ylabel)

  • 图例(legend)

  • 颜色与样式(plot(x,y,’color`markerline`’)

  • 网格(grid)

  • 图像注释(annote)

  • 平行于坐标轴的线(vline/hline)

  • 常用可视化图形

    • 散点图(scatter)
    • 条形图(bar/barh)
    • 直方图(hist)
    • 饼状图(pie)
    • 箱线图(box)

第八周-TMDb数据分析

  • 如何提出问题? 找出关键变量,提与之相关的问题
  • 数据备份(copy)
  • 如何将一列处理为多列?(genres列的处理
    • 拓展:pivot函数

  • 如何着手探索性数据分析?

    • 单变量 - 双变量 - 多变量
    • 关键变量 - 其他变量与关键变量
  • 可视化

    • 热度图(heatmap)
    • pairplot
  • 一些函数:
    • 获取某一位置的数值 quantile
    • 按列表筛选 isin

第八周-FBI枪支数据分析

  • DataFrame行列变换:transpose
  • 按字符串内容筛选:contains
  • 按索引进行数据融合:join

总结

通过这四周的学习,你又掌握了:

  • 数据分析的基本流程
  • Pandas在数据分析各个流程中的基本应用
  • Pandas常用函数的用法
  • Matplotlib在可视化中的应用

此外,你还增长了这些软技能:

  • 数据分析思维(化繁为简、化难为易、关键信息的提取)
  • 耐心(EDA的过程,做过的都知道)
  • 细心(有没有调试半天最终才发现是自己马虎导致的问题?)

如果你学习时间充裕,你还有可能掌握了:

  • Seaborn在可视化中的应用
  • 如何快速有效地使用搜索引擎
  • 在Stackoverflow注册账户,提出问题,成为一名铜牌用户
  • 有了自己的技术博客,并发表了第一篇总结性文章
  • … …

哈!这么总结下来,发现不知不觉间,又掌握了很多!又进步了很多!我导师之前教育我说:“你之所以现在这么焦虑,都是因为你自己的能力满足不了你的欲望。”那么,同样因为对未来感到焦虑来到这里学习的你们,经过这段时间的学习,焦虑是不是缓解了许多呢?哈哈,所以,请不要放松脚步,KEEP GOING!

Allen Jia wechat
扫一扫订阅我的公众号
听说你要请我喝杯咖啡?