我是用Python做数据分析的,市场上python资料简直多如牛毛,真正值得看的没多少。人生苦短,少看垃圾。
补充:下面还有很多干货!!!
正文开始
先看看python岗位概况:
图片来源网络
针对数据分析岗位需要的python技能,这里分为三大块来讲。
1、数据分析需要用到那些python知识点;
2、Python数据分析最主要的工具库有哪些;
3、学习数据分析各阶段用到什么书籍或资料;
首先,python可以用作爬虫、web开发、AI、脚本、测试、数据分析等各个领域,每个领域对python的学习要求和深度不一样,数据分析不要求掌握很深的编程知识。
主要是以下内容,数据类型和结构、变量、函数、逻辑语句(判断、循环)、匿名函数、错误处理、遍历和迭代、进程和线程、库的使用。学习这些东西并不需要购买书籍,能省则省,网上很多教程。推荐菜鸟教程和w3cschool的python3教程,通俗易懂,非常适合初学者掌握基础语法,然后可以在实验楼这个网站练习编程,也可以自己搭建环境敲代码。
编程毕竟是抽象的,一开始理解诸如切片、迭代等概念比较吃力,只有多看多敲代码,后面自然而然就懂了。
学完python基础知识点,并有了一定的训练代码量(至少得1000行)之后,就可以开始学习数据分析工具了,也就是python的第三方数据分析库。按照我的使用经验和个人理解,有以下几个重点学习对象。
scipy&numpy:它是一个由多维数组对象和用于处理数组的例程集合组成的库,里面包含了大量的计算函数,可以很轻松的进行科学计算。
图片来源网络
pandas:是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的,具备强大的数据展示功能。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分析环境的重要因素之一。
matplotlib:是一个Python 2D绘图库,可以生成各种硬拷贝格式和跨平台交互式环境的出版物质量数据。Matplotlib可用于Python脚本,Python和IPython shell,Jupyter笔记本,Web应用程序服务器和四个图形用户界面工具包。只需几行代码即可生成绘图,直方图,功率谱,条形图,误差图,散点图等。
图片来源网络
scikit-learn:是一个机器学习库,可以对数据进行分类,回归,无监督,数据降维,数据预处理等等,包含了常见的大部分机器学习方法。
图片来源网络
上面五种工具scipy、numpy、pandas、matplotlib、scikit-learn,基本能解决90%以上的数据分析问题,建议初学者把这五个工具重点用。
至于教程,推荐《利用python进行数据分析》第二版,可以掌握numpy、pandas、matplotlib的许多实用用法。我基本把这本书看完了,也敲了里面大部分代码。学习scikit-learn最好选择看官方文档,目前好像也有了中文版,可以多跑跑里面的sample。
sklearn文档案例(图片来源网络)
最后捎带提一下,还要学习SQL,这是数据分析最基础的能力,我用的是《SQL学习指南》这本书,很适合入门。
另外,对于所有有志于做数据分析师、商业数据分析、数据治理的小伙伴,一定要加快提升自己。世界经济论坛发布的《2023年未来就业报告》对未来五年就业市场进行深入分析,报告预测未来5年内增长最快的十大岗位,就包括了数据分析师和科学家以及数字化转型专业人员。
强烈建议重视CDA数据分析师证书,CDA数据分析师一级考试涉及的多个业务分析模型,这些模型在实战中超有用。尤其是想进入电网、银行、电信、烟草行业的小伙伴们,尽量考过CDA数据分析师二级,因为这些单位几乎都会在招聘中说明CDA数据分析师优先。
CDA数据分析师认证-全国统一网上考试报名官网
大家考个证书,既可以巩固自己的数据分析技术,还能有证书加持,对于部分工作有很大好处。
最后再梳理一下学习路径和教程,python基础语法(菜鸟教程和w3cschool)>>numpy、pandas、matplotlib(《利用python进行数据分析》)>>scikit-learn(官方文档)
我收集了一些python学习书籍
python基础:
- 《Python基础教程》(Beginning Python From Novice to Professional)
- 《Python学习手册》(Learning Python)
- 《Python编程》(Programming Python)
- 《Python编程从入门到实践》(Python Crash Course)
- 《Python Cookbook》
python数据分析
- 《利用Python进行数据分析》(Python for Data Analysis)
- 《Python数据科学手册》(Python Data Science Handbook)
- 《Python金融大数据分析》(Python for Finance)
- 《Python数据可视化编程实战》(Python Data Visualization Cookbook)
- 《Python数据处理》(Data Wrangling with Python)
python机器学习
- 《Python机器学习基础教程》(Introduction to Machine Learning with Python)
- 《Python机器学习实践指南》(Python Machine Learning Blueprints)
- 《Python机器学习实践:测试驱动的开发方法》(Thoughtful Machine Learning with Python A Test Driven Approach)
- 《Python机器学习经典实例》(Python Machine Learning Cookbook)
- 《TensorFlow:实战Google深度学习框架》
附 github大神开源的python数据科学速查小抄(仅供学习)
python
pandas
numpy
scipy
sklearn
matplotlib
python基础
数据分析