零基础的小白怎么学习数据分析?

微信公众号:「Python读财」
如有问题或建议,请公众号留言

作为一个从超级菜鸟阶段过来的人,也曾迷茫,也曾面对一大堆资料不知所措,从无到有踩过太多的坑,在这里分享一下我总结出来的数据分析学习路径,为了让你少走弯路,避免选择困难,能用一本书搞定的我绝不会给你推荐其他多的书。即使是超级菜鸟,只要你认真按照下面的路径进行学习,我保证你能够有所收获。

在我看来,菜鸟入门数据分析所需要学习的内容依次可以分为三个方面:统计学知识、编程技能以及数据分析的方法论。

一、统计学

学习统计学知识并不是让你生啃一本如《统计学原理》或《数理统计》的教科书,如果真是这样,大多数人怕是直接从入门到放弃了。这里推荐一本书:

image

我一直认为统计理论要与日常生活结合起来,才能理解得更直观、透彻。这本书运用充满互动性的真实世界情节,教给你有关统计学的所有基础知识,如信息可视化、概率计算、几何分布、二项分布及泊松分布、正态分布、统计抽样、置信区间的构建、假设检验、卡方分布、相关与回归等等。

二、编程技能

在学习了一些统计学的基本知识后,进入编程技能的学习,数据分析主要用到的编程技能有Excel、SQL、Python/R(我推荐学Python)。Excel由于大家或多或少都会用,上手也比较容易,在这里不过多讨论。这里主要讨论SQL和Python应该如何进行学习。

  • SQL

SQL是什么?SQL全称是”结构化查询语言(Structured Query Language)”,是一种资料库查询和程式设计语言,用于存取资料以及查询、更新和管理关联式资料库系统。实际业务中要进行数据分析,首先得把数据从数据仓库中提取出来,SQL干的就是这个。

软件安装:

对于刚刚接触SQL的同学,可能装个Mysql都需要花费很多的时间,这里为大家找了两份Mysql的安装指南。

mysql安装 - 安晓苏阳 - 博客园​www.cnblogs.com!
MySQL安装和使用 - 梦想云端 - 博客园​www.cnblogs.com!

软件装好了,就可以开始学起来了,针对SQL的学习,可以分为入门阶段和进阶阶段。

入门阶段:

推荐书籍:MySQL必知必会

image

对入门者很照顾的一本书,与其说是一本书不如说是一本小册子,不到250页的小册子,实践性很强,基本没有什么理论的堆砌,完完全全就是一本实践指南,教会你怎么用SQL语句操作MySQL。看完这本书基本就可以说是入门了。

看书之余不要忘了勤加练习,这里也为大家找了一份Mysql入门练习题。

sql语句练习50题(Mysql版)​blog.csdn.net

进阶阶段:

此时的你已经掌握了SQL的基本语法,能对数据库进行基本的增删改查,但当你面对的数据量较大时,优化就显得很重要了。下一步就是要学会如何去优化SQL代码的运行效率。

推荐书籍:高性能MySQL

image

注意,这本书大家直接看第六章 查询性能优化这章即可,切勿从头啃到尾!!

那么进阶阶段应该如何进行训练呢?答案是Leetcode(一个编程刷题网站)。

题库 - 力扣 (LeetCode)​leetcode-cn.com!

Leetcode的数据库板块下面有一些结合实际业务的SQL题目,题目也有划分相应的难度,一开始可以先从难度低的题目开始做起,平台上可以在线编写代码以及在线测试,评论区里面也有一些人的做题思路和代码,当不会做的时候也可以参考一下别人的答案。如下图所示:

image

image

image

当Leetcode的题目练的差不多的时候,你的SQL水平已经足以应付绝大多数的业务场景了。

  • Python

关于Python,想必我也不用进行过多的介绍,近几年数据分析、人工智能的火热也让Python成为最流行的编程语言,那么小白需要学什么,怎么学呢?

软件安装:

python好用的IDE(简单说就是写代码的平台)有很多,但对于学习数据分析的初学者而言,我还是墙裂推荐你装Anaconda,并使用jupyter作为练手的IDE,听我的错不了!(自己一开始学的时候在命令行那里敲代码,对新手而言体验极差……)

Anaconda是什么?怎么安装?(安装前先下载个谷歌浏览器)

Anaconda 的安装教程(图文)​blog.csdn.net
将Chrome设置为Jupyter_notebook的默认浏览器 - 云+社区 - 腾讯云​cloud.tencent.com

安装好Anaconda并配置好jupyter之后,就可以打开jupyter开始学习Python啦,可以花一点时间稍微熟悉一下jupyter的使用,jupyter的界面如下图所示。

image

image

基础语法:

安装完软件之后,就可以开始学习Python的基础语法啦,这方面的教程比较多,这里就给大家推荐一下我觉得还不错的,书和视频各一个。

推荐书籍:Python编程从入门到实践

image

再次注意,这本书也是有选择地看,直接看第二章(变量和简单数据类型)到第九章(类),其他的可以直接忽视。建议在看书时,将示例代码全部自己敲一遍,对代码而言,无他,唯手熟尔,待你将第二章到第九章的代码都敲过并理解了之后,你也就基本掌握了Python的主要数据类型,列表、字典、元组的主要操作,条件语句,循环语句,类和函数的使用,Python也算基本入门了。

视频推荐:

黑马—python基础_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili​www.bilibili.com!

如果有时候看书看不下去,也可以选择对应章节的视频课程,这里就给大家推B站的这个视频吧,也算是B站人气比较高的python入门视频课程。

如果觉得书中的例子不过瘾,想多多巩固刚学的Python语法,这里也为你准备了Python的100个小例题。

Python 100例 | 菜鸟教程​www.runoob.com

Python数据分析核心工具——pandas

当你已经掌握Python的基本语法之后,就可以直接开始学pandas这个数据分析库了,怎么学呢,这里就推荐一本书。

书籍推荐:利用Python进行数据分析 原书第2版

image

本书由pandas项目创始人Wes McKinney亲笔撰写,详细介绍利用Python进行操作、处理、清洗和规整数据等方面的具体细节和基本要点。不仅有主要方法的操作演示,还有相关案例的实践。把这本书吃透,基本上你就可以灵活地使用Python对数据进行处理了。

其实,如果你认认真真走完上面SQL的学习路径,学习pandas的时候进度会很快,因为很多地方都是相通的,这篇文章总结了pandas和SQL在使用方法上的对比,学完SQL后学pandas,看看这个,你会恍然大悟。

pandas与sql 对比,持续更新​blog.csdn.net

另外:建议在阅读这本书的时候,不仅把书上的代码吃透,最好还能找个自己感兴趣的数据集开始试着练手分析分析。不知道去哪里找数据集?下面给你整理了几个常见的找数据集的网站:

和鲸社区 - Kesci.com​www.kesci.com
天池数据集
Datasets | Kaggle​www.kaggle.com

不知道该怎么着手分析?下面是我整理的50个数据分析实战项目,你可以看看别人的分析思路,再将之运用到分析你的数据集上。

易执:干货!Python数据分析50个实战项目(持续更新……)​

至此,你已经基本掌握了数据分析的基本工具,接下来就得开始学习如何结合实际业务去分析问题,学习一些数据分析的思维。

三、数据分析方法论

这里直接推荐两本自己看过的不错的书

1、精益数据分析

image

这本书展示了如何验证自己的设想、找到真正的客户、打造能赚钱的产品,以及提升企业知名度。30多个案例分析,全球100多位知名企业家的真知灼见,为你呈现来之不易、经过实践检验的创业心得和宝贵经验,其中的数据分析思路值得仔细揣摩。

2、增长黑客

image

作为最早提出“增长黑客”概念的理论先驱、带领Dropbox实现500%增长的实战领军人物,作者在书中分享了如何跨部门搭建增长黑客团队,以及实现用户和利润双增长的具体行动指南。这本书适合入门者理解增长黑客的原理与操作体系。

如果你已经走到最后这个阶段了,那么再往下继续深入,就得在实际项目中结合业务自己学习领悟了,或许,这也正是数据分析独特的魅力所在!

扫码关注公众号「Python读财」,后台回复【数据分析】即可领取以上所有电子书PDF哦!!

image.png

Image placeholder
zhouqi
未设置
  59人点赞

没有讨论,发表一下自己的看法吧

推荐文章
Python数据分析实战 | 爬遍拉勾网,带你看看数据分析师还吃香吗?

微信公众号:「Python读财」如有问题或建议,请公众号留言伴随着移动互联网的飞速发展,越来越多用户被互联网连接在一起,用户所积累下来的数据越来越多,市场对数据方面人才的需求也越来越大,由此也带火了如

零基础学习Swift中的数据科学

概述Swift正迅速成为数据科学中最强大、最有效的语言之一Swift与Python非常相似,所以你会发现2种语言的转换非常平滑我们将介绍Swift的基础知识,并学习如何使用该语言构建你的第一个数据科学

零基础学测试 1 - 在 Laravel 中使用 PHPUnit

创建Laravel应用$laravelnewmind-geek-laravel-test-demo进入项目$cdmind-geek-laravel-test-demo运行自带的测试用例$vendor/

零基础学测试 2 - 进一步理解 Laravel 的测试与 PHP Unit 的关系

细心的读者可以发现,上一讲中创建的用例继承的是PHPUnit的测试基类。

AB test | 数据分析师面试必知 !

前言关于ABtest的重要性无需多言,数据、产品等从业人员几乎必知,好的数据科学家我想一定是知道理解业务比模型更为重要,而ABtest就是伴随着业务增长的利器。如果你心中的ABtest几乎都没有用到中

基于 Spark 的数据分析实践

转载本文需注明出处:微信公众号EAWorld,违者必究。引言:Spark是在借鉴了MapReduce之上发展而来的,继承了其分布式并行计算的优点并改进了MapReduce明显的缺陷。Spark主要包含

数据分析利器之Pandas

Pandas是一个python的开源库,它基于Numpy,提供了多种高性能且易于使用的数据结构。Pandas最初被用作金融数据分析工具而开发,由于它有着强大的功能,目前广泛应用于数据分析、机器学习以及

如何避免人类偏见对数据分析产生影响

随着越来越多的企业开始采用机器学习技术以实现流程的自动化,人们也逐渐开始质疑计算机决策中的伦理含义。我们如何处理计算机系统中潜在的偏见?相对较少被提及但同样重要的,是人类本身的偏见,它与分析和商业决策

实现人工智能落地 你还差一个“数据分析流水线”的距离

在智慧生产场景,生产制造商可以在生产线上利用深度学习,尤其是图像识别,将产品的质量检测自动化。比如自动检测产品表面有没有划伤、有没有零部件的缺失、有没有标签的错位。研究表明,相比人工检测,智慧检测可以

调查:2019年数据分析市场面临的挑战有哪些?

分析和数据科学行业对人才的需求急剧增长,为该行业求职者提供了很多工作机会。无论是500强还是初创企业,每个团队都在使用分析来从数据中获得有价值的信息。然而,在人才、客户定位和收集数据等方面,这个行业仍

Pandas数据分析——超好用的Groupby详解

微信公众号:「Python读财」如有问题或建议,请公众号留言在日常的数据分析中,经常需要将数据根据某个(多个)字段划分为不同的群体(group)进行分析,如电商领域将全国的总销售额根据省份进行划分,分

最适合入门的Python数据分析实战项目

微信公众号:「Python读财」如有问题或建议,请公众号留言伴随着移动互联网的飞速发展,越来越多用户被互联网连接在一起,用户所积累下来的数据越来越多,市场对数据方面人才的需求也越来越大,由此也带火了如

为什么学编程?9个理由告诉你编程是最好的工作

  为什么要学习编程?可能大部分给出的答案就是因为开发工作的薪资高啊。的确这是学编程开发的原因之一,但这并不是全部的答案,下面将为大家提供9个理由告诉你编程才是最好的工作。也许你会改变对编程的看法。

数据结构与算法分析——开篇以及复杂度分析

开篇 你也许已经发现了,工作了几年,原以为已经是一只老鸟。但看到刚参加工作的同事,你发现,原来自己一直在原地踏步。跟新人相比,你的唯一优势就是对业务更熟悉而已,别的就没有什么优势了。 怎样才能够让自己

数据结构与算法分析——开篇以及复杂度分析

开篇你也许已经发现了,工作了几年,原以为已经是一只老鸟。但看到刚参加工作的同事,你发现,原来自己一直在原地踏步。跟新人相比,你的唯一优势就是对业务更熟悉而已,别的就没有什么优势了。怎样才能够让自己更上

项目需求分析和基础环境搭建笔记

ENGINE=InnoDB表示将数据库的引擎设置为InnoDB,从MySQL5.6开始默认使用该引擎。DEFAULTCHARSET=utf8表示设置数据库的默认字符集为utf8AUTO_INCREME

项目需求分析和基础环境搭建笔记

源代码:H5前端精品项目源码前端:简单的商城模版,响应式商城模板后端:实用的后台模版,简单通用文章系统后台模板 以简单的商城模版为例,打开先找index.html文件 简单通用文章系统后台模板 所有的

项目需求分析和基础环境搭建笔记

商务系统需求分析说明书1.编写目的2.项目背景,设计背景3.功能结构4.功能描述5.交易管理6.用户管理7.项目流程图8.E-R图

初探英特尔存储“秘密基地”:傲腾小白 学成归来

可以把这篇文章当成故事听、你也可以把它看成游记、你还可以认为它是一篇技术贴,whatever,如何包装不重要,接下来的干货才是重点:忆往事英特尔傲腾数据中心技术,是英特尔“以数据为中心”战略的具体体现

60秒一口Python:147个demo,助你从新手小白步步进阶编程高手

人生苦短,编程苦手,不妨学起Python,感受一飞冲天的快乐。不要害怕学习的过程枯燥无味,这里有程序员jackzhenguo打造的一份中文Python“糖果包”:147个代码小样,60秒一口,营养又好

IDC发布:4Q18云IT基础设施收入低于传统IT基础设施收入

根据IDC全球云IT基础设施季度跟踪报告,在2018年第四季度(4Q18),包括公有和私有云在内的云IT基础设施产品(服务器、企业存储和以太网交换机)销售收入同比增长28.0%,达到168亿美元。20

数据基础设施重定义 华为AI-Native数据库全球发布

2019年5月15日,华为公司在北京面向全球发布了人工智能原生(AI-Native)数据库GaussDB和分布式存储FusionStorage8.0。发布会上,华为常务董事、ICT战略与Marketi

“数据+智能” 华为重新定义数据基础设施

互联网的发展,促成了网络订餐平台的崛起,数据的力量正在给传统的餐饮行业带来新的增长。业务场景不断丰富、数据规模越来越大,这对数据采集提出了非常高的要求;出行软件最核心的业务是一个实时在线服务,因此具有

【Java 反射学习】Java 反射基础

知识点 类是用来描述对象的,而反射就可以理解为是用来描述类的。 类中的属性包括: Class类本身 Package类所在的包 Field类中的属性 Method类中的方法 Constructor类中的

{