首页 置换 选车 估价 问答 生活 经销商 车管所 汽车资讯 汽车销量 车牌查询 今日油价 天气预报
您的位置: 首页 > 生活 > 科技 > 如何开始零基础学数据分析(掌握这些数据分析技能需要多长时间)
如何开始零基础学数据分析(掌握这些数据分析技能需要多长时间)
更新时间:2024-07-06 23:21:12

如何开始零基础学数据分析(掌握这些数据分析技能需要多长时间)1

CDA数据分析师 出品

作者:Benjamin Obi Tayo

编译:Mika

对数据分析相关技能的掌握程度大致可以分为3个级别:基础水平,进阶水平和高级水平。

今天我们就来探讨一下,掌握这三个阶段所需的技能分别需要多少时间。

如何开始零基础学数据分析(掌握这些数据分析技能需要多长时间)2

通常情况下,具有物理、数学、科学、工程、会计或计算机科学等学科背景的人,需要的时间相对更少。具体所需的时间取决于你的专业背景以及个人能够投入多少的精力和时间。

1、基础水平(所需时间:6-12个月)

首先是基础水平,希望从事数据分析领域的人群应该能够处理一般以逗号分隔值(CSV)文件格式呈现的数据集。并且应具备数据基础知识、数据可视化和线性回归方面的能力。

1.1.数据基础知识

能够对数据进行操作、清理、结构化、扩展和工程化。并且应该熟练使用pandas和NumPy库,应具备以下能力:

  • 知道如何导入和导出以CSV文件格式存储的数据
  • 能够清理、处理和组织数据,以便进一步分析或建立模型
  • 能够处理数据集中的缺失值
  • 理解并能够应用数据归因技术,如平均数或中位数归因。
  • 能够处理分类数据
  • 知道如何将数据集划分为训练集和测试集
  • 能够使用缩放技术(如归一化和标准化)来缩放数据
  • 能够通过主成分分析(PC)等降维技术压缩数据

1.2. 数据可视化

能够理解数据可视化的基本组成部分。能够使用数据可视化工具,包括Python的matplotlib和seaborn包;和R的ggplot2包。

具体需要掌握以下几个能力:

  • 数据组件 进行数据可视化的第一步在于区分并了解数据类型,例如,分类数据,离散数据,连续数据,时间序列数据等。
  • 几何成分 决定哪种可视化方式更适合数据,例如,散点图、线形图、条形图、直方图、Q-Q图、平滑密度图、boxplots、配对图、热图等。
  • 映射成分 决定用什么变量作为X变量,用什么作为Y变量。这一点很重要,特别是当数据集是多维的、有多个特征的时候。
  • 尺度组件 决定使用什么样的尺度,例如,线性尺度、对数尺度等。
  • 标签组件 了解像坐标轴标签、标题、图例、使用的字体大小等内容。
  • 道德操守 确保可视化描述的内容是真实的。在清理、总结、处理和制作数据可视化时,要确保没有利用可视化来误导或操纵观众。

1.3.监督学习(预测连续目标变量)

熟悉线性回归和其他高级回归方法。能够使用scikit-learn和caret等软件包来建立线性回归模型。

具体需要具备以下能力:

  • 能够使用NumPy或Pylab进行简单的回归分析
  • 能够使用scikit-learn进行多元回归分析
  • 了解正则化回归方法,如Lasso、Ridge和Elastic Net
  • 了解其他非参数化回归方法,如KNeighbors回归(KNR)和支持向量回归(SVR)。
  • 了解评估回归模型的各种指标,如MSE(平均平方误差)、MAE(平均绝对误差)和R2得分
  • 能够比较不同的回归模型
2. 进阶水平(所需时间:7-18个月)

下面我们看到更进阶的需要掌握哪些技能:

2.1 监督学习(预测离散目标变量)

熟悉二元分类算法,例如:

  • 感知器分类器
  • 逻辑回归分类器
  • 支持向量机(SVM)
  • 能够使用核SVM解决非线性分类问题
  • 决策树分类器
  • K-nearest分类器
  • Naive Bayes分类器
  • 了解分类算法质量的几个指标,如准确率、精确度、灵敏度、特异性、召回率、F-L评分、混淆矩阵、ROC曲线。
  • 能够使用scikit-learn来建立模型

2.2 模型评估和超参数调整

  • 能够在管道中组合变压器和估计器
  • 能够使用k-折交叉验证(k-fold cross-validation)来评估模型性能
  • 了解如何使用学习和验证曲线调试分类算法
  • 能够通过学习曲线诊断偏差和方差问题
  • 能够通过验证曲线解决过拟合和欠拟合问题
  • 了解如何通过网格搜索微调机器学习模型
  • 了解如何通过网格搜索调整超参数
  • 能够阅读和解释混淆矩阵
  • 能够绘制和解释接收器工作特性(ROC)曲线

2.3 结合不同的模型进行集合学习

  • 能够使用不同分类器的集合方法
  • 能够结合不同的算法进行分类
  • 知道如何评估和调整集合分类器
3. 高级水平(所需时间:18-48个月)

接下来是更高级的阶段,这需要数据人能够处理高级数据集,如文本、图像、语音和视频。除基本和进阶技能外,具体应具备以下能力:

  • 聚类算法(无监督学习)
  • K-means
  • 深度学习
  • 神经网络
  • Keras
  • TensorFlow
  • PyTorch
  • Theano
  • 云系统(AWS,Azure)
结语:

综上所述,我们已经讨论了数据科学的3个级别。第一个级别的能力可以在6到12个月内实现。第2级能力可以在7到18个月内实现。第3级能力可以在18至48个月内实现。这一切都取决于所投入的努力和每个人的专业背景。

好,以上就是今天的分享。如果大家还有数据分析方面相关的疑问,就在评论区留言。

,
相关推荐RECOMMEND
如何安装pp助手越狱版(PP助手发布Mac版越狱工具)
2015-07-1505:12:00作者:马荣【中关村在线软件资讯】7月15日消息:到现在为止iOS8.4越狱工具已经很完善了,但是一直没有Mac版,这让没有PC的用户比较烦恼。现在,P助手针对iOS...
2022年9月全球手机出货量(2022年全球智能手机出货量预计将下降7.8)
【手机中国新闻】2022年以来,手机市场遇冷,消费者的购买积极性普遍下降。9月2日消息,市场调研机构StrategyAnalytics无线智能手机战略(WSS)服务最新发布的研究报告指出,2022年全...
操作系统知识点第二章(操作系统第三章)
>清华大学陈渝老师操作系统教程三、内存计算机体系结构及内存分层体系计算机体系结构CPU:程序/软件执行的控制内存:放置程序的代码及其处理的数据设备eg.鼠标、键盘内存分层体系主存(物理内存):放置操作...
天锐绿盾没有客户端怎么办(天锐绿盾如何在绿盾终端电脑申请认证U盘)
操作步骤:步骤1:先把待认证U盘,插入到绿盾终端电脑上,然后点击右下角绿盾图标,选择“USB存储设备认证申请”,可以看到U盘现象,设备状态显示“未认证”;步骤2:选中需要认证的U盘,选择“申请选中”,...
ios版本低越狱能解决吗(盘古推出iOS8系统越狱工具)
盘古越狱foriOS8新浪手机讯10月23日上午消息,中国iOS越狱团队盘古昨天发布了适用于苹果iOS8.0-8.1系统的越狱工具(下载),盘古团队称其是首个攻破iOS8系统的越狱团队。这款系统目前可...
赵丽颖晒儿童节日照(与儿子视讯一脸宠溺)
女星赵丽颖9月21日晚参加中秋活动。唱完一首歌的她,其余时间全程坐在台下观看表演,一举一动都成关注焦点。有网友捕捉到,她在与儿子视频互动时一脸宠溺,而且她的手机贴上了防窥膜,颇有安全意识。赵丽颖在中秋...