统计数据

数据科学家需要掌握的10个统计技术

字号+作者:武汉建设信息网 来源:www.cnwhjs.com 2018-03-08 14:12 我要评论() 收藏成功收藏本文

无论你是不是一名数据科学家,都不能忽视数据的重要性。数据科学家的职责就是分析、组织并利用这些数据。随着机器学习技术的广泛应用,深度'...

无论你是不是一名数据科学家,都不能忽视数据的重要性。数据科学家的职责就是分析、组织并利用这些数据。随着机器学习技术的广泛应用,深度学习吸引着大量的研究人员和工程师,数据科学家也将继续站在技术革命的浪潮之巅。

  虽然编程能力对于数据科学家而言非常重要,但是数据科学家不完全是软件工程师,他应该是编程、统计和批判性思维三者的结合体。而许多软件工程师通过机器学习框架转型为数据科学家时,没有深刻地思考并理解这些框架背后的统计理论,所以统计学习理论成为了机器学习的理论框架。
  为什么学习统计学习?理解不同技术背后的想法是非常重要的,只有真正理解了这些才能知道何时何地使用这些技术。首先必须理解简单的方法,以便掌握更复杂的方法。精确评估一个方法的性能,并且知道它工作情况的好坏显得非常重要。此外,这是一个令人兴奋的研究领域,在科学、工业和金融等方面具有重要的应用。最后,统计学习是培养现代数据科学家的一个基本素材。统计学习问题的例子包括以下几个部分:
  确定前列腺癌的风险因素;
  根据对数周期图分类记录的音素;
  根据人口统计学、饮食和临床测量预测其是否有心脏病;
  自定义垃圾电子邮件检测系统;
  识别手写邮政编码中的数字;
  将组织样本分类为对应的癌症;
  建立人口调查数据中的工资与人口变量的关系;
  此外,作者对数据挖掘进行了一定的研究,推荐 Intro to Statistical Learning (Hastie, Tibshirani, Witten, James)、Doing Bayesian Data Analysis (Kruschke)和 Time Series Analysis and Applications (Shumway, Stoffer)三本书,这里面有许多有价值的内容。在进入正题之前,想区分一下机器学习和统计学习,主要有以下几点区别:
  机器学习是人工智能的一个分支;
  统计学习是统计领域的一个分支;
  机器学习更侧重于大规模应用和精度预测;
  统计学习强调模型及其解释性、精度和不确定性;
  但是这种区别变得越来越模糊,而且有大量相互交流;
  机器学习在市场营销中占优势;
  下面分享10项统计技术,任何数据科学家都应该学习,使得能够更高效地处理大数据集。
  1.线性回归
  在统计学中,线性回归是一种通过拟合因变量和自变量之间的最佳线性关系来预测目标变量的方法。线性回归主要分为简单线性回归和多元线性回归。简单线性回归使用一个自变量,通过拟合一个最佳线性关系来预测因变量;而多元线性回归使用一个以上的自变量来预测因变量。


武汉建设信息网是湖北最大的城市设信息网,欢迎您访问武汉建设信息网为您提供最全最新的城市设信息网、湖北省住房和城乡建设厅信息及湖北城市设信息。

相关文章
网友点评
头条焦点
精彩导读