数据科学中的第一原理思维。

数据科学中的第一原理思维。

Image source Wikipedia

第一原理思维被定义为“将问题归结为最基本的真理”。

那么当谈到数据科学时,首要原则是什么?

在我看来,它们是:

  • 集中趋势的度量 — 平均值、中位数、众数。
  • 分散测量 — 方差、标准偏差、四分位距。

数据科学中的大多数主题都以某种方式归结为集中趋势或分散。让我通过一些例子来解释:

  1. 线性回归
    通常,One 模拟预期值(平均值)而不是因变量的原始值。
    请注意,可以对线性回归中的任何分位数进行建模。
  2. 概率分布
    著名的正态分布以位置参数(均值)和尺度参数(标准差)为特征。
    类似地,其他分布也以位置和尺度参数为特征。
  3. 机器学习
    模型漂移:当我们说模型漂移时,实际上是指现有模型在位置或尺度参数或两者方面与真实模型发生了漂移。
  4. 准确度指标 :像 F1 这样的准确度指标只不过是调和平均值。
  5. 异常值检测或异常检测 :如果某个数据点是 2SD 或 3SD 甚至 6SD,我们会将某些东西分类为异常值。
  6. 时间序列预测
    时间序列预测的关键概念之一是平稳性。平稳时间序列是其属性(如均值、方差和自相关结构)随时间保持不变的序列。平稳性很重要,因为它更容易和更准确地估计属性不随时间变化的系列的参数。如果序列的均值和方差随时间不断变化,则估计的准确性将随时间而变化。
  7. 假设检验
    我们对均值和均值差异进行假设检验。例如 t 检验和方差分析。
  8. 信息论
    许多算法(如决策树)、模型比较技术(如 AIC)都以信息论为核心。甚至概率分布比较技术 KL Divergence 使用信息论概念,如熵、信息增益等。熵再次是变量自信息的期望值(平均值)
    或者
    熵是从源发送到目的地的消息的无损编码的最小可能平均大小。

用于数据科学咨询和解决方案;

通过以下方式与我们联系:

网站: https://www.arymalabs.com/

领英 http://www.linkedin.com/in/venkat-raman-Analytics

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/37012/53281612

posted @ 2022-09-16 12:54  哈哈哈来了啊啊啊  阅读(146)  评论(0编辑  收藏  举报