数据分析实战——06 | 学数据分析要掌握哪些基本概念?

  • Apriori 算法
    • 他通过分析购物篮中的商品集合,找出商品之间的关联关系
    • 利用这种隐性关联关系,商家就可以强化这类购买行为,从而提升销售额
  • 商业智能 BI、数据仓库 DW、数据挖掘 DM 三者之间的关系
    • 数据仓库是个金矿,数据挖掘是炼金术,而商业报告则是黄金
    • 数据仓库可以说是数据库的升级概念。不过从数量上来讲,数据仓库的量更庞大,适用于数据挖掘和数据分析
    • 数据仓库将原有的多个数据来源中的数据进行汇总、整理而得。数据进入数据仓库前,必须消除数据中的不一致性,方便后续进行数据分析和挖掘
    • 数据挖掘的核心包括分类、聚类、预测、关联分析等任务
    • 企业老板总是以结果为导向,他们认为商业报告才是他们想要的,但是这也是需要经过地基 DW、搬运工 ETL、科学家 DM 等共同的努力才得到的
  • 数据仓库中的元数据 VS 数据元
    • 在生活中,只要有一类事物,就可以定义一套元数据。举个例子,比如一本图书的信息包括了书名、作者、出版社、ISBN、出版时间、页数和定价等多个属性的信息,我们就可以把这些属性定义成一套图书的元数据
    • 在图书这个元数据中,书名、作者、出版社就是数据元
  • 数据挖掘的流程
    • 数据挖掘的一个英文解释叫 Knowledge Discovery in Database,简称 KDD,也就是数据库中的知识发现
      • 1. 分类KNN
        • 就是通过训练集得到一个分类模型,然后用这个模型可以对其他数据进行分类
      • 2. 聚类k-means
        • 聚类就是将数据自动聚类成几个类别,聚到一起的相似度大,不在一起的差异性大。我们往往利用聚类来做数据划分。
      • 3. 预测
        • 顾名思义,就是通过当前和历史数据来预测未来趋势,它可以更好地帮助我们识别机遇和风险。
      • 4. 关联分析
        • 就是发现数据中的关联规则,它被广泛应用在购物篮分析,或事务数据分析中。
    • 数据预处理中,我们会对数据进行几个处理步骤:数据清洗,数据集成,以及数据变换。
      • 1. 数据清洗
        • 主要是为了去除重复数据,去噪声(即干扰数据)以及填充缺失值。
      • 2. 数据集成
        • 是将多个数据源中的数据存放在一个统一的数据存储中。
      • 3. 数据变换
        • 就是将数据转换成适合数据挖掘的形式。比如,通过归一化将属性数据按照比例缩放,这样就可以将数值落入一个特定的区间内,比如 0~1 之间。
    • 数据后处理是将模型预测的结果进一步处理后,再导出。比如在二分类问题中,一般能得到的是 0~1 之间的概率值,此时把数据以 0.5 为界限进行四舍五入就可以实现后处理。
  • 上帝不会告诉我们规律,而是展示给我们数据
posted @ 2020-04-27 14:36  怡情养性长智  阅读(174)  评论(0编辑  收藏  举报