数据挖掘目录

 

Numpy

      1. Numpy 的ndarray
      2. ndarray的数据类型
      3. Numpy的array数组和标量之间的运算
      4. numpy 切片和索引
      5. Numpy 的数组转置和轴对换
      6. Numpy 的通用函数:快速的元素级数组函数
      7. Numpy 产生随机的一维, 二维数组代码
      8. Numpy 的数学和统计方法
      9. Numpy 利用数组进行数据处理where, sort, unique等
      10. Numpy 用于数组的文件输入和输出
      11. Numpy的线性代数
      12. numpy的排序

 

pandas

      1. pandas 的数据结构(Series, DataFrame)创建以及索引等方法
      2. DataFrame重命名单个column
      3. pandas 的算术运算和数据对齐
      4. Pandas DataFrame 函数应用和映射(有对dataframe小数格式化方法等)
      5. Series 对缺失值进行处理
      6. Pandas的排序和排名(Series, DataFrame)
      7. DataFrame在算术方法中填充值
      8. pandas 带有重复值的轴索引
      9. pandas汇总和计算描述统计
      10. 唯一值、值计数以及成员资格
      11. 相关系数和协方差
      12. 处理缺失数据
      13. 层次化索引
      14. Pandas 读取文本格式数据
    1. error
      1. pandas Series KeyError: -1

数据规整化:清洗、转换、合并、重塑

      1. Pandas 的轴向连接 concat
      2. 数据规整化:pandas 求合并数据集(交集并集等)merge等
      3. 合并重叠数据combine_first, where等
      4. 重塑和轴向旋转unstack, stack

     转换:

      1. 数据转换--移除重复数据等
      2. 利用函数或映射进行数据转换 (map)
      3. 替换值
      4. 重命名轴索引
      5. 离散化和面元划分(可以理解为划分段)

 

 

 预处理算法

  1. 预处理算法_1_表连接
  2. 预处理算法_2_类型转换
  3. 预处理算法_3_新增序列
  4. 预处理算法_4_表堆叠
  5. 预处理算法_5_数据集划分
  6. 预处理算法_6_缺失值处理
  7. 预处理算法_7_数据去重
  8. 预处理算法_8_异常值处理(未完成)
  9. 预处理算法_9_数据标准化
  10. 预处理算法_10_数学函数
  11. 数据预处理算法_11_排序
  12. 预处理算法_12_分组聚合

 统计分析

          1. python统计分析-纯随机性检验

          2. python统计分析-相关性分析 

          3. python统计分析-单样本T检验 

          4. python统计分析-正态性检验 

          5. python统计分析-双样本T检验 

          6. python统计分析-主成份分析

          7. python统计分析-频数统计

          8.  python统计分析-全表统计

          9. python统计分析-平稳性检验

          10.  python统计分析-因子分析

          11.  python统计分析-卡方检验

 

posted @ 2017-02-14 18:06  我当道士那儿些年  阅读(648)  评论(0编辑  收藏  举报