二、数据挖掘

了解统计学
实用统计 教材 高老师 人大吴喜之老师的 《从数据到结论》 教材和资料 需要懂点统计
population 数据全集
sample 一部分数据 实际处理数据 基本为样本
statistics 统计量
《女士品茶》 统计发展史
 
mean 平均值
median 中位数
mode 众数 出现最多的数字
range 极差
 
奥卡姆剃刀定律 keep it simple stupid
原假设 怀疑主义
P值 统计显著性 0-1 <0.05 P值 越小 假设结论正确强度越好
Q值
histogram 数据可视化
variance 方差
standard deviation 标准差
 
 
变量的分类
三种测量尺度 measurement scales
变量类型 因变量 自变量 定量 定性
 
三 、数据挖掘算法
分类 c4.5
统计学习 SVM EM
关联分析 apnon
链接挖掘 pagerank hits
聚类 K-Means birch
袋装与推进 adaboost
 
决策树
神经网络
 
多层向前神经网络(Multilayer  Feed-Forward Neural Network)
                                                          
 
多层向前神经网络组成部分
输入层(input layer),隐藏层(hiddenlayer),输出层(output layer)
   每层由单元(units)组成
   输入层(input layer)是由训练集的实例特征向量传入
   经过连接结点的权重(weight)传入下一层,一层的输出是下一层的输入
   隐藏层的个数是任意的,输出层和输入层只有一个
   每个单元(unit)也可以被称作神经结点,根据生物学来源定义
   上图称为2层的神经网络(输入层不算)
   一层中加权的求和,然后根据非线性的方程转化输出
   作为多层向前神经网络,理论上,如果有足够多的隐藏层(hidden layers)和足够大的训练集,可以模拟出任何方程
 
隐藏单元数量 与问题复杂程度 关联
隐藏层数 先当前案例中一般为1层,特殊场景多层
 
posted @ 2016-10-15 21:05  JonyQ  阅读(161)  评论(0编辑  收藏  举报