数据分析和数据挖掘的一些知识点
贝叶斯公式
条件概率的展开、转化
关联规则分析
支持度、置信度、提升度
KULC IR
聚类
聚类之间类的度量是分距离和相似系数来度量的
距离
距离用来度量样品之间的相似性(k-means聚类,系统聚类中的Q型聚类)
相似系数
相似系数用来度量变量之间的相似性(系统聚类的R型聚类)
最常用的是k-means聚类,适用于大样本,需要事先制定k个类别
步骤:
1、从n个数据中任意选择k个对象作为初始的聚类中心
2、计算剩余的各个对象到聚类中心的距离,将其划分给最近的簇
3、重新计算每一簇的平均值(中心对象)
4、循环2~3直至每个聚类不在变化
另:系统聚类适用于小样本
分类
有监督,标签,分类的训练样本必须有标签,有监督算法
规范化参数的同时最小化误差
朴素贝叶斯
基础思想
对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此分类项属于哪个类别
优点
可以与神经网络、决策树相媲美,可以运用于大型数据库
方法简单,分类准确率高,速度快,所需估计的参数少,对于缺失数据不敏感
缺点
假设一个属性对定类的影响独立于其他的属性值,这往往不成立
需要知道先验概率
先验概率:(prior probability)是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现的概率。
决策树
基础思想
通过训练数据构建决策树,对未知的数据进行分类。决策树的每个内部节点表示一个属性上的测试,每个分支表示该测试的一个输出,而每个叶节点存放一个类标号。
在决策树算法中,ID3基于信息增益作为属性选择的度量,C4.5基于信息增益比作为属性选择的度量,CART基于基尼指数作为属性选择的度量。
优点
不需要任何领域知识或者参数假设
适合高维数据
简单易于理解
短时间内处理大量数据,得到可行且效果较好的结果
缺点
对于各类别样本数据不一致数据,信息增益偏向于那些具有更多数值的特征
易于过拟合
忽略属性之间的相关性
支持向量机SVM
基础思想
将分类问题转化为寻找分类平面的问题,并通过最大化分类边界点距离分类平面的距离来实现分类
优点
可以解决小样本下机器学习的问题
提高泛化性能
可以解决文本分类、文字识别、图像分类
避免神经网络结构选择和局部极小的问题
缺点
缺失数据敏感
内存消耗大,难以解释
k近邻
基础思想
通过计算每个训练样例到待分类样品的距离,取和待分类样品距离最近的k个训练样例,k个样品中哪个类别的训练样例占多数,则待分类样品就属于哪个类别。
优点
适用于样本容量比较大的分类问题
缺点
计算量大,对于样本量较小的分类问题,会产生误分
逻辑回归
基础思想
回归模型中,y是一个定型变量,比如y=0或1,主要用于研究某些事件发生的概率。
优点
速度快,适合二分类问题。
简单易于理解,直接看到各个特征的权重
能容易地更新模型吸收新的数据。
缺点
对数据和场景的适应能力有局限,不如决策树算法适应性那么强。
分类的评判指标
准确率和召回率
1、准确率:提取出的正确信息条数/提取出的信息条数
2、召回率:提取出的正确信息条数/样本中的信息条数
ROC和AUC是评价分类器的指标
3、ROC:TPR 真正率,代表预测为正实际也为正占总正实例的比例;FPR 假正率,代表预测为正实际为负占总负率的比例。
ROC空间中,横坐标是FPR,纵坐标是TPR。
4、AUC 定义为ROC下的面积,不会大于1,取值为0.5~1.。
很多时候,ROC曲线不能清晰的说明哪个分类器的效果更好,而AUC作为数值可以直观的评价分类器的好坏,值越大越好。
5、如何避免过拟合
解决方法:增大数据集,正则化
正则化的引入,使得在训练的过程中,当某一维的特征所对应的权重过大时,而此使模型的预测和真实数据之间距离很小,通过正则化就可以使得整体的cost取较大的值,从而在训练中避免选择那些某一维(或几维)的特征。
L1正则:计算绝对值之和,用以产生稀疏性,是参数矩阵中大部分参数为0,时L0范式的一个最优凸近似,容易近似求解。
L2正则:计算平方和在开根号,防止过拟合,并且让优化求解变得稳定快速。
优先使用L2。
二叉树(前中后遍历)
前序遍历:首先访问根结点,然后遍历左子树,最后遍历右子树
中序遍历:左子树-根结点-右子树
后序遍历:左子树-右子树-根结点
排序算法
冒泡排序
将等待排序的元素看作是竖着排列的气泡,较小的元素较轻,从而往上浮。稳定的,时间复杂度O(n^2)
插入排序
经过i-1遍处理后,L[1....i-1]已排好序,第i遍处理仅将L[i]插入L[1...i-1]的适当位置。
时间复杂度同上,稳定
堆排序
树形选择排序,将A[n]看成是完全二叉树的顺序存储结构,利用完全二叉树中双亲结点和孩子结点之间的内在关系来选择最小的元素。
不稳定,时间复杂度O(nlog n)
快速排序
对冒泡排序的一种改进,通过一次扫描,就能确保某个数(以它为基准)的左边各数都比它小,右边各数都比它大
不稳定,最理想O(nlog 2n),最坏O(n^2)
SQL知识
左连接 右连接 inner连接 full连接
修改表
表权限的赋予
怎样清空表数据,但是不删除表结构
外键能不能为空:可以为空,为空表示其值还没有确定;如果不为空,那么必须为主键相同。
统计学基础知识
四分卫极差、左右偏分布、p值
方差分析:用于两个及两个以上样本均数差别的显著性检验,通过分析研究不同来源的变异对总变异的贡献大小,从而确定控制变量对研究结果影响力的大小。
主成分分析:通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。
幸存者偏差:当取得资讯的渠道,仅来自于幸存者时,此资讯可能会存在与实际情况不同的偏差。