摘要:
题目描述 数组中有一个数字出现的次数超过数组长度的一半,请找出这个数字。例如输入一个长度为9的数组{1,2,3,2,2,2,5,4,2}。由于数字2在数组中出现了5次,超过数组长度的一半,因此输出2。如果不存在则输出0。 三种解法: 1. 用map将number和出现次数存起来。 时间复杂度O(n) 阅读全文
摘要:
从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)。 优点:简单 缺点:对大数据集比较慢 使用数据类型:数值型或者标称型 一、相关定义: 频繁项集:经常出现在一起的物品集合 关联规则:两 阅读全文
摘要:
终于进入无监督学习的部分了,首先介绍k-means聚类和二分k-means聚类 1. k-means聚类 k-means聚类将相似的对象归到同一个簇中,每个簇的中心采用簇中所含值的均值计算而成。 优点:容易实现 缺点:可能收敛到局部最小值,在大规模数据上收敛较慢 适用数据类型:数值型数据 伪代码: 阅读全文
摘要:
CART(classificatiion and regression trees)分类回归树 CART既能用于分类,也能用于回归 CART是二叉树 CART算法由决策树的生成和决策树的剪枝两步组成。 1 CART生成 1.1回归树 回归树采用平方误差最小化准则,分类树采用基尼指数最小化准则,进行特 阅读全文
摘要:
1. Shrinkage(缩减) Methods 当特征比样本点还多时(n>m),输入的数据矩阵X不是满秩矩阵,在求解(XTX)-1时会出现错误。接下来主要介绍岭回归(ridge regression)和前向逐步回归(Foward Stagewise Regression)两种方法。 1.1 岭回归 阅读全文
摘要:
1.简单的线性回归 假定输入数据存放在矩阵X中,而回归系数存放在向量W中,则对于给定的数据X1,预测结果将会是 这里的向量都默认为列向量 现在的问题是手里有一些x和对应的y数据,怎样才能找到W呢?一个常用的方法是找到使误差最小的W,这里的误差是指预测y值与真实y值之间的差值,使用该误差的简单累加将使 阅读全文
摘要:
将不同的分类器组合起来,这种组合结果被称为集成方法或元算法(meta-algorithm)。 使用集成方法时会有多种形式:(1)可以是不同算法的集成(2)可以是同一种算法在不同设置下的集成(3)数据集不同部分分配给不同分类器之后的集成,等等 接下来介绍基于同一种分类器多个不同实例的两种不同计算方法b 阅读全文
摘要:
一、Time模块 (1)time.time()输出当前时间戳 (2)获取当前时间,时间元组的形式localtime() (3)最简单的获取可读的时间形式asctime(): (4)格式化日期 输出结果 小结: time模块中时间表现的格式主要有3种: 1. timestamp 时间戳 2. tupl 阅读全文
摘要:
总结一下SVM的原理,主要参考了几位大牛的博客知乎,以及李航的《统计学习导论》 SVM是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器。主要分为线性可分SVM,线性SVM,非线性SVM。 SVM主要目的是找到具有最大间隔的分隔超平面 一、线性可分SVM 如上图a所示是分为红、蓝 阅读全文
摘要:
这几天一直在写爬虫的代码,需要将爬取的数据保存到csv文件中,总结一下读写csv文件的几种方法 1.利用Python I/O读取文件 这里有一点需要注意,利用pandas的方法读取,如果每行的列数不一样会出现下面两种情况: 第一行的列数小于后面行的列数,会报错 第一行的列数大于后面行的列数,最后返回 阅读全文