小白闯

导航

2019年7月3日 #

python中的算数运算符

摘要: ** :乘方运算符 %:返回除法的余数 /:除,返回浮点型 //:除法取整 阅读全文

posted @ 2019-07-03 20:01 李小白cc 阅读(186) 评论(0) 推荐(0) 编辑

numpy包中的一些函数

摘要: np.dot()为矩阵中的乘法 np.dot(x,y) 或者 x.dot(y) np.zeros((2,3),dtype=float) 建立一个2行3列的全是0的矩阵,dtype为类型 a.reshape((2,3)) ,改为一个2*3的二维数组 np.log(x),取对数,默认以e为底 np.su 阅读全文

posted @ 2019-07-03 19:28 李小白cc 阅读(228) 评论(0) 推荐(0) 编辑

python中pandas分块读取数据

摘要: 从研究僧小白成为了职场小白,继续做着数据分析的事情,以后一定经常更新笔记,加油!! 工作以后遇到的数据量有点大,今天拿到行数超过1kw+的数据,python虽然能很好的读进去,但是很浪费时间,而且在后续清洗中内存会不够。还好pandas包里有分块读取数据的方法,代码如下: 其中还包含了数据分列的函数 阅读全文

posted @ 2019-07-03 18:13 李小白cc 阅读(4001) 评论(0) 推荐(0) 编辑

2019年6月18日 #

Python中sklearn中的谱聚类代码

摘要: #进行SpectralClustering#查看默认的谱聚类效果y_pred = SpectralClustering().fit_predict(cluster_data)print("Calinski-Harabasz Score", metrics.calinski_harabaz_score 阅读全文

posted @ 2019-06-18 09:29 李小白cc 阅读(2758) 评论(0) 推荐(0) 编辑

2018年5月12日 #

1.5 select编写

摘要: 1、with:用于指定临时命名的结果 2、select A from B 在B中查看A 3、into 插入语句 例如:select A、B into 表1 from 表2 4、where 指定搜索条件 (1)逻辑运算符(and、not、or) (2)比较运算符(常规) (3)like:匹配关键词 % 阅读全文

posted @ 2018-05-12 14:13 李小白cc 阅读(165) 评论(0) 推荐(0) 编辑

提升算法——Adaboost

摘要: 思路:通过改变训练样本权重,学习多个分类器,并将这些分类器进行线性组合,提高分类器性能。大多数提升方法都是改变训练数据的概率分布(数据的权值) 强可学习:存在一个多项式的学习算法能够学习他,并且正确率很高 弱可学习:存在一个多项式学习算法学习,正确率比随机猜测要好一些 具体问题: (1)在每一轮如何 阅读全文

posted @ 2018-05-12 13:36 李小白cc 阅读(152) 评论(0) 推荐(0) 编辑

2018年5月10日 #

K近邻法

摘要: K近邻法(k-NN)是一种分类与回归的算法。 优点:简单,直观 思路:给定一个训练集,对新输入的实例,在训练数据集中找到与该实例最邻近的K个实例。采用“少数服从多数”的方法,寻找实例所在的类。 K近邻算法:(没有显式的学习过程) input:训练集 T={(xi,yi) |i=1..n}, 实例x。 阅读全文

posted @ 2018-05-10 09:25 李小白cc 阅读(177) 评论(0) 推荐(0) 编辑

2018年5月7日 #

EM算法(期望最大化算法)

摘要: 适用场景:存在为未测变量的情况下,对模型参数进行估计。 EM算法: input:观测数据Y,为观测数据Z,联合分布P(Y,Z|θ),条件分布P(Z|Y,θ) output:模型参数θ 步骤: (1)选择参数的初值进行迭代 (2)E步:求期望 (3)M步:最大化当前θ (4)重复(2)(3)知道算法收 阅读全文

posted @ 2018-05-07 09:21 李小白cc 阅读(260) 评论(0) 推荐(0) 编辑

2018年5月6日 #

1.4 SQL函数

摘要: 1、调用聚合函数 sum:返回所有值的和/非重复数据的和 avg:平均数且忽略空值 min:最小值 max:最大值 count:计数函数 distinct:去不重复记录 2、数学函数 abs:绝对值 power:乘方 。例如:power(2,2):2的2次方 rand:随机浮点数,随机取0-1之间的 阅读全文

posted @ 2018-05-06 19:01 李小白cc 阅读(141) 评论(0) 推荐(0) 编辑

机器学习之聚类

摘要: 公式实在不好敲呀,我拍了我笔记上的公式部分。原谅自己小学生的字体(太丑了)。 聚类属于无监督学习方法,典型的无监督学习方法还有密度估计和异常检测。 聚类任务:将数据集中的样本划分为若干个不相交的子集,每个子集为一个类。 性能指标(有效性指标):类内相似度高,类间相似度低。 性能度量: (1)外部指标 阅读全文

posted @ 2018-05-06 12:16 李小白cc 阅读(1433) 评论(0) 推荐(0) 编辑