2020年3月28日

seaborn.heatmap刻度及标签设置

摘要: 跑实验需要画heatmap,使用seaborn.heatmap挺方便的,但是在刻度和标签字体设置上网上讲的不是很清楚,本文主要记录 ( x轴 / y轴 / colorbar ) 上的刻度ticks及标签label的文本设置。 python_version=2.7 数据格式用的pandas.DataF 阅读全文

posted @ 2020-03-28 11:56 IvanSSSS 阅读(30630) 评论(1) 推荐(0) 编辑

2016年9月18日

SVD及其应用

摘要: 出处: 本文转自http://leftnoteasy.cnblogs.com 前言: 上一次写了关于PCA与LDA的 文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上篇文章中便是基于特征值分解的一种解释。特征值和奇异值在 大部分人的印象中,往往是停留在纯粹的 阅读全文

posted @ 2016-09-18 09:22 IvanSSSS 阅读(643) 评论(1) 推荐(0) 编辑

2016年8月31日

python环境下使用METIS

摘要: 环境 ubuntu 14.04 python 2.7 顺便说下我windows下装了anaconda都装不成功....只好转战ubuntu 配置 关于METIS有两个库 - PyMetis & metis 按照PYPI里的说法,pymetis中包含了METIS,而metis只是个wrapper 需要 阅读全文

posted @ 2016-08-31 10:36 IvanSSSS 阅读(6107) 评论(3) 推荐(0) 编辑

2016年5月9日

最大熵模型

摘要: 熵 X={x1,x2,...,xn},X的熵为 联合熵 H(X,Y)=-ΣΣp(x,y)logp(x,y) 条件熵 X确定的前提下,Y新带来的熵。 H(Y|X) = H(X,Y) – H(X) 推导: 交叉熵 p(x) q(x) 是X中取值的两个概率分布,则p对q的交叉熵为: 在一定程度上可以度量两 阅读全文

posted @ 2016-05-09 10:01 IvanSSSS 阅读(128) 评论(0) 推荐(0) 编辑

2016年4月28日

Adaboost

摘要: Adaboost 输入: D - 包含d个样本的训练元组集 k - 分类器数目 算法: D中每个元组权重初始化为1/d for i = 1 to k do 根据元组权重从D中有放回抽取样本,得到训练子集Di 使用Di训练弱分类器Mi 计算Mi错误率 如果分类正确,err(Xj)=0 否则为1 if 阅读全文

posted @ 2016-04-28 21:25 IvanSSSS 阅读(168) 评论(0) 推荐(0) 编辑

2016年4月24日

离群点分析

摘要: Statistical Model 假设其服从某分布,计算对应值在该分布下的概率,如果概率过低则为离群点。 缺点:数据只有服从了该分布才有效 Distance-based Model 主要思想:如果p点周围的数据点太少,则为离群点 ε-neighborhood = N(p) p is outlier 阅读全文

posted @ 2016-04-24 21:46 IvanSSSS 阅读(1056) 评论(0) 推荐(0) 编辑

2016年4月22日

weka中TF-IDF设置

摘要: 经典TF-IDF=tf*log(N/n) 在weka中StringToWordVector: IDFTransform=true, TFTransform=false, ouputWordCounts=True 才对 之前一直没设置ouputWordCounts... 坑比... 阅读全文

posted @ 2016-04-22 13:11 IvanSSSS 阅读(572) 评论(0) 推荐(0) 编辑

FP树

摘要: Apriori算法需要产生大量候选项集,重复计算support_count 把事务集中关联信息及count记录在树上,扫描树即可 FP树主要分成两步 = FP树构建 + FP树挖掘 构造初始FP树 => 挖掘FP树获得条件模式基 => 构造条件FP树 => 挖掘条件FP树 => ... 如此递归直至 阅读全文

posted @ 2016-04-22 13:11 IvanSSSS 阅读(1301) 评论(0) 推荐(0) 编辑

关联规则

摘要: 关联规则 项的集合T={I1,I2,...Im} 事务集D 每个事务t∈D, t由T中某些项组成。 关联规则:A=>B support(A=>B)=P(A∪B) confidence(A=>B)=P(B|A)=support(A∪B)/support(A)=count(A∪B)/count(A) f 阅读全文

posted @ 2016-04-22 13:10 IvanSSSS 阅读(366) 评论(0) 推荐(0) 编辑

自编码算法与稀疏性

摘要: 前一章神经网络是有监督学习的,自编码神经网络是无监督学习的,使用反向传播算法,让目标值=输入值。 1)隐藏层单元数少 迫使神经网络进行数据压缩,找到有趣的结构,与PCA相似 做法和普通神经网络一样,只是y=x 2)隐藏层单元数多 给隐藏层加入稀疏性限制 - 对sigmoid函数来说,输出接近1为激活 阅读全文

posted @ 2016-04-22 13:08 IvanSSSS 阅读(220) 评论(0) 推荐(0) 编辑

导航