IvanSSSS

seaborn.heatmap刻度及标签设置

摘要：跑实验需要画heatmap，使用seaborn.heatmap挺方便的，但是在刻度和标签字体设置上网上讲的不是很清楚，本文主要记录 ( x轴 / y轴 / colorbar ) 上的刻度ticks及标签label的文本设置。 python_version=2.7 数据格式用的pandas.DataF 阅读全文

posted @ 2020-03-28 11:56 IvanSSSS 阅读(30630) 评论(1) 推荐(0) 编辑

SVD及其应用

摘要：出处：本文转自http://leftnoteasy.cnblogs.com 前言：上一次写了关于PCA与LDA的文章，PCA的实现一般有两种，一种是用特征值分解去实现的，一种是用奇异值分解去实现的。在上篇文章中便是基于特征值分解的一种解释。特征值和奇异值在大部分人的印象中，往往是停留在纯粹的阅读全文

posted @ 2016-09-18 09:22 IvanSSSS 阅读(643) 评论(1) 推荐(0) 编辑

python环境下使用METIS

摘要：环境 ubuntu 14.04 python 2.7 顺便说下我windows下装了anaconda都装不成功....只好转战ubuntu 配置关于METIS有两个库 - PyMetis & metis 按照PYPI里的说法，pymetis中包含了METIS，而metis只是个wrapper 需要阅读全文

posted @ 2016-08-31 10:36 IvanSSSS 阅读(6107) 评论(3) 推荐(0) 编辑

最大熵模型

摘要：熵 X={x1,x2,...,xn}，X的熵为联合熵 H(X,Y)=-ΣΣp(x,y)logp(x,y) 条件熵 X确定的前提下，Y新带来的熵。 H(Y|X) = H(X,Y) – H(X) 推导：交叉熵 p(x) q(x) 是X中取值的两个概率分布，则p对q的交叉熵为：在一定程度上可以度量两阅读全文

posted @ 2016-05-09 10:01 IvanSSSS 阅读(128) 评论(0) 推荐(0) 编辑

Adaboost

摘要： Adaboost 输入： D - 包含d个样本的训练元组集 k - 分类器数目算法： D中每个元组权重初始化为1/d for i = 1 to k do 根据元组权重从D中有放回抽取样本，得到训练子集Di 使用Di训练弱分类器Mi 计算Mi错误率如果分类正确，err(Xj)=0 否则为1 if 阅读全文

posted @ 2016-04-28 21:25 IvanSSSS 阅读(168) 评论(0) 推荐(0) 编辑

离群点分析

摘要： Statistical Model 假设其服从某分布，计算对应值在该分布下的概率，如果概率过低则为离群点。缺点：数据只有服从了该分布才有效 Distance-based Model 主要思想：如果p点周围的数据点太少，则为离群点 ε-neighborhood = N(p) p is outlier 阅读全文

posted @ 2016-04-24 21:46 IvanSSSS 阅读(1056) 评论(0) 推荐(0) 编辑

weka中TF-IDF设置

摘要：经典TF-IDF=tf*log(N/n) 在weka中StringToWordVector： IDFTransform=true, TFTransform=false, ouputWordCounts=True 才对之前一直没设置ouputWordCounts... 坑比... 阅读全文

posted @ 2016-04-22 13:11 IvanSSSS 阅读(572) 评论(0) 推荐(0) 编辑

FP树

摘要： Apriori算法需要产生大量候选项集，重复计算support_count 把事务集中关联信息及count记录在树上，扫描树即可 FP树主要分成两步 = FP树构建 + FP树挖掘构造初始FP树 => 挖掘FP树获得条件模式基 => 构造条件FP树 => 挖掘条件FP树 => ... 如此递归直至阅读全文

posted @ 2016-04-22 13:11 IvanSSSS 阅读(1301) 评论(0) 推荐(0) 编辑

关联规则

摘要：关联规则项的集合T={I1,I2,...Im} 事务集D 每个事务t∈D， t由T中某些项组成。关联规则：A=>B support(A=>B)=P(A∪B) confidence(A=>B)=P(B|A)=support(A∪B)/support(A)=count(A∪B)/count(A) f 阅读全文

posted @ 2016-04-22 13:10 IvanSSSS 阅读(366) 评论(0) 推荐(0) 编辑

自编码算法与稀疏性

摘要：前一章神经网络是有监督学习的，自编码神经网络是无监督学习的，使用反向传播算法，让目标值=输入值。 1）隐藏层单元数少迫使神经网络进行数据压缩，找到有趣的结构，与PCA相似做法和普通神经网络一样，只是y=x 2）隐藏层单元数多给隐藏层加入稀疏性限制 - 对sigmoid函数来说，输出接近1为激活阅读全文

posted @ 2016-04-22 13:08 IvanSSSS 阅读(220) 评论(0) 推荐(0) 编辑