2016 年 3月随笔档案 - qqhfeng16

#测试两种不同的SVM，rbf的核真是太棒了（一种会拐弯的边界）

摘要：from sklearn import datasets import numpy as np X, y = datasets.make_blobs(n_features=2, centers=2) from sklearn.svm import LinearSVC from sklearn.svm 阅读全文

posted @ 2016-03-31 22:47 qqhfeng16 阅读(6654) 评论(0) 推荐(0) 编辑

numpy.percentile

摘要：http://docs.scipy.org/doc/numpy/reference/generated/numpy.percentile.html numpy.percentile(a, q, axis=None, out=None, overwrite_input=False, interpola 阅读全文

posted @ 2016-03-31 21:56 qqhfeng16 阅读(2447) 评论(0) 推荐(0) 编辑

#调整随机森林的参数(调整n_estimators随机森林中树的数量默认10个树，精度递增显著，但并不是越多越好)，加上verbose=True，显示进程使用信息

摘要：#调整随机森林的参数(调整n_estimators随机森林中树的数量默认10个树，精度递增显著) from sklearn import datasets X, y = datasets.make_classification(n_samples=10000,n_features=20,n_informative=15,flip_y=.5, weights=[.2, .8]) import ... 阅读全文

posted @ 2016-03-31 18:36 qqhfeng16 阅读(15714) 评论(0) 推荐(0) 编辑

关于混淆矩阵的元素排序问题

摘要：阅读全文

posted @ 2016-03-31 18:11 qqhfeng16 阅读(436) 评论(0) 推荐(0) 编辑

#调整随机森林的参数(调整max_features，结果未见明显差异)

摘要：#调整随机森林的参数(调整max_features，结果未见明显差异) from sklearn import datasets X, y = datasets.make_classification(n_samples=10000,n_features=20,n_informative=15,flip_y=.5, weights=[.2, .8]) import numpy as np t... 阅读全文

posted @ 2016-03-31 18:10 qqhfeng16 阅读(7213) 评论(0) 推荐(0) 编辑

RandomForestClassifier(随机森林检测每个特征的重要性及每个样例属于哪个类的概率)

摘要：#In the next recipe, we'll look at how to tune the random forest classifier. #Let's start by importing datasets: from sklearn import datasets X, y = d 阅读全文

posted @ 2016-03-31 17:06 qqhfeng16 阅读(28320) 评论(0) 推荐(0) 编辑

pip安装使用详解

摘要：pip类似RedHat里面的yum，安装Python包非常方便。本节详细介绍pip的安装、以及使用方法。 1、pip下载安装 1.1 pip下载 1 # wget "https://pypi.python.org/packages/source/p/pip/pip-1.5.4.tar.gz#md5= 阅读全文

posted @ 2016-03-31 11:33 qqhfeng16 阅读(446) 评论(0) 推荐(0) 编辑

决策树（决策树的分支深度及重要特征检测）

摘要：import matplotlib.pyplot as plt from sklearn import datasets import numpy as np from sklearn.tree import DecisionTreeClassifier n_features = 200 X, y 阅读全文

posted @ 2016-03-31 11:09 qqhfeng16 阅读(1848) 评论(0) 推荐(0) 编辑

K-NN回归算法

摘要：['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']The MSE is: 0.15The MSE is: 0.069[ 0.2][ 0.2 0.2 0.2 0.2 0.2 0.4 0.3 阅读全文

posted @ 2016-03-30 17:54 qqhfeng16 阅读(1030) 评论(0) 推荐(0) 编辑

kNN(K-Nearest Neighbor)最邻近规则分类

摘要：KNN最邻近规则，主要应用领域是对未知事物的识别，即判断未知事物属于哪一类，判断思想是，基于欧几里得定理，判断未知事物的特征和哪一类已知事物的的特征最接近； K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如阅读全文

posted @ 2016-03-30 16:45 qqhfeng16 阅读(355) 评论(0) 推荐(0) 编辑

关于KMeans 最外围点移除实验（其中心保持不变）

摘要：import matplotlib.pyplot as plt from sklearn.datasets import make_blobs import numpy as np X,labels = make_blobs(100,centers=1) from sklearn.cluster i 阅读全文

posted @ 2016-03-30 16:23 qqhfeng16 阅读(626) 评论(0) 推荐(0) 编辑

#np.random.normal,产生制定分布的数集(默认是标准正态分布)

摘要：http://docs.scipy.org/doc/numpy/reference/generated/numpy.random.normal.html #np.random.normal,产生制定分布的数集#http://docs.scipy.org/doc/numpy/reference/gen 阅读全文

posted @ 2016-03-30 11:05 qqhfeng16 阅读(4921) 评论(0) 推荐(0) 编辑

关于hist

摘要：""" Demo of the histogram (hist) function with a few features. In addition to the basic histogram, this demo shows a few optional features: * Setting the number of data bins * The ``normed`... 阅读全文

posted @ 2016-03-30 10:34 qqhfeng16 阅读(1065) 评论(0) 推荐(0) 编辑

numpy.matlib.randn(标准正态分布)

摘要：#网址 http://docs.scipy.org/doc/numpy/reference/generated/numpy.matlib.randn.html#numpy.matlib.randn numpy.matlib.randn numpy.matlib.randn(*args)[source 阅读全文

posted @ 2016-03-30 09:37 qqhfeng16 阅读(2042) 评论(0) 推荐(0) 编辑

知道聚类图的绘制及中心的绘制，真的很重要

摘要：from sklearn.datasets import make_blobs import matplotlib.pyplot as plt import numpy as np from sklearn.cluster import KMeans from sklearn import metr 阅读全文

posted @ 2016-03-29 15:07 qqhfeng16 阅读(2035) 评论(0) 推荐(0) 编辑

yaha分词

摘要：# -*- coding=utf-8 -*-import sys, re, codecsimport cProfilefrom yaha import Cuttor, RegexCutting, SurnameCutting, SurnameCutting2, SuffixCuttingfrom y 阅读全文

posted @ 2016-03-26 09:48 qqhfeng16 阅读(533) 评论(0) 推荐(0) 编辑

可定制的分词库——Yaha（哑哈）分词

摘要：可定制的分词库——Yaha（哑哈）分词在线测试地址：http://yaha.v-find.com/ 部署于GAE yahademo.appspot.comYaha分词主要特点是把分词过程分成了4个阶段，每个阶段都可以让用户加入自己的一些定制，以面向不同的用户需求。这是一个最简单真白的示例：# -* 阅读全文

posted @ 2016-03-26 09:47 qqhfeng16 阅读(1011) 评论(0) 推荐(0) 编辑

共有11款Python 中文分词库开源软件

摘要：件过滤： Python 中文分词库 Yaha "哑哈"中文分词，更快或更准确，由你来定义。通过简单定制，让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha 基本功能阅读全文

posted @ 2016-03-26 09:06 qqhfeng16 阅读(8484) 评论(0) 推荐(1) 编辑

【机器学习实验】使用朴素贝叶斯进行文本的分类

摘要：【机器学习实验】使用朴素贝叶斯进行文本的分类【机器学习实验】使用朴素贝叶斯进行文本的分类时间：2015-05-03 23:41:39 阅读：2251 评论：0 收藏：0 [点我收藏+] 标签：机器学习实验引言朴素贝叶斯由贝叶斯定理延伸而来的简单而强大的概率模型，它根据每个特征的概率确定一个对阅读全文

posted @ 2016-03-26 09:00 qqhfeng16 阅读(2968) 评论(0) 推荐(0) 编辑

numpy.ones_like(a, dtype=None, order='K', subok=True)返回和原矩阵一样形状的1矩阵

摘要：Return an array of ones with the same shape and type as a given array. Parameters: a : array_like The shape and data-type of a define these same attri 阅读全文

posted @ 2016-03-25 12:00 qqhfeng16 阅读(868) 评论(0) 推荐(0) 编辑

numpy.zeros(shape, dtype=float, order='C')

摘要：numpy.zeros Return a new array of given shape and type, filled with zeros. shape : int or sequence of ints Shape of the new array, e.g., (2, 3) or 2. 阅读全文

posted @ 2016-03-25 11:58 qqhfeng16 阅读(3739) 评论(0) 推荐(0) 编辑

numpy.ones(shape, dtype=None, order='C')

摘要：Return a new array of given shape and type, filled with ones. shape : int or sequence of ints Shape of the new array, e.g., (2, 3) or 2. dtype : data- 阅读全文

posted @ 2016-03-25 11:55 qqhfeng16 阅读(1595) 评论(0) 推荐(0) 编辑

备忘录 - numpy基本方法总结

摘要：一、数组方法创建数组：arange()创建一维数组；array()创建一维或多维数组，其参数是类似于数组的对象，如列表等创建数组：np.zeros((2,3))，或者np.ones((2,3))，参数是一个元组分别表示行数和列数对应元素相乘，a * b，得到一个新的矩阵数学上定义的矩阵乘法 np.d 阅读全文

posted @ 2016-03-25 10:48 qqhfeng16 阅读(729) 评论(0) 推荐(0) 编辑

关于决策平面

摘要：>> [x,y]=meshgrid(-1:0.1:2,-1:0.1:2);>> z = -x-1.5*y+2;>> surf(x,y,z) 现在有：x=0.7；y=0.9 求出：z=-0.05 在书中，如果Z<=0，则结果预测为成年猫。因此决策平面应该整体向上移动0.05，所有在决策平面及决策平面阅读全文

posted @ 2016-03-19 21:06 qqhfeng16 阅读(1460) 评论(0) 推荐(0) 编辑

关于surf显示立体图，可视化分析数据

摘要：如果想判断一个点（x，y）对应的ZV值是否在平面上方、平面上、平面下方，只要将（x，y）带入方程，得到z。如果ZV大于>Z，则在平面上方；如果ZV<Z，则在方面下方；若ZV=Z，则在平面上。 clear all[x,y]=meshgrid(linspace(-15,15));%设定xy范围z=si 阅读全文

posted @ 2016-03-19 20:43 qqhfeng16 阅读(383) 评论(0) 推荐(0) 编辑

关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化

摘要：公式为：(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性（按列进行）减去其均值，并处以其方差。得到的结果是，对于每个属性/每列来说所有数据都聚集在0附近，方差为1。实现时，有两种不同的方式：使用sklearn.preprocessing.scale()函数，可以直接将给阅读全文

posted @ 2016-03-19 12:04 qqhfeng16 阅读(1384) 评论(0) 推荐(0) 编辑

关于 sklearn.decomposition.KernelPCA的简单介绍

摘要：注意1：书上说consin PCA 比缺省的linear PCA要好，是不是consin PCA更紧致，数据不发散. 始终搞不懂什么时候用，什么时候不用 fit(X, y=None)Fit the model from data in X.ParametersX: array-like, shape 阅读全文

posted @ 2016-03-19 11:43 qqhfeng16 阅读(5256) 评论(0) 推荐(0) 编辑

numpy.mean和numpy.random.multivariate_normal（依据均值和协方差生成数据，提醒：计算协方差别忘了转置）

摘要：>> import numpy as np >>> A1_mean = [1, 1] >>> A1_cov = [[2, .99], [1, 1]]>>> A1 = np.random.multivariate_normal(A1_mean, A1_cov, 10) #依据指定的均值和协方差生成数据阅读全文

posted @ 2016-03-19 11:04 qqhfeng16 阅读(4467) 评论(0) 推荐(0) 编辑

没办法，SVD就讲的这么好

摘要：2）奇异值：下面谈谈奇异值分解。特征值分解是一个提取矩阵特征很不错的方法，但是它只是对方阵而言的，在现实的世界中，我们看到的大部分矩阵都不是方阵，比如说有N个学生，每个学生有M科成绩，这样形成的一个N * M的矩阵就不可能是方阵，我们怎样才能描述这样普通的矩阵呢的重要特征呢？奇异值分解可以用来干这阅读全文

posted @ 2016-03-19 00:44 qqhfeng16 阅读(350) 评论(0) 推荐(0) 编辑

SVD实例

摘要：>> X = rand(5,7) X = 0.9797 0.1365 0.6614 0.5828 0.2259 0.2091 0.5678 0.2714 0.0118 0.2844 0.4235 0.5798 0.3798 0.7942 0.2523 0.8939 0.4692 0.5155 0.7 阅读全文

posted @ 2016-03-19 00:28 qqhfeng16 阅读(666) 评论(0) 推荐(0) 编辑

奇异值分解（SVD）实例，将不重要的特征值改为0，原X基本保持不变

摘要：>> s = rand(5,7) s = 0.4186 0.8381 0.5028 0.1934 0.6979 0.4966 0.6602 0.8462 0.0196 0.7095 0.6822 0.3784 0.8998 0.3420 0.5252 0.6813 0.4289 0.3028 0.8 阅读全文

posted @ 2016-03-19 00:23 qqhfeng16 阅读(700) 评论(0) 推荐(0) 编辑

奇异值分解（SVD）详解

posted @ 2016-03-19 00:03 qqhfeng16 阅读(1536) 评论(0) 推荐(0) 编辑

numpy和matlab计算协方差矩阵的不同（matlab是标准的，numpy相当于转置后计算）

摘要：matlab是标准的，numpy相当于转置后计算 >> x = [2,0,-1.4;2.2,0.2,-1.5;2.4,0.1,-1;1.9,0,-1.2] x = 2.0000 0 -1.4000 2.2000 0.2000 -1.5000 2.4000 0.1000 -1.0000 1.9000 阅读全文

posted @ 2016-03-18 23:54 qqhfeng16 阅读(1370) 评论(0) 推荐(0) 编辑

特征值和特征向量的几何意义、计算及其性质（一个变换（或者说矩阵）的特征向量就是这样一种向量，它经过这种特定的变换后保持方向不变，只是进行长度上的伸缩而已）

摘要：对于任意一个矩阵，不同特征值对应的特征向量线性无关。对于实对称矩阵或埃尔米特矩阵来说，不同特征值对应的特征向量必定正交（相互垂直）。特征值和特征向量确实有很明确的几何意义，矩阵（既然讨论特征向量的问题，当然是方阵，这里不讨论广义特征向量的概念，就是一般的特征向量）乘以一个向量的结果仍是同维数的一阅读全文

posted @ 2016-03-18 23:00 qqhfeng16 阅读(4725) 评论(0) 推荐(0) 编辑

[转]浅谈协方差矩阵（牢记它的计算是不同维度之间的协方差，而不是不同样本之间。）

摘要：cov11 = sum((dim1-mean(dim1)).*(dim1-mean(dim1)))/(size(MySample,1)-1) cov11 = 296.7222 >> std(dim1) ans = 17.2256 >> std(dim1).^2 ans = 296.7222 统计学里阅读全文

posted @ 2016-03-18 22:46 qqhfeng16 阅读(7764) 评论(0) 推荐(0) 编辑

用numpy里的savetxt()

摘要：将变量存储到txt，以便观察。阅读全文

posted @ 2016-03-16 14:48 qqhfeng16 阅读(4921) 评论(0) 推荐(0) 编辑

python数据持久存储：pickle模块的基本使用

摘要：python的pickle模块实现了基本的数据序列和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去，永久存储；通过pickle模块的反序列化操作，我们能够从文件中创建上一次程序保存的对象。基本接口： pickle.dump(obj, file, [,prot 阅读全文

posted @ 2016-03-16 14:46 qqhfeng16 阅读(266) 评论(0) 推荐(0) 编辑

大数据处理之道（十分钟学会Python）

摘要：一：python 简介（1）Python的由来 Python（英语发音：/ˈpaɪθən/）, 是一种面向对象、解释型计算机程序设计语言，由Guido van Rossum于1989年底发明，第一个公开发行版发行于1991 年。Python语法简洁而清晰，具有丰富和强大的类库。它常被昵称为胶水语言阅读全文

posted @ 2016-03-16 14:07 qqhfeng16 阅读(2160) 评论(1) 推荐(0) 编辑

将Python脚本打包成可执行文件

摘要：Python是一个脚本语言，被解释器解释执行。它的发布方式： .py文件：对于开源项目或者源码没那么重要的，直接提供源码，需要使用者自行安装Python并且安装依赖的各种库。（Python官方的各种安装包就是这样做的） .pyc文件：有些公司或个人因为机密或者各种原因，不愿意源码被运行者看到，可以使阅读全文

posted @ 2016-03-16 14:05 qqhfeng16 阅读(3524) 评论(0) 推荐(0) 编辑

python超大数计算

摘要：In [26]: %time a = 6789**100000CPU times: user 0 ns, sys: 0 ns, total: 0 nsWall time: 6.2 µsIn [27]: a # 显示a，几秒钟后屏幕上出来一堆数字... 阅读全文

posted @ 2016-03-16 14:04 qqhfeng16 阅读(1685) 评论(0) 推荐(0) 编辑

Python返回数组（List）长度的方法

摘要：其实很简单，用len函数： >>> array = [0,1,2,3,4,5]>>> print len(array)6 同样，要获取一字符串的长度，也是用这个len函数，包括其他跟长度有关的，都是用这个函数。 Python这样处理，如同在print的结果中自动添加一个空格来解脱程序员一样，也是一个阅读全文

posted @ 2016-03-16 11:53 qqhfeng16 阅读(222081) 评论(0) 推荐(3) 编辑

python glob

摘要：阅读全文

posted @ 2016-03-14 23:33 qqhfeng16 阅读(405) 评论(0) 推荐(0) 编辑

KMeans的数据压缩

摘要：阅读全文

posted @ 2016-03-14 22:50 qqhfeng16 阅读(498) 评论(0) 推荐(0) 编辑

Python shuffle() 函数

摘要：来源：http://www.runoob.com/python/func-number-shuffle.html shuffle() 方法将序列的所有元素随机排序。以下是 shuffle() 方法的语法: 注意：shuffle()是不能直接访问的，需要导入 random 模块，然后通过 rando 阅读全文

posted @ 2016-03-14 16:09 qqhfeng16 阅读(1712) 评论(0) 推荐(0) 编辑

关于KMeans的评价及聚簇结果的得到

摘要：import numpy as npfrom sklearn.cluster import KMeansfrom sklearn import metricsimport matplotlib.pyplot as pltx1 = np.array([1, 2, 3, 1, 5, 6, 5, 5, 6 阅读全文

posted @ 2016-03-12 10:59 qqhfeng16 阅读(1986) 评论(0) 推荐(0) 编辑

关于python3.4版本中的zip函数

摘要：特别注意：在window,显示变量 print(x);而在linux中 print x 例如，有两个列表： >>>a = [1,2,3] >>>b = [4,5,6] 使用zip()函数来可以把列表合并，并创建一个元组对的列表。 >>>zip(a,b) [(1, 4), (2, 5), (3, 6 阅读全文

posted @ 2016-03-11 21:46 qqhfeng16 阅读(15698) 评论(0) 推荐(1) 编辑

关于KMeans和range的使用

摘要：#!/usr/bin/python#-*-coding:utf-8-*-import numpy as npfrom sklearn.cluster import KMeansfrom scipy.spatial.distance import cdistimport matplotlib.pypl 阅读全文

posted @ 2016-03-11 11:10 qqhfeng16 阅读(459) 评论(0) 推荐(0) 编辑

scipy.spatial.distance.cdist

摘要：scipy.spatial.distance.cdist(XA, XB, metric='euclidean', p=2, V=None, VI=None, w=None)[source] Computes distance between each pair of the two collecti 阅读全文

posted @ 2016-03-10 17:30 qqhfeng16 阅读(1856) 评论(0) 推荐(1) 编辑

关于hstack和Svstack

摘要：关于hstack和Svstack import numpy as np>>> a = np.array((1,2,3))>>> aarray([1, 2, 3])>>> b = np.array((2,3,4))>>> np.hstack((a,b))array([1, 2, 3, 2, 3, 4] 阅读全文

posted @ 2016-03-10 17:05 qqhfeng16 阅读(645) 评论(0) 推荐(0) 编辑

numpy.hstack(tup)

摘要：numpy.hstack(tup) Stack arrays in sequence horizontally (column wise). Take a sequence of arrays and stack them horizontally to make a single array. R 阅读全文

posted @ 2016-03-10 16:45 qqhfeng16 阅读(497) 评论(0) 推荐(0) 编辑

numpy.random.uniform(记住文档网址)

摘要：http://docs.scipy.org/doc/numpy/reference/generated/numpy.random.uniform.html#numpy.random.uniform http://docs.scipy.org/doc/ http://docs.scipy.org/do 阅读全文

posted @ 2016-03-10 16:37 qqhfeng16 阅读(1067) 评论(0) 推荐(0) 编辑

Python集合（set）类型的操作

摘要：python的set和其他语言类似, 是一个无序不重复元素集, 基本功能包括关系测试和消除重复元素. 集合对象还支持union(联合), intersection(交), difference(差)和sysmmetric difference(对称差集)等数学运算. sets 支持 x in set 阅读全文

posted @ 2016-03-07 22:48 qqhfeng16 阅读(320) 评论(0) 推荐(0) 编辑

python+Eclipse+pydev环境搭建

摘要：文重点介绍使用Eclipse+pydev插件来写Python代码，以及在Mac上配置Eclipse+Pydev 和Windows配置Eclipse+Pydev 编辑器：Python 自带的 IDLE 简单快捷，学习Python或者编写小型软件的时候。非常有用。编辑器: Eclipse + py 阅读全文

posted @ 2016-03-07 10:01 qqhfeng16 阅读(360) 评论(0) 推荐(0) 编辑

python数据挖掘领域工具包

摘要：原文：http://qxde01.blog.163.com/blog/static/67335744201368101922991/ Python在科学计算领域，有两个重要的扩展模块：Numpy和Scipy。其中Numpy是一个用python实现的科学计算包。包括：一个强大的N维数组对象Array 阅读全文

posted @ 2016-03-07 09:33 qqhfeng16 阅读(272) 评论(0) 推荐(0) 编辑

关于Confusion Matrix

摘要：from sklearn.metrics import confusion_matrixy_true = [2, 0, 2, 2, 0, 1]y_pred = [0, 0, 2, 2, 0, 2]print confusion_matrix(y_true, y_pred) 结果： [[2 0 0] 阅读全文

posted @ 2016-03-04 14:21 qqhfeng16 阅读(370) 评论(0) 推荐(0) 编辑

python中报中文编码异常，Non-ASCII ，but no encoding declared

摘要：异常信息： SyntaxError: Non-ASCII character '\xe5' in file a.py on line 9, but no encoding declared; see http://www.python.org/peps/pep-0263.html for detai 阅读全文

posted @ 2016-03-04 14:06 qqhfeng16 阅读(709) 评论(0) 推荐(0) 编辑

浅析python 中__name__ = '__main__' 的作用

摘要：很多新手刚开始学习python的时候经常会看到python 中__name__ = \'__main__\' 这样的代码，可能很多新手一开始学习的时候都比较疑惑，python 中__name__ = '__main__' 的作用，到底干嘛的？有句话经典的概括了这段代码的意义： “Make a sc 阅读全文

posted @ 2016-03-04 13:53 qqhfeng16 阅读(266) 评论(0) 推荐(0) 编辑

python获得当前工作目录和修改

摘要：import os curDir = os.getcwd() 最近使用Python 写了很多脚本，想导入脚本，发现不知道如何查看python 的默认工作目录，并修改默认工作目录。方法/步骤查看默认工作路径的命令: import os os.getcwd() 2 修改工作路径的命令是(注意路径要用阅读全文

posted @ 2016-03-04 09:09 qqhfeng16 阅读(2917) 评论(0) 推荐(0) 编辑

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

文章档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论