【Python爬虫实战--3】html写正则表达式
摘要:以下是要爬虫的html内容:本宫不服这是镇上一条偏僻路上的一家小饭馆,老板是一对老夫妻,开店几十年了,每次中午路过都要在这吃,满满的实惠。虽然饭店看着挺破败,但菜什么都很干净,因为挺偏的路上,人流较少,菜备的不多,有的菜都现洗。最重要的是价格,特实惠,在镇上其它饭店吃饭,鸡,鱼,价格18元,素菜8元...
阅读全文
posted @
2015-10-23 20:53
chamie
阅读(6586)
推荐(0) 编辑
【Python爬虫实战--2】时间戳转换为指定格式日期
摘要:摘自:http://www.2cto.com/kf/201406/311477.html(1)方法:方法一: 利用localtime()转换为时间数组,然后格式化为需要的格式,如 timeStamp = 1381419600 timeArray = time...
阅读全文
posted @
2015-10-23 14:54
chamie
阅读(734)
推荐(0) 编辑
【Machine Learning in Action --5】逻辑回归(LogisticRegression)从疝气病预测病马的死亡率
摘要:背景:使用Logistic回归来预测患有疝气病的马的存活问题,这里的数据包括368个样本和28个特征,疝气病是描述马胃肠痛的术语,然而,这种病并不一定源自马的胃肠问题,其他问题也可能引发疝气病,该数据集中包含了医院检测马疝气病的一些指标,有的指标比较主观,有的指标难以测量,例如马的疼痛级别。另外,除...
阅读全文
posted @
2015-10-13 22:43
chamie
阅读(3727)
推荐(0) 编辑
【Machine Learning in Action --5】逻辑回归(LogisticRegression)
摘要:1、概述 Logistic regression(逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。 在经典之作《数学之美》中也看到了它用于广告预测,也就是根据某广告被用 户点击的可能性,把最可能被用户点击的广告摆在用户能看到的地方,然后叫他“你点我啊!”用户点了,你就有钱收...
阅读全文
posted @
2015-10-13 15:16
chamie
阅读(3546)
推荐(1) 编辑
矩阵的维数
摘要:向量的维数是指向量分量的个数,比如 (1,2,3,4)' 是一个4维向量矩阵的维数是指它的行数与列数,比如1 2 34 5 6它的维数是 2*3,在数学中,矩阵的维数就是矩阵的秩空间的维数是指它的基所含向量的个数,比如 V = {(x1,x2,0,0)' | x1,x2 为实数},(1,0,0,0)...
阅读全文
posted @
2015-10-11 21:36
chamie
阅读(6125)
推荐(0) 编辑
python中的矩阵运算
摘要:摘自:http://m.blog.csdn.net/blog/taxueguilai1992/46581861python的numpy库提供矩阵运算的功能,因此我们在需要矩阵运算的时候,需要导入numpy的包。1.numpy的导入和使用from numpy import *;#导入numpy的库函数...
阅读全文
posted @
2015-10-11 21:20
chamie
阅读(183459)
推荐(9) 编辑
【python问题系列--4】ValueError: operands could not be broadcast together with shapes (100,3) (3,1)
摘要:背景:dataMatrix是(100,3)的列表,labelMat是(1,100)的列表,weights是(3,1)的数组,属性如下代码所示:>>> import types>>> type(dataMatrix)>>> type(labelMat)>>> type(weights)我的代码:>>>...
阅读全文
posted @
2015-10-09 22:51
chamie
阅读(33897)
推荐(0) 编辑
【Machine Learning in Action --4】朴素贝叶斯从个人广告中获取区域倾向
摘要:背景:广告商往往想知道关于一个人的一些特定人口统计信息,以便能更好地定向推销广告。我们将分别从美国的两个城市中选取一些人,通过分析这些人发布的信息,来比较这两个城市的人们在广告用词上是否不同。如果结论确实不同,那么他们各自常用的词是那些,从人们的用词当中,我们能否对不同城市的人所关心的内容有所了解。...
阅读全文
posted @
2015-10-07 22:38
chamie
阅读(1058)
推荐(0) 编辑
【Machine Learning in Action --4】朴素贝叶斯电子邮件垃圾过滤
摘要:摘要:这里用的是词袋模型,即一个词在文档中出现不止一次,每个单词可以出现多次。1、准备数据:切分文本前一节过滤网站恶意留言中词向量是给定的,下面介绍如何从文本文档中构建自己的词列表先举例说明,在python提示符下输入:>>> mySent='This book is the best book o...
阅读全文
posted @
2015-10-07 20:07
chamie
阅读(1394)
推荐(0) 编辑
【Machine Learning in Action --4】朴素贝叶斯过滤网站的恶意留言
摘要:背景:以在线社区的留言板为例,为了不影响社区的发展,我们需要屏蔽侮辱性的言论,所以要构建一个快速过滤器,如果某条留言使用了负面或者侮辱性的语言,那么就将该留言标识为内容不当。过滤这类内容是一个很常见的需求,对此问题建立两个类别:侮辱类和非侮辱类,使用0和1分别表示。接下来首先给出将文本转换为数字向量...
阅读全文
posted @
2015-10-07 11:15
chamie
阅读(724)
推荐(0) 编辑
【Machine Learning in Action --4】朴素贝叶斯分类
摘要:1、概述朴素贝叶斯分类是贝叶斯分类器的一种,贝叶斯分类算法是统计学的一种分类方法,利用概率统计知识进行分类,其分类原理就是利用贝叶斯公式根据某对象的先验 概率计算出其后验概率(即该对象属于某一类的概率),然后选择具有最大后验概率的类作为该对象所属的类。总的来说:当样本特征个数较多或者特征之间相关性较...
阅读全文
posted @
2015-10-06 22:41
chamie
阅读(351)
推荐(0) 编辑
【python问题系列--3】TypeError: 'builtin_function_or_method' object has no attribute '__getitem__'
摘要:p0V,p1V,pSpam=trainNBO(array[trainMat],array(trainClasses))改为:p0V,p1V,pSpam=trainNBO(array(trainMat]),array(trainClasses))
阅读全文
posted @
2015-10-06 21:13
chamie
阅读(4383)
推荐(0) 编辑
python多行注释
摘要:单行的注释:#多行注释:三个单引号和三个双引号都可以1 '''2 代码3 '''4 5 """6 代码7 """
阅读全文
posted @
2015-10-06 14:49
chamie
阅读(516)
推荐(0) 编辑
python--zeros函数和ones函数
摘要:使用numpy.zeros,numpy.ones,numpy.eye等方法可以构造特定的矩阵例如:代码如下:>>>from numpy import *>>> a=zeros((3,4))>>> aarray([[ 0., 0., 0., 0.], [ 0., 0., 0., ...
阅读全文
posted @
2015-10-05 17:49
chamie
阅读(19717)
推荐(1) 编辑
【python问题系列--2】脚本运行出现语法错误:IndentationError: unindent does not match any outer indentation level
摘要:缩进错误,此错误,最常见的原因是行之间没有对齐。参考:http://www.crifan.com/python_syntax_error_indentationerror/comment-page-1/
阅读全文
posted @
2015-10-03 21:21
chamie
阅读(287)
推荐(0) 编辑
【Machine Learning in Action --3】决策树ID3算法预测隐形眼睛类型
摘要:本节讲解如何预测患者需要佩戴的隐形眼镜类型。1、使用决策树预测隐形眼镜类型的一般流程(1)收集数据:提供的文本文件(数据来源于UCI数据库)(2)准备数据:解析tab键分隔的数据行(3)分析数据:快速检查数据,确保正确地解析数据内容,使用createPlot()函数绘制最终的树形图(4)训练算法:c...
阅读全文
posted @
2015-09-29 23:08
chamie
阅读(811)
推荐(0) 编辑
python--sum函数--sum(axis=1)
摘要:平时用的sum应该是默认的axis=0 就是普通的相加,当加入axis=1以后就是将一个矩阵的每一行向量相加。例如:1 >>>import numpy as np3 >>>np.sum([[0,1,2],[2,1,3],axis=1)5 array([3,6])1 c = np.array([[0,...
阅读全文
posted @
2015-09-29 21:18
chamie
阅读(6510)
推荐(0) 编辑
Python使用shape计算矩阵的行和列
摘要:shape函数是numpy.core.fromnumeric中的函数,它的功能是读取矩阵的长度。1 >>> a=mat([[1,2,3],[5,6,9]]);2 >>> a3 matrix([[1, 2, 3],4 [5, 6, 9]])5 >>> shape(a)[0]6 27 >...
阅读全文
posted @
2015-09-29 20:48
chamie
阅读(2383)
推荐(0) 编辑
python--tile函数
摘要:1.函数的定义与说明tile函数位于python模块numpy.lib.shape_base中,功能是重复某个数组。比如tile(A,n),功能是将数组A重复n次,构成一个新的数组。2.函数操作示例(1)先来引入numpy下的所有方法(2)我们创建一个a,如图下图,使用tile来创建b,注意看b的数...
阅读全文
posted @
2015-09-29 20:16
chamie
阅读(661)
推荐(0) 编辑
【Machine Learning in Action --3】决策树ID3算法
摘要:1、简单概念描述 决策树的类型有很多,有CART、ID3和C4.5等,其中CART是基于基尼不纯度(Gini)的,这里不做详解,而ID3和C4.5都是基于信息熵的,它们两个得到的结果都是一样的,本次定义主要针对ID3算法。下面我们介绍信息熵的定义。 p(ai):事件ai发生的概率 I(ai)=...
阅读全文
posted @
2015-09-28 18:01
chamie
阅读(621)
推荐(0) 编辑