摘要:
来自为知笔记(Wiz) 阅读全文
摘要:
z检验用于检验正态样本均值是否等于某个假设值,不过需要事先知道总体方差,得到的统计量服从正态分布,有的教材上又叫u检验 t检验与z检验相似,t检验不需要知道总体方差,它用样本方差替代总体方差,得到的统计量服从t分布。实践应用中,t检验比z检验常用,因为不容易知道总体的方差。t检验来源于戈斯特的笔名student。 f检验主要用于方差分析,方差分析中,组间均方比上组内均方服从F... 阅读全文
摘要:
l如果一个项集是非频繁的,则它的所有超集也一定是非频繁的: –这种基于支持度度量修剪指数搜索空间的策略称为基于支持度的剪枝(support-based pruning) –这种剪枝策略依赖于支持度度量的一个关键性质,即一个项集的支持度决不会超过它的子集的支持度。这个性质也称为支持度度量的反单调性(anti-monotone)。l扫描一次数据集,确定每个项的支持度计数。丢弃非频繁项,而将频繁项按... 阅读全文
摘要:
梯度下降原理:将函数比作一座山,我们站在某个山坡上,往四周看,从哪个方向向下走一小步,能够下降的最快;当然解决问题的方法有很多,梯度下降只是其中一个,还有一种方法叫Normal Equation(标准方程); 方法:(1)先确定向下一步的步伐大小,我们称为Learning rate;(2)任意给定一个初始值:;(3)确定一个向下的方向,并向下走预先规定的步伐,并更新;(4)当下降的高度小于某... 阅读全文
摘要:
http://www.cs.berkeley.edu/~rxin/ tar zxvf 生态系统简析Spark Streaming:Spark Streaming实质上仍然是批处理,但是把之前大的批处理拆为小的batch。同时,当下Spark Streaming已支持限流,当流量很大时,Spark可以挡住。此外,它还可以支持实时机器学习。在Spark Streaming中,数据丢失一般因为两种情况—... 阅读全文
摘要:
sudo yum -y install gcc gcc-c++ numpy python-devel scipy Linux 下:安装scikit-learn: 50 sudo yum -y install gcc gcc-c++ numpy python-devel scipy 57 python -v 71 yum install python-setuptools ... 阅读全文
摘要:
用sudo时提示"xxxisnotinthesudoersfile.Thisincidentwillbereported.其中XXX是你的用户名,也就是你的用户名没有权限使用sudo,我们只要修改一下/etc/sudoers文件就行了。下面是修改方法:su-chmodu+w/etc/sudoersv... 阅读全文
摘要:
Linux下查看文件和文件夹大小 - 郭振斌 - 博客园Linux下查看文件和文件夹大小 当磁盘大小超过标准时会有报警提示,这时如果掌握df和du命令是非常明智的选择。 df可以查看一级文件夹大小、使用比例、档案系统及其挂入点,但对文件却无能为力。 du可以查看文件及文件夹的大小。 两者配合使用,非... 阅读全文
摘要:
说到了内建变量,我们可以来看看awk的一些内建变量:$0当前记录(这个变量中存放着整个行的内容)$1~$n当前记录的第n个字段,字段间由FS分隔FS输入字段分隔符 默认是空格或TabNF当前记录中的字段个数,就是有多少列NR已经读出的记录数,就是行号,从1开始,如果有多个文件话,这个值也是不断累加中。FNR当前记录数,与NR不同的是,这个值会是各个文件自己的行号RS输入的记录分隔符, 默认为换行符... 阅读全文
摘要:
np.matrix(np.identity(10))In [20]: cmp(10,2) # cmp(x,y):Out[20]: 1In [21]: cmp(10,22)Out[21]: -1In [22]: cmp(10,10)Out[22]: 0In [3]: import numpy as npIn [4]: a1=np.array([1,2,3],dtype=int)In [5]: a2=... 阅读全文