摘要:
本篇博客中,我们将对一个UCI数据库中的数据集:Breast Cancer数据集,应用已有的机器学习方法来实现一个分类器。 "本文代码链接" 数据集概况 数据集的地址为: "link" ) 在该页面中,可以进入 "Data Set Description" 来查看数据的说明文档,另外一个连接是 "D 阅读全文
摘要:
安装 使用 。 使用 Firefox 这里的版本信息: 例程中的代码: 执行之后首先发现是 : 这里需要下载 ,地址是这里: "link" 下载之后,放在PATH中: 再执行脚本就可以了。 另外,如果出现错误: 将Firefox更换到新的版本就可以解决了。 使用Safari 把代码中的 换成 之后, 阅读全文
摘要:
这篇博客中做一个使用最小二乘法实现线性回归的简单例子。 代码来自《图解机器学习》 图3 2,使用MATLAB实现。 "代码link" 用到的matlab函数 由于以前对MATLAB也不是非常熟悉,这里用到了一些MATLAB的 内建函数 ,顺便学习一下。 linespace 用于产生指定范围内的指定数 阅读全文
摘要:
在苹果 OS X 10.11 El Capitan 中使用《UNIX环境高级编程 第三版》中提供的头文件 apue.h 。<! more make apue.3e 这里我买的是第三版的书,和第二版不同,不用改工作路径等信息。正如在readme中说到的,在OS X上进入目录直接make即可。 修改ap 阅读全文
摘要:
combineByKey: Generic function to combine the elements for each key using a custom set of aggregation functions. 概述 方法是基于键进行聚合的函数(大多数基于键聚合的函数都是用它实现的), 阅读全文
摘要:
本篇博客中的操作都在 中执行。 对单个 Pair RDD 的转化操作 下面会对 Pair RDD 的一些转化操作进行解释。先假设我们有下面这些RDD(在pyspark中操作): reduceByKey 概述:合并具有 相同键值 的 值 。 例子: 这个方法操作的是 值(Values) ,对上面的两个 阅读全文
摘要:
本篇博客中的操作都在 中执行。 RDD,即 弹性分布式数据集(Resilient Distributed Dataset) ,是Spark对数据的核心抽象。RDD是分布式元素的集合,对手的所有操作都可以概括为: 创建RDD 转化已有RDD 调用RDD操作进行求值 在这些操作中,Spark会自动将RD 阅读全文
摘要:
这里只使用Spark的Python操作和接口,其他语言应为不熟悉,所以先不写在这里。 Spark 部署 可以直接从官方网站下载 pre build 版本,可以直接在电脑上运行,离线安装也是可以的,比如说针对 Python 2.7 的[link](http://mirror.bit.edu.cn/ap 阅读全文
摘要:
概述 对矩阵的主要操作,matlab 中都有现成的指令或者库函数与之对应。 矩阵最早来自于方程组的系数和常数所构成的方阵,这一概念是由19世纪的英国数学家凯利提出的。 创建矩阵 这里写的不全,但是足够入门机器学习。 常规创建方法 大概就是这样: 全1矩阵 使用 命令,可以创建一个 3 3 的全1矩阵 阅读全文
摘要:
<! aes 加密算法 概述 清理邮箱的时候翻出来的。 很久以前写的,理解加密算法用的,当时记得是还撸了两天晚上撸出来的代码,放上来留个纪念好啦。 补上Tutorial,就当考古吧。 写代码时候毕竟年轻,问题也不少,但现在这东西还能用! "文件link" , utf 8 编码。 编译 使用gcc编译 阅读全文