摘要: 1.模块简介 linecache主要用于缓存文件内容,如果下次继续读取该文件,则不需要打开文件,直接在缓存中获取该文件内容。 2.模块使用 模块的基本方法有getline,clearcache,getlines,checkcache; 方法getline主要用于获取指定行的内容; 方法clearca 阅读全文
posted @ 2016-10-13 19:35 老顽童2007 阅读(1483) 评论(0) 推荐(0) 编辑
摘要: 1 logging模块简介 logging模块是Python内置的标准模块,主要用于输出运行日志,可以设置输出日志的等级、日志保存路径、日志文件回滚等;相比print,具备如下优点: 1. 可以通过设置不同的日志等级,在release版本中只输出重要信息,而不必显示大量的调试信息; 2. print 阅读全文
posted @ 2016-10-09 20:33 老顽童2007 阅读(9156) 评论(1) 推荐(3) 编辑
摘要: 1.Example 使用Spark MLlib中决策树分类器API,训练出一个决策树模型,使用Python开发。 """ Decision Tree Classification Example. """ from __future__ import print_function from pysp 阅读全文
posted @ 2016-09-29 17:56 老顽童2007 阅读(2159) 评论(0) 推荐(0) 编辑
摘要: 如何衡量数据点之间的相似或相异程度是聚类算法的基础问题,会直接影响聚类分析的效果,最直观的方法是使用距离函数或者相似性函数。 常见的相似或相异程度计算方法。 1.计算公式 1.Minkowski distance 很多距离计算方法都可以归结为基于向量p范数的距离,即Minkowski distanc 阅读全文
posted @ 2016-09-13 21:49 老顽童2007 阅读(1305) 评论(0) 推荐(0) 编辑
摘要: 版权声明:本文为博主原创文章,未经博主允许不得转载。 1.概述 MPI(Message Passing Interface),消息传递接口,是一个标准化和轻便的能够运行在各种各样并行计算机上的消息传递系统。消息传递指的是并行执行的各个进程拥有自己独立的堆栈和代码段,作为互不相关的多个程序独立执行,进 阅读全文
posted @ 2016-08-31 18:11 老顽童2007 阅读(5763) 评论(2) 推荐(0) 编辑
摘要: 本文档主要用于梳理集成学习相关知识点。 1.Bagging Bagging基本流程,有放回地采样出T个含有m个训练样本的采样集,然后基于每个采样集训练出一个基学习器,再将这些基学习器进行结合,对预测输出进行结合时,通常采用简单投票法(分类任务),通常采用简单平均法(回归任务); 1.1 Random 阅读全文
posted @ 2016-07-31 18:25 老顽童2007 阅读(481) 评论(0) 推荐(0) 编辑
摘要: 1.基本流程 一棵决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应决策结果,其他每个节点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到字节点中;根结点包含样本全集。从根结点到每个叶结点的路径对应了一个判定测试序列。决策树学习的目的是为了产生一个泛化能力强,即处理 阅读全文
posted @ 2016-06-30 20:08 老顽童2007 阅读(1281) 评论(0) 推荐(1) 编辑
摘要: 0. git安装 (1)ubuntu操作系统: sudo apt get install git (2)Windows操作系统: 通过GitHubSetup.exe程序安装, 百度网盘共享地址:http://pan.baidu.com/s/1hsdLMba 密码:1rvy (3)Mac OS X操作 阅读全文
posted @ 2016-05-29 21:29 老顽童2007 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 本博客主要用于在Ubuntu14.04 64bit 操作系统上搭建google开源的深度学习框架tensorflow。 0.安装CUDA和cuDNN 如果要安装GPU版本的tensorflow,就必须先安装CUDA和cuDNN,请参考 "Caffe学习笔记2 Ubuntu 14.04 64bit 安 阅读全文
posted @ 2016-05-28 22:06 老顽童2007 阅读(6931) 评论(0) 推荐(0) 编辑
摘要: 1.算法讲解 KNN算法是一个最基本、最简单的有监督算法,基本思路就是给定一个样本,先通过距离计算,得到这个样本最近的topK个样本,然后根据这topK个样本的标签,投票决定给定样本的标签; 训练过程:只需要加载训练数据; 测试过程:通过之前加载的训练数据,计算测试数据集中各个样本的标签,从而完成测 阅读全文
posted @ 2016-05-25 18:42 老顽童2007 阅读(497) 评论(2) 推荐(0) 编辑