05 2014 档案

ubuntu 12.04 install hadoop
摘要:在11月初的时候,我们了解了Ubuntu 12.04 搭建 hadoop 集群版环境的方法,今天再来看看在单机版环境中,Ubuntu12.04搭建hadoop是如何实现的。一. 你要安装Ubuntu这一步省略;二. 在Ubuntu下创建hadoop用户组和用户;1. 创建hadoop用户组:sudo... 阅读全文

posted @ 2014-05-29 20:45 berkeleysong 阅读(338) 评论(0) 推荐(0)

Naive Bayes
摘要:琢磨了两天,对于朴素贝叶斯的原理弄得很清楚,可是要做文本分类,看了好多文章知道基于朴素贝叶斯公式,比较出后验概率的最大值来进行分类,后验概率的计算是由先验概率与类条件概率的乘积得出,先验概率和类条件概率要通过训练数据集得出,即为朴素贝叶斯分类模型,将其保存为中间结果,测试文档进行分类时调用这个中间结... 阅读全文

posted @ 2014-05-28 15:48 berkeleysong 阅读(136) 评论(0) 推荐(0)

AUC(Area Under roc Curve )计算及其与ROC的关系
摘要:让我们从头说起,首先AUC是一种用来度量分类模型好坏的一个标准。这样的标准其实有很多,例如:大约10年前在machine learning文献中一统天下的标准:分类精度;在信息检索(IR)领域中常用的recall和precision,等等。其实,度量反应了人们对” 好”的分类结果的追求,同一时期的不... 阅读全文

posted @ 2014-05-28 14:58 berkeleysong 阅读(295) 评论(0) 推荐(0)

单例模式
摘要:单例模式也称为单件模式、单子模式,可能是使用最广泛的设计模式。其意图是保证一个类仅有一个实例,并提供一个访问它的全局访问点,该实例被所有程序模块共享。有很多地方需要这样的功能模块,如系统的日志输出,GUI应用必须是单鼠标,MODEM的联接需要一条且只需要一条电话线,操作系统只能有一个窗口管理器,一台... 阅读全文

posted @ 2014-05-27 16:49 berkeleysong 阅读(229) 评论(0) 推荐(0)

不可被继承的类
摘要:一道笔试题的思考:记得,找工作时,遇到了这样的一道笔试题。记不清是那个公司的笔试题,反正觉得自己当时还真费了一点功夫的,但是也就搞定了一部分,结果还是被另一部分给鄙视啦!现在静下来分析实现如下:题目:用C++设计一个不能被继承的类不能被继承?不能被继承?不能被继承?按照继承的理论知识分析,我们只要把... 阅读全文

posted @ 2014-05-27 16:47 berkeleysong 阅读(231) 评论(0) 推荐(0)

训练集(train set) 验证集(validation set) 测试集(test set)
摘要:在有监督(supervise)的机器学习中,数据集常被分成2~3个,即:训练集(train set) 验证集(validation set) 测试集(test set)。http://blog.sina.com.cn/s/blog_4d2f6cf201000cjx.html一般需要将样本分成独立的三... 阅读全文

posted @ 2014-05-26 21:30 berkeleysong 阅读(274) 评论(0) 推荐(0)

动态规划--哦
摘要:01背包问题有N件物品和一个容量为V的背包。第i件物品的体积是c[i],价值是w[i]。求解将哪些物品装入背包可使价值总和最大。基本思路这是最基础的背包问题,特点是:每种物品仅有一件,可以选择放或不放。用子问题定义状态:即f[i][v]表示前i件物品恰放入一个容量为v的背包可以获得的最大价值。则其状... 阅读全文

posted @ 2014-05-25 22:43 berkeleysong 阅读(88) 评论(0) 推荐(0)

100层楼两个鸡蛋
摘要:前两天翻译Python文档翻译到手软。今天不想翻译了,上网闲逛,在http://programming.reddit.com/上看到一道有趣的题目,据说是清华东门某家公司的面试题。原文地址http://classic-puzzles.blogspot.com/2006/12/google-inter... 阅读全文

posted @ 2014-05-25 19:38 berkeleysong 阅读(471) 评论(0) 推荐(0)

拓扑排序
摘要:拓扑排序简单来说就是把一个图的所有节点排序,使得每一条有向边(u,v)对应的u都排在v的前面。拓扑排序最大的用途就是判断一个有向图是否有环,当然判断还有一种方法就是Floyd算法。如果用邻接表的话拓扑排序的时间复杂度是O(N*E),邻接矩阵是O(N^2),N表示顶点数,E表示边数,Floyd时间复杂... 阅读全文

posted @ 2014-05-25 13:52 berkeleysong 阅读(407) 评论(0) 推荐(0)

Hadoop之使用python实现数据集合间join操作
摘要:hadoop之steaming介绍hadoop有个工具叫做steaming,能够支持python、shell、C++、PHP等其他任何支持标准输入stdin及标准输出stdout的语言,其运行原理可以通过和标准java的map-reduce程序对比来说明:使用原生java语言实现Map-reduce... 阅读全文

posted @ 2014-05-24 16:45 berkeleysong 阅读(1313) 评论(0) 推荐(1)

如何用python写mapreduce
摘要:转自:使用Python实现Hadoop MapReduce程序英文原文:Writing an Hadoop MapReduce Program in Python根据上面两篇文章,下面是我在自己的ubuntu上的运行过程。文字基本采用博文使用Python实现Hadoop MapReduce程序, 打... 阅读全文

posted @ 2014-05-24 16:44 berkeleysong 阅读(823) 评论(0) 推荐(0)

hadoop stream 使用心得
摘要:1.概述Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或脚本文件作为Mapper和Reducer,例如: $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/hadoop-streaming.jar \ -input /u... 阅读全文

posted @ 2014-05-24 16:40 berkeleysong 阅读(637) 评论(0) 推荐(1)

二叉树非递归遍历 重点是后序
摘要:二叉树是一种非常重要的数据结构,很多其它数据结构都是基于二叉树的基础演变而来的。对于二叉树,有前序、中序以及后序三种遍历方法。因为树的定义本身就是递归定义,因此采用递归的方法去实现树的三种遍历不仅容易理解而且代码很简洁。而对于树的遍历若采用非递归的方法,就要采用栈去模拟实现。在三种遍历中,前序和中序... 阅读全文

posted @ 2014-05-22 18:05 berkeleysong 阅读(138) 评论(0) 推荐(0)

private, public, protected 访问标号的访问权限
摘要:忘记出处了第一:private, public, protected 访问标号的访问范围。private:只能由1.该类中的函数、2.其友元函数访问。不能被任何其他访问,该类的对象也不能访问。protected:可以被1.该类中的函数、2.子类的函数、以及3.其友元函数访问。但不能被该类的对象访问。... 阅读全文

posted @ 2014-05-20 15:30 berkeleysong 阅读(154) 评论(0) 推荐(0)

友元
摘要:我们已知道类具备封装和信息隐 藏的特性。只有类的成员函数才能访问类的私有成员,程式中的其他函数是无法访问私有成员的。非成员函数能够访问类中的公有成员,但是假如将数据成员都定义 为公有的,这又破坏了隐藏的特性。另外,应该看到在某些情况下,特别是在对某些成员函数多次调用时,由于参数传递,类型检查和安全性... 阅读全文

posted @ 2014-05-20 14:30 berkeleysong 阅读(112) 评论(0) 推荐(0)

C++ static成员
摘要:类中的静态成员真是个让人爱恨交加的特性。我决定好好总结一下静态类成员的知识点,以便自己在以后面试中,在此类问题上不在被动。静态类成员包括静态数据成员和静态函数成员两部分。一 静态数据成员:类体中的数据成员的声明前加上static关键字,该数据成员就成为了该类的静态数据成员。和其他数据成员一样,静态数... 阅读全文

posted @ 2014-05-20 14:24 berkeleysong 阅读(102) 评论(0) 推荐(0)

关于typedef的用法总结
摘要:不管实在C还是C++代码中,typedef这个词都不少见,当然出现频率较高的还是在C代码中。typedef与#define有些相似,但更多的是不同,特别是在一些复杂的用法上,就完全不同了,看了网上一些C/C++的学习者的博客,其中有一篇关于typedef的总结还是很不错,由于总结的很好,我就不加修改... 阅读全文

posted @ 2014-05-14 11:01 berkeleysong 阅读(133) 评论(0) 推荐(0)

C语言中printf(),sprintf(),scanf(),sscanf()的用法和区别
摘要:printf语法:#includeintprintf(constchar*format,...);printf()函数根据format(格式)给出的格式打印输出到STDOUT(标准输出)和其它参数中。返回值是输出的字符数量。sprintf语法:#includeintsprintf(char*buff... 阅读全文

posted @ 2014-05-13 16:14 berkeleysong 阅读(247) 评论(0) 推荐(0)

最短路径—Dijkstra算法和Floyd算法
摘要:http://www.cnblogs.com/biyeymyhjob/archive/2012/07/31/2615833.html1.定义概览Dijkstra(迪杰斯特拉)算法是典型的单源最短路径算法,用于计算一个节点到其他所有节点的最短路径。主要特点是以起始点为中心向外层层扩展,直到扩展到终点为... 阅读全文

posted @ 2014-05-13 10:13 berkeleysong 阅读(134) 评论(0) 推荐(0)

几种经典的网络服务器架构模型的分析与比较
摘要:事件驱动为广大的程序员所熟悉,其最为人津津乐道的是在图形化界面编程中的应用;事实上,在网络编程中事件驱动也被广泛使用,并大规模部署在高连接 数高吞吐量的服务器程序中,如 http 服务器程序、ftp 服务器程序等。相比于传统的网络编程方式,事件驱动能够极大的降低资源占用,增大服务接待能力,并提高网络... 阅读全文

posted @ 2014-05-06 20:11 berkeleysong 阅读(143) 评论(0) 推荐(0)

导航