11 2013 档案

抽取网页中的主要内容
摘要:抽取网页中的主要内容,是文本挖掘预处理中一个很头疼的问题。但是现在一切都不是问题。 String content = ArticleExtractor.INSTANCE.getText(new URL("https://www.google.com.hk/#ne... 阅读全文

posted @ 2013-11-29 17:16 代码王子 阅读(148) 评论(0) 推荐(0) 编辑

Hadoop Bloom Filter 使用
摘要:1.Bloom Filter 默认的 BloomFilter filter =new BloomFilter(10,2,1); // 过滤器长度为10 ,用2哈希函数,MURMUR_HASH (1) Key key =new Key("hadoop".getBytes()... 阅读全文

posted @ 2013-11-29 15:55 代码王子 阅读(599) 评论(0) 推荐(0) 编辑

Bloom filter 2
摘要:1 Bloom filter 计算方法 如需要判断一个元素是不是在一个集合中,我们通常做法是把所有元素保存下来,然后通过比较知道它是不是在集合内,链表、树都是基于这种思路,当集合内元素个数的变大,我们需要的空间和时间都线性变大,检索速度也越来越慢。 Bloom filter 采用的是哈希函数的... 阅读全文

posted @ 2013-11-29 15:41 代码王子 阅读(114) 评论(0) 推荐(0) 编辑

Bloom Filter
摘要:Bloom Filter概念和原理 焦萌 2007年1月27日 Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这... 阅读全文

posted @ 2013-11-29 15:38 代码王子 阅读(112) 评论(0) 推荐(0) 编辑

MurmurHash
摘要:public int hash(byte[] data, int length, int seed) { int m = 0x5bd1e995; int r = 24; int h = seed ^ length; int len_4 = length >> ... 阅读全文

posted @ 2013-11-29 15:20 代码王子 阅读(463) 评论(0) 推荐(0) 编辑

Jenkins hash
摘要:最早,Bob Jenkins提出了多个基于字符串通用Hash算法(搜Jenkins Hash就知道了),而Thomas Wang在Jenkins的基础上,针对固定整数输入做了相应的Hash算法。其64位版本的 Hash算法如下: uint64_t hash(uint64_t key) { k... 阅读全文

posted @ 2013-11-29 15:17 代码王子 阅读(909) 评论(0) 推荐(0) 编辑

云时代的风云变换
摘要:读了IBM的云观点,我相信,他也要开始发力了 在大数据的时代,云处理已经成为一种普遍的处理手段,至少目前为止,云框架还是最普遍接受,并且应用性最广泛的框架。 不同于传统的分布式并行计算,云拥有者太多可以广泛的使用的特点。 大数据是什么,就是青年人的性爱,大家都在谈论,可没人知道真正怎么做,大家都... 阅读全文

posted @ 2013-11-29 11:26 代码王子 阅读(140) 评论(0) 推荐(0) 编辑

ibm云时代的转型
摘要:好几个月了,有两个说法很流行。 第一个说法,是老有人嚷嚷思科快被SDN整趴下了;第二个说法,是老有人嚷嚷IBM在云计算时代完全落后了,要倒下了。 刚开始我还跟有些人辩论: 1、裁员是西方企业常用的战略调整方法,对个体也许冷酷对企业却属常规; 2、这两个企业不但财务状况很strong,而且技术上的... 阅读全文

posted @ 2013-11-29 11:09 代码王子 阅读(209) 评论(0) 推荐(0) 编辑

代码中简单实现四舍五入(加上0.5取整)适用于所有语言
摘要:int representGoal = (int) (graph.goal*representRatio+0.5); 只需要加0.5取整。 阅读全文

posted @ 2013-11-29 10:41 代码王子 阅读(468) 评论(0) 推荐(0) 编辑

MR for Baum-Welch algorithm
摘要:The Baum-Welch algorithm is commonly used for training a Hidden Markov Model because of its superior numerical stability and its ability to guarante... 阅读全文

posted @ 2013-11-27 21:30 代码王子 阅读(212) 评论(0) 推荐(0) 编辑

MR PAGERANK思路
摘要:map( key: [url, pagerank], value: outlink_list ) for each outlink in outlink_list emit( key: outlink, value: pagerank/size(outlink_list) )... 阅读全文

posted @ 2013-11-27 21:24 代码王子 阅读(147) 评论(0) 推荐(0) 编辑

using MR to compute PageRank
摘要:In this post I explain how to compute PageRank using the MapReduce approach to parallelization. This gives us a way of computing PageRank that can i... 阅读全文

posted @ 2013-11-27 21:22 代码王子 阅读(181) 评论(0) 推荐(0) 编辑

实现像百度一样的自动补全功能
摘要:import java.io.IOException; import java.io.Reader; import java.util.ArrayList; import java.util.HashMap; import java.util.Iterator; import java.ut... 阅读全文

posted @ 2013-11-27 21:19 代码王子 阅读(256) 评论(0) 推荐(0) 编辑

新手阅读大型代码库
摘要:Casey问我:“对于新手,有什么有针对性的诀窍来阅读大型代码库吗?” 碰巧,我认为这是一个非常好的问题。我觉得想要成为一个优秀的开发者,阅读代码库并弄清清楚内部是怎么回事的能力非常重要。在你的职业生涯中你会中途加入一个现有的项目并被要求迅速融入进去。或者,甚至更难,会有一个项目丢给你让你自... 阅读全文

posted @ 2013-11-27 16:05 代码王子 阅读(161) 评论(0) 推荐(0) 编辑

易信,不改难成大事
摘要:微信 一家独大,称霸 智能手机市场的趋势,基本已经成型。 而最可怕的是,腾讯土豪的推广方式,不断扩大的应用服务。 这时候易信的退出本来是一个有力的竞争者,但易信真令人失望。 我们几个安装上就卸载了。 其实最为吸引人的方式就免流量,可是安装后,没有朋友聊天,我都不知道跟谁聊。 门槛高,限制广。让大... 阅读全文

posted @ 2013-11-27 14:07 代码王子 阅读(150) 评论(0) 推荐(0) 编辑

CRF资料
摘要:与最大熵模型相似,条件随机场(Conditional random fields,CRFs)是一种机器学习模型,在自然语言处理的许多领域(如词性标注、中文分词、命名实体识别等)都有比较好的应用效果。条件随机场最早由John D. Lafferty提出,其也是Brown90的作者之一,和贾里尼克相... 阅读全文

posted @ 2013-11-26 20:38 代码王子 阅读(315) 评论(0) 推荐(0) 编辑

HBase Compaction
摘要:当 client 向 hregion 端 put() 数据时, HRegion 会判断当前的 memstore 的大小是否大于参数hbase.hregion.memstore.flush.size 值,如果大于,则执行 flushcache() 操作,将 hregion 上的 memstore ... 阅读全文

posted @ 2013-11-26 09:11 代码王子 阅读(134) 评论(0) 推荐(0) 编辑

HBase 协处理器实现二级索引
摘要:HBase在0.92之后引入了coprocessors,提供了一系列的钩子,让我们能够轻易实现访问控制和二级索引的特性。下面简单介绍下两种coprocessors,第一种是Observers,它实际类似于触发器,第二种是Endpoint,它类似与存储过程。由于这里只用到了Observers,所... 阅读全文

posted @ 2013-11-26 09:11 代码王子 阅读(152) 评论(0) 推荐(0) 编辑

HBase 二级索引与Join
摘要:二级索引与索引Join是Online业务系统要求存储引擎提供的基本特性。RDBMS支持得比较好,NOSQL阵营也在摸索着符合自身特点的最佳解决方案。 这篇文章会以HBase做为对象来探讨如何基于Hbase构建二级索引与实现索引join。文末同时会列出目前已知的包括0.19.3版secondary... 阅读全文

posted @ 2013-11-26 09:11 代码王子 阅读(252) 评论(0) 推荐(0) 编辑

HBase Muti-Master
摘要:为了保证HBase集群的高可靠性,HBase支持多Backup Master 设置。当Active Master挂掉后,Backup Master可以自动接管整个HBase的集群。 该配置极其简单: 在$HBASE_HOME/conf/ 目录下新增文件配置backup-masters,在其内添加... 阅读全文

posted @ 2013-11-26 09:10 代码王子 阅读(136) 评论(0) 推荐(0) 编辑

NOSQL schema创建原则
摘要:(1)数据规模 Bigtable类数据库系统(HBase,Cassandra等)是为了解决海量数据规模的存储需要设计的。这里说的海量数据规模指的是单个表存储的数据量是在TB或者PB规模,单个表是由千亿行*千亿列这样的规模组成的。提到这个数据规模的问题,不得不说的就是现在在NoSQL市场中,最... 阅读全文

posted @ 2013-11-26 09:10 代码王子 阅读(293) 评论(0) 推荐(0) 编辑

HBase flush
摘要:flush触发方式 1. Server端执行更新操作(put、delete、multi(MultiActionmulti)、(private)checkAndMutate、mutateRow (byte[] regionName, RowMutations rm))执行前后触发内存检查 操作... 阅读全文

posted @ 2013-11-26 09:09 代码王子 阅读(358) 评论(0) 推荐(0) 编辑

阅读源码
摘要:编者按:原文作者Alan Skorkin是一名软件开发人员,他在博客中分享对软件开发相关的心得,其中有很多优秀的文章,本文是其中的另一篇。Alan认为:阅读优秀代码是提高开发人员修为的一种捷径。以下是全文。 我突然想起来,很多程序员都讨厌阅读代码。来吧,承认吧! 每个人都喜欢编写代... 阅读全文

posted @ 2013-11-26 09:09 代码王子 阅读(130) 评论(0) 推荐(0) 编辑

HBase行锁
摘要:1 行锁简介 在事务特性方面,hbase只支持单row的事务,不能保证跨row(cross-row)的事务。hbase通过行锁来实现单row事务。客户端进行操作时,可以显式对某一个行加锁,但是大部分情况下是没有必要的,因为如果没有显式的加行锁,hbase在内部会默认的加行锁。为了描述方便,用户... 阅读全文

posted @ 2013-11-26 09:08 代码王子 阅读(1305) 评论(0) 推荐(0) 编辑

hadoop运维
摘要:在实际的生产环境运维一个Hadoop集群有一些必须要关注的事情。 1、Namenode的高可靠性 2、节点配置与管理 3、Mapreduce的内存配置 4、启用trash 首要的是保证数据安全可靠,其次再去考虑存储效率、计算效率、运维效率的优化与提高,当你觉得Hadoop集群的性能太差太差... 阅读全文

posted @ 2013-11-26 09:08 代码王子 阅读(214) 评论(0) 推荐(0) 编辑

HBase Master启动过程
摘要:master启动过程: -->首先初始化HMaster -->创建一个rpcServer,其中并启动 -->启动一个Listener线程,功能是监听client的请求,将请求放入nio请求队列,逻辑如下: -->创建n个selector,和一个n个线程的readpool,n由"ipc.ser... 阅读全文

posted @ 2013-11-26 09:08 代码王子 阅读(411) 评论(0) 推荐(0) 编辑

bulk-load 装载HDFS数据到HBase
摘要:bulk-load的作用是用mapreduce的方式将hdfs上的文件装载到hbase中,对于海量数据装载入hbase非常有用,参考http://hbase.apache.org/docs/r0.89.20100621/bulk-loads.html: hbase提供了现成的程序将hdfs上的... 阅读全文

posted @ 2013-11-26 09:07 代码王子 阅读(159) 评论(0) 推荐(0) 编辑

HBase开启LZO
摘要:hbase只支持对gzip的压缩,对lzo压缩支持不好。在io成为系统瓶颈的情况下,一般开启lzo压缩会提高系统的吞吐量。但这需要参考具体的应用场景,即是否值得进行压缩、压缩率是否足够等等。 想要hbase支持lzo压缩,参照以下步骤: 1 首先要让系统支持lzo动态库,安装lzo-2.00以... 阅读全文

posted @ 2013-11-26 09:07 代码王子 阅读(166) 评论(0) 推荐(0) 编辑

Hash函数
摘要:简介 哈稀函数按照定义可以实现一个伪随机数生成器(PRNG),从这个角度可以得到一个公认的结论:哈希函数之间性能的比较可以通过比较其在伪随机生成方面的比较来衡量。 一些常用的分析技术,例如泊松分布可用于分析不同的哈希函数对不同的数据的碰撞率(collision rate)。一般来说,对任意一... 阅读全文

posted @ 2013-11-25 12:42 代码王子 阅读(262) 评论(0) 推荐(0) 编辑

熵推导
摘要:信息论 信息是关于事物的运动状态和规律的认识,它可以脱离具体的事物而被摄取、传输、存贮、处理和变换。 信息论,就是用数理统计方法研究信息的基本性质以及度量方法,研究最佳解决信息的摄取、传输、存贮、处理和变换的一般规律的科学。它的成果将为人们广泛而有效地利用信息提供基本的技术方... 阅读全文

posted @ 2013-11-25 12:42 代码王子 阅读(613) 评论(0) 推荐(0) 编辑

提高HBase写性能
摘要:以下为使用hbase一段时间的三个思考,由于在内存充足的情况下hbase能提供比较满意的读性能,因此写性能是思考的重点。希望读者提出不同意见讨论 1 autoflush=false的影响 无论是官方还是很多blog都提倡为了提高hbase的写入速度而在应用代码中设置autoflu... 阅读全文

posted @ 2013-11-25 12:41 代码王子 阅读(130) 评论(0) 推荐(0) 编辑

HBase运维经验
摘要:http://www.qconbeijing.com/download/Nicolas.pdf 重点看了下facebook做了哪些改进以及他们的运维经验,比较重要的有以下几点: 改进: 1 加强了行级的ACID约束 2 改善了数据的分布规则,可以配置hdfs的replicas所在节点 3 改... 阅读全文

posted @ 2013-11-25 12:41 代码王子 阅读(80) 评论(0) 推荐(0) 编辑

HBase缓存的使用
摘要:hbase中的缓存分了两层:memstore和blockcache。 其中memstore供写使用,写请求会先写入memstore,regionserver会给每个region提供一个memstore,当memstore满64MB以后,会启动flush刷新到磁盘。当memstor... 阅读全文

posted @ 2013-11-25 12:41 代码王子 阅读(213) 评论(0) 推荐(0) 编辑

HDFS APPEND性能测试
摘要:hbase在写入数据之前会先写hlog,hlog目前是sequencefile格式,采用append的方式往里追加数据。之前团队的同学测试关闭hlog会一定程序上提升写hbase的稳定性。而在我之前的想象中,hlog的写入速度应该是稳定的。于是写了个append程序专门测试hdfs的append... 阅读全文

posted @ 2013-11-25 12:41 代码王子 阅读(335) 评论(0) 推荐(0) 编辑

Hbase问题
摘要:Q: .meta.和root表是否要分裂? A: meta表和root表不会分裂,代码中有所判断。 Q: 如果不分裂,那么都只有1个region? A: ... (查看代码后)A: meta和root表是要split的,.meta.和-root-不split是在0.20... 阅读全文

posted @ 2013-11-25 12:41 代码王子 阅读(88) 评论(0) 推荐(0) 编辑

HBase中缓存的优先级
摘要:ava代码 // Instantiate priority buckets BlockBucket bucketSingle = new BlockBucket(bytesToFree, blockSize, singleSize()); BlockBucket bucket... 阅读全文

posted @ 2013-11-25 12:40 代码王子 阅读(123) 评论(0) 推荐(0) 编辑

HBase中创建索引
摘要:hbasene(https://github.com/akkumar/hbasene)是开源项目,在hbase存储上封装使用Lucene来创建索引,代码API非常简单,熟悉lucene的朋友可以很方便地创建。 以下为测试代码,完成读取一张hbase上记录url和用户id的表,对其... 阅读全文

posted @ 2013-11-25 12:40 代码王子 阅读(219) 评论(0) 推荐(0) 编辑

多Region下HBase写入问题
摘要:最近在集群上发现hbase写入性能受到较大下降,测试环境下没有该问题产生。而生产环境和测试环境的区别之一是生产环境的region数量远远多于测试环境,单台regionserver服务了约3500个region。 通过jstack工具检查到大半写入线程BLOCKED状态在"publ... 阅读全文

posted @ 2013-11-25 12:40 代码王子 阅读(224) 评论(0) 推荐(0) 编辑

Zookeeper管理多个HBase集群
摘要:zookeeper是hbase集群的"协调器"。由于zookeeper的轻量级特性,因此我们可以将多个hbase集群共用一个zookeeper集群,以节约大量的服务器。多个hbase集群共用zookeeper集群的方法是使用同一组ip,修改不同hbase集群的"zookeeper.zno... 阅读全文

posted @ 2013-11-25 12:40 代码王子 阅读(208) 评论(0) 推荐(0) 编辑

disable table 失败的处理
摘要:相信每一个维护hbase集群的运维人员一定碰到过disable失败,陷入无穷的"Region has been PENDING_CLOSE for too long..."状态,此时没有什么好的办法处理。经常需要重启集群。 这个问题产生的原因非常讨厌,经过一段时间的分析和验证,得到了根本... 阅读全文

posted @ 2013-11-25 12:40 代码王子 阅读(332) 评论(0) 推荐(0) 编辑

region server 中的OOM原因
摘要:首先要清楚reginserver中内存是如何使用的。 reginserver中内存总体分成三部分:blocksize专供读使用的内存,memstore供读写使用的内存,其它内存。 其中前两者的大小在配置中分别通过hfile.block.cache.size以及hbase.re... 阅读全文

posted @ 2013-11-25 12:39 代码王子 阅读(199) 评论(0) 推荐(0) 编辑

HBase数据字典
摘要:数据字典用来存储了系统的元数据。HBase的元数据包括:用户表的定义、表的切分方案、分片的分布情况(即分片分布在哪个regionserver上)、分片对应的数据文件和日志文件。其中,分片和数据文件的映射关系是通过目录映射实现的,即不同的分片的数据文件存储在不同的目录中,其中目录的名称是分片的名... 阅读全文

posted @ 2013-11-25 12:31 代码王子 阅读(421) 评论(0) 推荐(0) 编辑

HBase丢失数据的故障和原因分析
摘要:hbase的稳定性是近期社区的重要关注点,毕竟稳定的系统才能被推广开来,这里有几次稳定性故障和大家分享。 第一次生产故障的现象及原因 现象: Java代码 1 hbase发现无法写入 2 通过hbck检测发现.META.表中出现空洞,具体log是:;Cha... 阅读全文

posted @ 2013-11-25 12:31 代码王子 阅读(802) 评论(0) 推荐(0) 编辑

HBase多次加载-ROOT-和META的bug
摘要:执行以下case可以见到root或meta被加载两次: 1 kill掉root和meta表所在的rs2 start该台rs3 立即再次kill掉这台rs4 立即再次start该台rs 原因: 当ROOT表和META表所在的server如果挂掉了,不管是重启这台rs还是等待它... 阅读全文

posted @ 2013-11-25 12:30 代码王子 阅读(139) 评论(0) 推荐(0) 编辑

HBase写被block的分析
摘要:一个线上集群出现莫名奇妙不能写入数据的bug,log中不断打印如下信息: 引用 2011-11-09 07:35:45,911 INFO org.apache.hadoop.hbase.regionserver.HRegion: Blocking updates for 'IPC Server... 阅读全文

posted @ 2013-11-25 12:30 代码王子 阅读(141) 评论(0) 推荐(0) 编辑

Lease问题
摘要:经过查明原来是lease引发的问题。不过查问题的过程让我们耽误了很多修复故障的时间,很是不爽。 起因:datanode和regionserver以及master同时挂掉 现象:datanode重启后,regionserver重启不久,多台regionserver相继即挂掉,log显示: ... 阅读全文

posted @ 2013-11-25 12:30 代码王子 阅读(102) 评论(0) 推荐(0) 编辑

局部加权回归
摘要:局部加权紧接着上面的线性回归中参数求解来继续讲吧。还是以上面的房屋价格的预测,它的中心思想是在对参数进行求解的过程中,每个样本对当前参数值的影响是有不一样的权重的。比如上节中我们的回归方程为(这个地方用矩阵的方法来表示Ɵ表示参数,i表示第i个样本,h为在Ɵ参数下的预测值): 我们的目标是... 阅读全文

posted @ 2013-11-25 12:29 代码王子 阅读(186) 评论(0) 推荐(0) 编辑

多元线性回归
摘要:1、多元线性回归模型 假定被解释变量与多个解释变量之间具有线性关系,是解释变量的多元线性函数,称为多元线性回归模型。即 (1.1) 其中为被解释变量,为个解释变量,为个未知参数,为随机误差项。 被解释变量的期望值与解释变量的线性方程为: (1.2) 称为多元总体线性回归方程,简称总体回归方程... 阅读全文

posted @ 2013-11-25 12:29 代码王子 阅读(2956) 评论(0) 推荐(0) 编辑

HBase replication使用
摘要:hbase-0.90.0的一个重要改进是引入了replication机制,使它的数据完整性得到了进一步的保障。虽然这一功能还不太完善,但是今后必然会变得更加重要。 hbase的replication机制很像mysql statement-based replication。它是通过WALEdi... 阅读全文

posted @ 2013-11-24 22:24 代码王子 阅读(203) 评论(0) 推荐(0) 编辑

HBase 索引创建
摘要:本文参考了文“mysql索引背后的数据结构及算法原理”,之所以还要摘录,主要是为了形成hbase索引研究的开篇,弄明白什么索引的本质,如有版权问题,请及时通知。 索引的本质 索引是帮助mysql高效获取数据的数据结构。索引属于数据结构的一种。 在数据之外,数据库系统还维护着满足特定查找算法的数据... 阅读全文

posted @ 2013-11-24 17:21 代码王子 阅读(461) 评论(0) 推荐(0) 编辑

HBase Region级别二级索引
摘要:我们会经常谈及二级索引,这是对全表数据进行另外一种方式的组织存储,是针对table级别的。如果要为HBase上的表实现一个强一致性的二级索引,那么就无法逃避分布式事务,而这一直是用户最期待的功能。 而即使只需要保证最终一致性,这个索引也并不好实现,因为你需要额外的表以存储过程数据,需要解决宕机恢... 阅读全文

posted @ 2013-11-24 17:20 代码王子 阅读(191) 评论(0) 推荐(0) 编辑

HBase快照
摘要:CDH是Cloudera的完全开源分布式Apache Hadoop及相关项目(包括Apache HBase)。CDH的当前版本(4.2)引入的一个HBase新特性最近加入到了主干中,允许用户对指定表进行快照。 在CDH4.2之前,唯一能够备份或克隆表的方法就是使用复制/导出表或者在关闭表之后... 阅读全文

posted @ 2013-11-24 17:18 代码王子 阅读(164) 评论(0) 推荐(0) 编辑

HBase BlockCache
摘要:1. Cache 读写 调用逻辑: hmaster.handleCreateTable->HRegion.createHRegion-> HRegion. initialize->initializeRegionInternals->instantiateHStore ->Store.St... 阅读全文

posted @ 2013-11-24 17:16 代码王子 阅读(154) 评论(0) 推荐(0) 编辑

HBase事务
摘要:众所周知,ACID是指原子性(Atomicity),一致性(Consistency),隔离性(Isolation)和持久性(Durability)。 HBase对同一行数据的操作提供ACID保证。HBASE-3584支持多操作事务,HBASE-5229支持多行事务,但原理都是一样的。 那么... 阅读全文

posted @ 2013-11-24 17:15 代码王子 阅读(918) 评论(0) 推荐(0) 编辑

HBase Master 启动
摘要:–>首先初始化HMaster –>创建一个rpcServer,其中并启动 –>启动一个Listener线程,功能是监听client的请求,将请求放入nio请求队列,逻辑如下: –>创建n个selector,和一个n个线程的readpool,n由”ipc.server.read.threadpoo... 阅读全文

posted @ 2013-11-24 17:13 代码王子 阅读(257) 评论(0) 推荐(0) 编辑

Stripe Compaction
摘要:借鉴于LevelDB、Cassandra的Compaction方法,https://issues.apache.org/jira/browse/HBASE-7667 提出了Stripe Compaction的方法。 Motivation: 1)过多Region会增大RS维护的开销,降低RS的... 阅读全文

posted @ 2013-11-24 17:11 代码王子 阅读(212) 评论(0) 推荐(0) 编辑

HBase Split
摘要:HBase 的 Split过程是一个较为重要的过程,牵扯到许多东西。 Client 1. HBaseAdmin.split 2. 判断split的是Region还是Table 3. 调用HBaseAdmin.split(final ServerName sn, final HRegion... 阅读全文

posted @ 2013-11-24 17:09 代码王子 阅读(364) 评论(0) 推荐(0) 编辑

LSM-tree
摘要:论文 The Log-Structure Merge-Tree(LSM-tree)(http://www.google.com.my/url?sa=t&rct=j&q=&esrc=s&source=web&cd=4&cad=rja&ved=0CDoQFjAD&url=http%3A%2F%2Fc... 阅读全文

posted @ 2013-11-24 17:07 代码王子 阅读(318) 评论(0) 推荐(0) 编辑

HBase协处理器
摘要:1.起因(Why HBase Coprocessor) HBase作为列族数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本的( protocol, byte[] row) 。rigons区域:HTableInterface.copro... 阅读全文

posted @ 2013-11-24 17:02 代码王子 阅读(211) 评论(0) 推荐(0) 编辑

HBase学习资源
摘要:教程 《HBase.Administration.Cookbook》 中文版《HBase管理指南》 《HBase in action》 《HBase权威指南》 Reference Guide 中文版 中文参考指南 HBase近期的发展及实践.pdf 小米hadoop/hbase微实践.p... 阅读全文

posted @ 2013-11-24 16:57 代码王子 阅读(164) 评论(0) 推荐(0) 编辑

SVM
摘要:支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。 一、数学部分 1.1二维空间 支持向量机的典型应用是分类,用于解决这样的问题... 阅读全文

posted @ 2013-11-24 16:49 代码王子 阅读(152) 评论(0) 推荐(0) 编辑

Aho-Corasick算法学习
摘要:1、概述 Aho-Corasick自动机算法(简称AC自动机)1975年产生于贝尔实验室。该算法应用有限自动机巧妙地将字符比较转化为了状态转移。此算法有两个特点,一个是扫描文本时完全不需要回溯,另一个是时间复杂度为O(n),时间复杂度与关键字的数目和长度无关。 好了,我们先看下最原始的多模式匹配... 阅读全文

posted @ 2013-11-24 16:46 代码王子 阅读(342) 评论(0) 推荐(0) 编辑

Boyer-Moore算法
摘要:1、概述 在用于查找子字符串的算法当中,BM(Boyer-Moore)算法是目前相当有效又容易理解的一种,一般情况下,比KMP算法快3-5倍。 BM算法在移动模式串的时候是从左到右,而进行比较的时候是从右到左的。 常规的匹配算法移动模式串的时候是从左到右,而进行比较的时候也是是从左到右的,基本框... 阅读全文

posted @ 2013-11-24 16:45 代码王子 阅读(270) 评论(0) 推荐(0) 编辑

Apriori和FPTree
摘要:Apriori算法和FPTree算法都是数据挖掘中的关联规则挖掘算法,处理的都是最简单的单层单维布尔关联规则。 Apriori算法 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。是基于这样的事实:算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的迭代方法,... 阅读全文

posted @ 2013-11-24 16:43 代码王子 阅读(367) 评论(0) 推荐(0) 编辑

朴素贝叶斯与贝叶斯网络
摘要:贝叶斯分类是统计学分类方法。它们可以预测类成员关系的可能性,如给定样本属于一个特定类的概率。 贝叶斯定理是就是在给定的数据概率来表示未知的后验概率。比如已知某水果是红色的情况下,判断该水果有多大的概率是苹果,用数学符号表示就是(后验概率),其中X表示“这个水果是红色的”,H表示“这个水果是苹果... 阅读全文

posted @ 2013-11-24 16:40 代码王子 阅读(498) 评论(0) 推荐(0) 编辑

模拟退火算法
摘要:一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前,先介绍爬山算法。爬山算法是一种简单的贪心搜索算法,该算法每次从当前解的临近解空间中选择一个最优解作为当前解,直到达到一个局部最优解。 爬山算法实现很简单,其主要缺点是会陷入局部最优解,而不一定... 阅读全文

posted @ 2013-11-24 16:37 代码王子 阅读(263) 评论(0) 推荐(0) 编辑

特征选择算法
摘要:1 综述 (1)什么是特征选择 特征选择 ( FeatureSelection )也称特征子集选择(Feature Subset Selection , FSS ) ,或属性选择( AttributeSelection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。 (2... 阅读全文

posted @ 2013-11-24 16:35 代码王子 阅读(1013) 评论(0) 推荐(0) 编辑

遗传算法编程
摘要:遗传算法 ( GA , Genetic Algorithm ) ,也称进化算法 。 遗传算法是受达尔文的进化论的启发,借鉴生物进化过程而提出的一种启发式搜索算法。因此在介绍遗传算法前有必要简单的介绍生物进化知识。 一.进化论知识 作为遗传算法生物背景的介绍,下面内容了解即可: ... 阅读全文

posted @ 2013-11-24 16:35 代码王子 阅读(628) 评论(0) 推荐(0) 编辑

神经网络编程
摘要:本文主要内容包括: (1) 介绍神经网络基本原理,(2)AForge.NET实现前向神经网络的方法,(3) Matlab实现前向神经网络的方法 。 第0节、引例 本文以Fisher的Iris数据集作为神经网络程序的测试数据集。Iris数据集可以在http://en.wiki... 阅读全文

posted @ 2013-11-24 16:33 代码王子 阅读(250) 评论(0) 推荐(0) 编辑

BP 神经网络
摘要:BP(Back Propagation)网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。 一个... 阅读全文

posted @ 2013-11-24 16:29 代码王子 阅读(310) 评论(0) 推荐(0) 编辑

shell脚本调用python脚本的路径问题
摘要:脚本的相互调用中,只有在同一级目录下才可以使用__file__参数去获取路径名,(在shell里使用pwd也同样),否则,使用的就是主文件(最开始运行的脚本程序)的所在位置,是错误路径:一定要注意当期那运行主文件是谁 而 shell脚本相互调用时路径也要注意部分命令会使用当前文件路径:参见 ... 阅读全文

posted @ 2013-11-22 18:07 代码王子 阅读(714) 评论(0) 推荐(0) 编辑

shell脚本里面相互调用时路径不要用pwd获取
摘要:shellA调用shellB,如果shellB 里面需要使用路径作为变量,去寻找其它文件。那么要注意,不用pwd,其返回的是系统中用户当前所在位置的路径,也就是shellA的路径,这样就错了。应该用dirname $0,找出当前执行文件的路劲。 场景: 脚本 observerReport.s... 阅读全文

posted @ 2013-11-22 17:51 代码王子 阅读(752) 评论(0) 推荐(1) 编辑

粒子滤波(PF:Particle Filter)
摘要:先介绍概念:来自百科粒子滤波指:通过寻找一组在状态空间中传播的随机样本来近似的表示概率密度函数,再用样本均值代替积分运算,进而获得系统状态的最小方差估计的过程,波动最小,这些样本被形象的称为“粒子”,故而叫粒子滤波。 粒子滤波(PF: Particle Filter)的思想基于蒙特卡洛方法(Mon... 阅读全文

posted @ 2013-11-21 17:52 代码王子 阅读(944) 评论(0) 推荐(0) 编辑

BT币(金融有风险,投资需谨慎)哥的失败投资
摘要:谁都知道bt币是一个旁氏骗局, 而进去的人,就必须保证自己不赔钱,所以只能随着大潮往前走,谁也不能让它跌 压垮骆驼的最后一根稻草, 还是幕后有个 推手, 在炒作 BT币, 事实上,作为新的投资项目,BT币安全机制健全,但经济运行模式全是新的。 网上有人说它可能会成为郁金香第二。 我只是 期待 最... 阅读全文

posted @ 2013-11-21 15:57 代码王子 阅读(552) 评论(0) 推荐(0) 编辑

深入Lucene索引机制
摘要:Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙。 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程,就是按照全文检索的基本过程,将倒排表写成此文件格式的过程。 Lucene的搜索过程,就是按... 阅读全文

posted @ 2013-11-20 18:19 代码王子 阅读(270) 评论(0) 推荐(0) 编辑

linux的link命令
摘要:sudo ln -s 源文件 目标文件 sudo ln -s /usr/local/mysql/bin/mysqladmin /sbin/mysqladmin 建立软连接 ln -d existfile newfile这是 建立硬链接。 参 数: -b或--backup #删除,覆盖... 阅读全文

posted @ 2013-11-20 17:08 代码王子 阅读(884) 评论(0) 推荐(0) 编辑

git stash
摘要:当在本地开发一段时间后,突然有了变动,比如想修复一个bug,但是本地新开发的代码不想上传,为了保持线上稳定性。这是,用stash 暂存当前工作,回到git库上最近一次的提交,等完成动作后,再恢复到开发时的状态,继续工作。 首先,添加所有当前以开发的变动:git add . 然后保存改动,... 阅读全文

posted @ 2013-11-19 19:09 代码王子 阅读(160) 评论(0) 推荐(0) 编辑

“云计算将给中国带来1千万工作岗位”,我们准备好了吗?
摘要:在未来几年,2015年云计算将会带来1400万个工作岗位,其中大约有1000万在中国。我们要看看云计算带来的1.1万亿收入,在欧洲,预计到2020年2%的GDP将来自于云计算创新。 第十五届中国国际高新技术成果交易会——新一代信息技术峰会17日在深圳市会展中心举行。亚洲云计算协会总裁达尔伯格表示... 阅读全文

posted @ 2013-11-19 17:34 代码王子 阅读(145) 评论(0) 推荐(0) 编辑

脚本自动化 ant
摘要:用ant,shell下也可以用make。 1,ant 是一个自动化编译工具,安装使用。 2,编写build.xml,核心,写明进行哪些操作,删,建,编译,javac,java等,从例子可以看出每个操作都有固定格式,各种语言都有自己的包,下载安装,即可调用对应的api(按格式添加对应参数,执行即可... 阅读全文

posted @ 2013-11-19 11:31 代码王子 阅读(146) 评论(0) 推荐(0) 编辑

测试驱动开发TDD(test drive development)
摘要:classpath,路径列表。告诉java需要加载类的存放位置, java会去搜寻。这种机制实现了动态加载。 java -cp 加载类路径 执行类名 : 加载类路径可是绝对,也可以相对。 代码重构机制:1,保证没有重复 2,干净,有表现力,能清楚知道意图。 如 一,去除不必要的局部变... 阅读全文

posted @ 2013-11-18 16:42 代码王子 阅读(235) 评论(0) 推荐(0) 编辑

IDE
摘要:IDE(Integrated Development Environment,集成开发环境)。DE集成开发环境(简称IDE)软件是用于程序开发环境的应用程序,一般包括代码编辑器、编译器、调试器和图形用户界面工具。该程序可以独立运行,也可以和其它程序并用。例如,BASIC语言在微软办公软件中可... 阅读全文

posted @ 2013-11-18 10:50 代码王子 阅读(226) 评论(0) 推荐(0) 编辑

重看《中国合伙人》
摘要:程序让自己编的麻木了,直到有一天,看到了《中国合伙人》。。。(以下内容摘抄与互联网,红色的是最受感触的一些句子。很多是曾经明白的,但是又忘记了,现在是时候重温了。) 1、想一千次,不如去做一次。华丽的跌倒,胜过无谓的徘徊。 2、谁伤害过你,谁击溃过你,都不重要。重要的是谁让你重现笑容。... 阅读全文

posted @ 2013-11-16 21:26 代码王子 阅读(156) 评论(0) 推荐(0) 编辑

编辑距离
摘要:1.Levenshtein distance(以下简称L氏距离)。 此距离由Levenshtein 于1965年定义,在这个定义体系中有三种原子操作:insertion,deletion,substitution(出处见论文《BINARY CODES CAPABLE OF CORRECTING,... 阅读全文

posted @ 2013-11-15 18:58 代码王子 阅读(144) 评论(0) 推荐(0) 编辑

Apache Hadoop 2.0.2-alpha
摘要:原文出处http://hadoop.apache.org/docs/r2.0.2-alpha/hadoop-yarn/hadoop-yarn-site/Federation.html HDFSF分为2层 namespace和block storage Namespace 由... 阅读全文

posted @ 2013-11-15 16:10 代码王子 阅读(129) 评论(0) 推荐(0) 编辑

hadoop的节点间的通信
摘要:一个DataNode上的Block是唯一的,多个DataNode可能有相同的Block。 2)通信场景: (1)NameNode的映射表上不永久保存每个DataNode所对应的block信息,而是通过DataNode启动时的上报,来更新NameNode上的映射表(DataNode和Block)。... 阅读全文

posted @ 2013-11-15 16:05 代码王子 阅读(454) 评论(0) 推荐(0) 编辑

基于SVMLight的文本分类
摘要:支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本 、非线性及高维模式识别 中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小 原理基础上的... 阅读全文

posted @ 2013-11-13 09:51 代码王子 阅读(245) 评论(0) 推荐(0) 编辑

伽马贝塔函数
摘要:在数理方程、概率论等学科经常遇到以下的含参变量的积分 , 它们依次为第一类和第二类欧拉(Euler 1707~1783 瑞士数学家)积分,或依次称为贝塔(Bata)函数和伽马(Gamma)函数,这一节主要讨论这两个函数的若干性质。 11.3.1 伽马函数 显然,我们... 阅读全文

posted @ 2013-11-13 09:50 代码王子 阅读(3543) 评论(0) 推荐(0) 编辑

LDA
摘要:2 Latent Dirichlet Allocation Introduction LDA是给文本建模的一种方法,它属于生成模型。生成模型是指该模型可以随机生成可观测的数据,LDA可以随机生成一篇由N个主题组成文章。通过对文本的建模,我们可以对文本进行主题分类,判断相似度等。在90年代... 阅读全文

posted @ 2013-11-13 09:50 代码王子 阅读(360) 评论(0) 推荐(0) 编辑

雅克比旋转
摘要:在数值线性代数中,雅可比旋转是n 维内积空间的二维线性子空间的旋转Qkℓ,在用做相似变换的时候,被选择来置零n×n 实数对称矩阵A 的非对角元素的对称对: 它是雅可比特征值算法的核心运算,它是数值上稳定的并适合用并行计算实现。 注意到只有 A 的行 k 和 ℓ 与列 k 和 ℓ 受到影响,... 阅读全文

posted @ 2013-11-13 09:50 代码王子 阅读(519) 评论(0) 推荐(0) 编辑

矩阵分解
摘要:LU分解 一个可逆矩阵可以进行LU分解当且仅当它的所有子式都非零。如果要求其中的L矩阵(或U矩阵)为单位三角矩阵,那么分解是唯一的。同理可知,矩阵的LDU可分解条件也相同,并且总是唯一的。 即使矩阵不可逆,LU仍然可能存在。实际上,如果一个秩为k的矩阵的前k个顺序主子式不为零,那么它就可以... 阅读全文

posted @ 2013-11-13 09:49 代码王子 阅读(572) 评论(0) 推荐(0) 编辑

SoftMax regression
摘要:最终收敛到这个结果,巨爽。 smaple 0: 0.983690,0.004888,0.011422,likelyhood:-0.016445 smaple 1: 0.940236,0.047957,0.011807,likelyhood:-0.061625 smaple 2: 0.8181... 阅读全文

posted @ 2013-11-13 09:49 代码王子 阅读(199) 评论(0) 推荐(0) 编辑

推荐系统框架
摘要:在推荐系统简介中,我们给出了推荐系统的一般框架。很明显,推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。 一、基于内容推荐 基于内容的推荐(Conten... 阅读全文

posted @ 2013-11-13 09:49 代码王子 阅读(153) 评论(0) 推荐(0) 编辑

SVD在推荐系统中的应用
摘要:其实说参考也不准确,准确地说应该是半翻译半学习笔记。 仔细整理一遍,感觉还是收获很大的。 线性代数相关知识: 任意一个M*N的矩阵A(M行*N列,M>N),可以被写成三个矩阵的乘机: 1.U:(M行M列的列正交矩阵) 2.S:(M*N的对角线矩阵,矩阵元素非负) 3.V:(N*N的正交矩阵的... 阅读全文

posted @ 2013-11-13 09:49 代码王子 阅读(194) 评论(0) 推荐(0) 编辑

Slop One 算法
摘要:Slope One 算法是由 Daniel Lemire 教授在 2005 年提出的一个 Item-Based 推荐算法。 Slope One 算法试图同时满足这样的的 5 个目标: 易于实现和维护:普通工程师可以轻松解释所有的聚合数据,并且算法易于实现和测试。运行时可更新的:新增一个评分... 阅读全文

posted @ 2013-11-13 09:48 代码王子 阅读(317) 评论(0) 推荐(0) 编辑

吉文斯旋转
摘要:在数值线性代数中,吉文斯旋转(Givens rotation)是在两个坐标轴所展开的平面中的旋转。吉文斯旋转得名于华莱士·吉文斯,他在 1950 年代工作于阿贡国家实验室时把它介入到数值分析中。 目录 1矩阵表示2稳定计算3参见4引用 矩阵表示 吉文斯旋转表示为如下形式的矩阵 这里... 阅读全文

posted @ 2013-11-13 09:48 代码王子 阅读(808) 评论(0) 推荐(0) 编辑

MinHash
摘要:1.概述 跟SimHash一样,MinHash也是LSH的一种,可以用来快速估算两个集合的相似度。MinHash由Andrei Broder提出,最初用于在搜索引擎中检测重复网页。它也可以应用于大规模聚类问题。 2.Jaccard index 在介绍Mi... 阅读全文

posted @ 2013-11-13 09:48 代码王子 阅读(226) 评论(0) 推荐(0) 编辑

MinHash 原理
摘要:最小哈希原理介绍 MinHash是基于Jaccard Index相似度(海量数据不可行)的算法,一种降维的方法A,B 两个集合:A = {s1, s3, s6, s8, s9} B = {s3, s4, s7, s8, s10}MinHash的基本原理:在A∪B这个大的随机域里,选中的元素落... 阅读全文

posted @ 2013-11-13 09:48 代码王子 阅读(722) 评论(0) 推荐(0) 编辑

Mahout SlopOne
摘要:关于推荐引擎 如今的互联网中,无论是电子商务还是社交网络,对数据挖掘的需求都越来越大了,而推荐引擎正是数据挖掘完美体现;通过分析用户历史行为,将他可能喜欢内容推送给他,能产生相当好的用户体验,这就是推荐引擎。 推荐算法Slope one的原理 首先Slope on... 阅读全文

posted @ 2013-11-13 09:47 代码王子 阅读(121) 评论(0) 推荐(0) 编辑

svd++
摘要:SVD++ refers to amatrix factorization model which makes use of implicit feedback information.In general, implicit feedback can refer to any kinds ... 阅读全文

posted @ 2013-11-13 09:47 代码王子 阅读(371) 评论(0) 推荐(0) 编辑

Hadoop家族
摘要:现在Hadoop家族产品,已经达到20个了之多。 有必要对自己的知识做一个整理了,把产品和技术都串起来。不仅能加深印象,更可以对以后的技术方向,技术选型做好基础准备。 本文为“Hadoop家族”开篇,Hadoop家族学习路线图 目录 Hadoop家族产品Hadoop家族学习路线图 1. Had... 阅读全文

posted @ 2013-11-13 09:47 代码王子 阅读(141) 评论(0) 推荐(0) 编辑

基于内容的推荐
摘要:Collaborative Filtering Recommendations (协同过滤,简称CF) 是目前最流行的推荐方法,在研究界和工业界得到大量使用。但是,工业界真正使用的系统一般都不会只有CF推荐算法,Content-based Recommendations (CB) 基本也会是... 阅读全文

posted @ 2013-11-13 09:47 代码王子 阅读(146) 评论(0) 推荐(0) 编辑

Netflix Recommendations
摘要:by Xavier Amatriain and Justin Basilico (Personalization Science and Engineering) In part one of this blog post, we detailed the different compo... 阅读全文

posted @ 2013-11-13 09:46 代码王子 阅读(187) 评论(0) 推荐(0) 编辑

SlopOne 改进
摘要:lope One 其基本的想法来自于简单的一元线性模型 $w = f(v) = v + b$。已知一组训练点 ${(v_i, w_i)}_{i=1}^n$,利用此线性模型最小化预测误差的平方和,我们可以获得 利用上式获得了$b$的取值后,对于新的数据点$v_{new}$,我们可以利用 $w... 阅读全文

posted @ 2013-11-13 09:46 代码王子 阅读(72) 评论(0) 推荐(0) 编辑

LDA实现
摘要:topic model本质上就一个套路,在doc-word user-url user-doc等关系中增加topic层,扩充为2层结构,一方面可以降维,另一方面挖掘深层次的关系,用户doc word user url的聚类。 LDA的理论知识不介绍太多,基本就讲了原理以及推导两个内容,原理比较简... 阅读全文

posted @ 2013-11-13 09:46 代码王子 阅读(789) 评论(0) 推荐(0) 编辑

Gibbs sampling
摘要:In statistics and in statistical physics, Gibbs sampling or a Gibbs sampler is aMarkov chain Monte Carlo (MCMC) algorithm for obtaining a sequenc... 阅读全文

posted @ 2013-11-13 09:45 代码王子 阅读(483) 评论(0) 推荐(0) 编辑

淘宝推荐系统
摘要:一、推荐系统概念 1、推荐系统定义 维基百科:推荐系统属于资讯过滤的一种应用。推荐系统能够将可能受喜好的资讯或实物(例如:电影、电视节目、音乐、书籍、新闻、图片、网页)推荐给使用者。 推荐系统大体可分为两类,即个性化推荐和非个性化推荐。 2、推荐系统作用 从用户角度: 提高用户忠诚度帮助用户快... 阅读全文

posted @ 2013-11-12 21:11 代码王子 阅读(1054) 评论(0) 推荐(0) 编辑

Netflix公布个性化和推荐系统架构
摘要:Netflix的推荐和个性化功能向来精准,前不久,他们公布了自己在这方面的系统架构。 3月27日,Netflix的工程师Xavier Amatrain和Justin Basilico在官方博客发布文章,介绍了自己的个性化和推荐系统架构。文章开头,他们指出: 要开发出这样的一个软件架构,能够处理... 阅读全文

posted @ 2013-11-12 21:09 代码王子 阅读(218) 评论(0) 推荐(0) 编辑

18种典型算法
摘要:18 Candidates for the Top 10 Algorithms in Data MiningClassification============== #1. C4.5Quinlan, J. R. 1993. C4.5: Programs for Machine Learning.... 阅读全文

posted @ 2013-11-12 21:06 代码王子 阅读(309) 评论(0) 推荐(0) 编辑

幂法和反幂法
摘要:一、 幂法 1. 幂法 幂法是一种计算矩阵主特征值(矩阵按模最大的特征值)及对应特征向量的迭代方法, 特别是用于大型稀疏矩阵。 设实矩阵A=[aij]n×n 有一个完全的特征向量组,其特征值为λ1 ,λ2 ,…,λn,相应的特征向量为x1 ,x2 ,…,xn.已知A的主特... 阅读全文

posted @ 2013-11-12 21:01 代码王子 阅读(1496) 评论(0) 推荐(0) 编辑

最大流
摘要:图-1 如图-1所示,在这个运输网络中,源点S和汇点T分别是1,7,各边的容量为C(u,v)。图中红色虚线所示就是一个可行流。标准图示法如图-2所示: 其中p(u,v) / c(u,v)分别表示该边的实际流量与最大容量。 关于最大流 熟悉了什么是网络流,最大流也就很... 阅读全文

posted @ 2013-11-12 20:59 代码王子 阅读(147) 评论(0) 推荐(0) 编辑

SVM
摘要:1 简介 支持向量机基本上是最好的有监督学习算法了。最开始接触SVM是去年暑假的时候,老师要求交《统计学习理论》的报告,那时去网上下了一份入门教程,里面讲的很通俗,当时只是大致了解了一些相关概念。这次斯坦福提供的学习材料,让我重新学习了一些SVM知识。我看很多正统的讲法都是从VC 维理论和结构风... 阅读全文

posted @ 2013-11-12 20:38 代码王子 阅读(151) 评论(0) 推荐(0) 编辑

回归分析方法比较
摘要:1 摘要 本报告是在学习斯坦福大学机器学习课程前四节加上配套的讲义后的总结与认识。前四节主要讲述了回归问题,回归属于有监督学习中的一种方法。该方法的核心思想是从连续型统计数据中得到数学模型,然后将该数学模型用于预测或者分类。该方法处理的数据可以是多维的。 讲义最初介绍了一... 阅读全文

posted @ 2013-11-12 20:35 代码王子 阅读(640) 评论(0) 推荐(0) 编辑

判别模型、生成模型和朴素贝叶斯模型
摘要:1判别模型与生成模型 上篇报告中提到的回归模型是判别模型,也就是根据特征值来求结果的概率。形式化表示为,在参数确定的情况下,求解条件概率。通俗的解释为在给定特征后预测结果出现的概率。 比如说要确定一只羊是山羊还是绵羊,用判别模型的方法是先从历史数据中学习到模型,然后通过提取这只羊的特征来预测出... 阅读全文

posted @ 2013-11-12 20:34 代码王子 阅读(313) 评论(0) 推荐(0) 编辑

规则化和模型选择
摘要:1 问题 模型选择问题:对于一个学习问题,可以有多种模型选择。比如要拟合一组样本点,可以使用线性回归,也可以用多项式回归。那么使用哪种模型好呢(能够在偏差和方差之间达到平衡最优)? 还有一类参数选择问题:如果我们想使用带权值的回归模型,那么怎么选择权重w公式里的参数? ... 阅读全文

posted @ 2013-11-12 20:33 代码王子 阅读(145) 评论(0) 推荐(0) 编辑

高斯混合模型和EM算法
摘要:使用期望最大化算法(Expectation-Maximization)来进行密度估计(density estimation)。 与k-means一样,给定的训练样本是,我们将隐含类别标签用表示。与k-means的硬指定不同,我们首先认为是满足一定的概率分布的,这里我们认为满足多项式分... 阅读全文

posted @ 2013-11-12 20:32 代码王子 阅读(314) 评论(0) 推荐(0) 编辑

在线学习
摘要:原题目叫做The perception and large margin classifiers,其实探讨的是在线学习。这里将题目换了换。以前讨论的都是批量学习(batch learning),就是给了一堆样例后,在样例上学习出假设函数h。而在线学习就是要根据新来的样例,边学习,边给出结果。 ... 阅读全文

posted @ 2013-11-12 20:31 代码王子 阅读(176) 评论(0) 推荐(0) 编辑

线性判别分析(一)
摘要:1. 问题 之前我们讨论的PCA、ICA也好,对样本数据来言,可以是没有类别标签y的。回想我们做回归时,如果特征太多,那么会产生不相关特征引入、过度拟合等问题。我们可以使用PCA来降维,但PCA没有将类别标签考虑进去,属于无监督的。 比如回到上次提出的文档中含有“learn... 阅读全文

posted @ 2013-11-12 20:29 代码王子 阅读(1775) 评论(0) 推荐(0) 编辑

因子分析
摘要:1 问题 之前我们考虑的训练数据中样例的个数m都远远大于其特征个数n,这样不管是进行回归、聚类等都没有太大的问题。然而当训练样例个数m太小,甚至m=n+1才能保证在最大似然估计下得出的是非奇异的。然而在上面的任何一种假设限定条件下,只要m>=2都可以估计出限定的。 这样做的缺... 阅读全文

posted @ 2013-11-12 20:29 代码王子 阅读(520) 评论(0) 推荐(0) 编辑

增强学习
摘要:在之前的讨论中,我们总是给定一个样本x,然后给或者不给label y。之后对样本进行拟合、分类、聚类或者降维等操作。然而对于很多序列决策或者控制问题,很难有这么规则的样本。比如,四足机器人的控制问题,刚开始都不知道应该让其动那条腿,在移动过程中,也不知道怎么让机器人自动找到合适的前进方... 阅读全文

posted @ 2013-11-12 20:27 代码王子 阅读(182) 评论(0) 推荐(0) 编辑

典型关联分析
摘要:1. 问题 在线性回归中,我们使用直线来拟合样本点,寻找n维特征向量X和输出结果(或者叫做label)Y之间的线性关系。其中,。然而当Y也是多维时,或者说Y也有多个特征时,我们希望分析出X和Y的关系。 当然我们仍然可以使用回归的方法来分析,做法如下: 假设,,... 阅读全文

posted @ 2013-11-12 20:27 代码王子 阅读(638) 评论(0) 推荐(0) 编辑

ICA
摘要:1. 问题: 1、上节提到的PCA是一种数据降维的方法,但是只对符合高斯分布的样本点比较有效,那么对于其他分布的样本,有没有主元分解的方法呢? 2、经典的鸡尾酒宴会问题(cocktail party problem)。假设在party中有n个人,他们可以同时说话,我们也在房... 阅读全文

posted @ 2013-11-12 20:25 代码王子 阅读(661) 评论(0) 推荐(0) 编辑

PCA
摘要:PCA(Principal Component Analysis),称主成分分析,从统计学的角度来说是一种多元统计方法。PCA通过将多个变量通过线性变换以选出较少的重要变量。它往往可以有效地从过于“丰富”的数据信息中获取最重要的元素和结构,去除数据的噪音和冗余,将原来复杂的数据降维,揭... 阅读全文

posted @ 2013-11-12 20:22 代码王子 阅读(243) 评论(0) 推荐(0) 编辑

LDA主题模型
摘要:(一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。 举个例子,有两个句子分别如下: ... 阅读全文

posted @ 2013-11-12 16:46 代码王子 阅读(364) 评论(0) 推荐(0) 编辑

FPGrowth 实现
摘要:在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支,韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。 支持度和置信度 严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频繁... 阅读全文

posted @ 2013-11-12 15:29 代码王子 阅读(314) 评论(0) 推荐(0) 编辑

数据库事务的4个特性ACID
摘要:原子性(Atomicity[ætə'mɪsɪti])原型atomic、一致性(Consistency)、隔离性(Isolation)、持久性(Durability) 阅读全文

posted @ 2013-11-12 14:51 代码王子 阅读(104) 评论(0) 推荐(0) 编辑

redis简介(keeper实时报表的基本部分)
摘要:网上有一篇介绍Redis的文章,由浅入深地讲解了Redis:http://blog.mjrusso.com/2010/10/17/redis-from-the-ground-up.html。强烈建议对Redis有兴趣或需要使用的朋友阅读这篇文章。 提到Redis,第一反应就是内存k/v缓存,并且... 阅读全文

posted @ 2013-11-12 14:16 代码王子 阅读(193) 评论(0) 推荐(0) 编辑

HADOOP中的CRC数据校验文件
摘要:Hadoop系统为了保证数据的一致性,会对文件生成相应的校验文件(.crc文件),并在读写的时候进行校验,确保数据的准确性。在本地find -name *.crc -print 看 比如我们遇到的这个Case: 执行的命令: hadoop jar dw-hadoop-2010_7_... 阅读全文

posted @ 2013-11-12 13:58 代码王子 阅读(241) 评论(0) 推荐(0) 编辑

潜在语义分析
摘要:1 LSA Introduction LSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法... 阅读全文

posted @ 2013-11-11 17:40 代码王子 阅读(647) 评论(0) 推荐(0) 编辑

AdaBoost 算法
摘要:AdaBoost算法针对不同的训练集训练同一个基本分类器(弱分类器),然后把这些在不同训练集上得到的分类器集合起来,构成一个更强的最终的分类器(强分类器)。理论证明,只要每个弱分类器分类能力比随机猜测要好,当其个数趋向于无穷个数时,强分类器的错误率将趋向于零。AdaBoost算法中不同的训练集是... 阅读全文

posted @ 2013-11-11 17:40 代码王子 阅读(107) 评论(0) 推荐(0) 编辑

网页正文提取
摘要:目前互联网上公布出来的正文提取算法,大家可以综合比较下,一起来测试下哪个更好用。 词网--北京词网科技有限公司http://demo.cikuu.com/cgi-bin/cgi-contex 猎兔网页正文提取 http://www.lietu.com/extract/ PHP版网页正文提取htt... 阅读全文

posted @ 2013-11-11 17:40 代码王子 阅读(356) 评论(0) 推荐(0) 编辑

最小二乘法
摘要:最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。 利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。 最小二乘法还可用于曲线拟合。 其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。 目... 阅读全文

posted @ 2013-11-11 17:40 代码王子 阅读(380) 评论(0) 推荐(0) 编辑

桶排序
摘要:桶排序 (Bucket sort)或所谓的箱排序,是一个排序算法,工作的原理是将阵列分到有限数量的桶子里。每个桶子再个别排序(有可能再使用别的排序算法或是以递回方式继续使用桶排序进行排序)。桶排序是鸽巢排序的一种归纳结果。当要被排序的阵列内的数值是均匀分配的时候,桶排序使用线性时间(Θ(n)... 阅读全文

posted @ 2013-11-11 17:39 代码王子 阅读(218) 评论(0) 推荐(0) 编辑

HMM模型
摘要:HMM有三个典型(canonical)问题: 已知模型参数,计算某一特定输出序列的概率.通常使用forward算法解决. 已知模型参数,寻找最可能的能产生某一特定输出序列的隐含状态的序列.通常使用Viterbi算法解决. 已知输出序列,寻找最可能的状态转移以及输出概率.通常使用Baum-Wel... 阅读全文

posted @ 2013-11-11 17:39 代码王子 阅读(113) 评论(0) 推荐(0) 编辑

谱聚类
摘要:1. 谱聚类 给你博客园上若干个博客,让你将它们分成K类,你会怎样做?想必有很多方法,本文要介绍的是其中的一种——谱聚类。 聚类的直观解释是根据样本间相似度,将它们分成不同组。谱聚类的思想是将样本看作顶点,样本间的相似度看作带权的边,从而将聚类问题转为图分割问题:找到一种... 阅读全文

posted @ 2013-11-11 17:39 代码王子 阅读(205) 评论(0) 推荐(0) 编辑

PageRank
摘要:1. PageRank算法概述 PageRank,即网页排名,又称网页级别、Google左侧排名或佩奇排名。 是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法,自从Google在商业上获得空前的成功后,该算法也... 阅读全文

posted @ 2013-11-11 17:39 代码王子 阅读(544) 评论(0) 推荐(0) 编辑

FPGrowth
摘要:在挖掘关联规则的过程中,无可避免要处理海量的数据,也就是事务数据库如此之大,如果采用Apriori算法来挖掘,每次生成频繁k-项集的时候,可能都需要扫描事务数据库一遍,这是非常耗时的操作。那么,可以想尽办法来减少扫描事务数据库的次数,来改进挖掘频繁关联规则的效率。 FP-tree是频繁模式树,... 阅读全文

posted @ 2013-11-11 17:38 代码王子 阅读(962) 评论(0) 推荐(0) 编辑

Aprior算法
摘要:在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库。于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支,韩嘉炜老师的FP-Tree算法就是其中非常高效的一种。 支持度和置信度 严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频... 阅读全文

posted @ 2013-11-11 17:38 代码王子 阅读(405) 评论(0) 推荐(0) 编辑

BP神经网络
摘要:BP(Back Propagation)网络是1986年由Rumelhart和McCelland为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP网络能学习和存贮大量的输入-输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。 一个... 阅读全文

posted @ 2013-11-11 17:38 代码王子 阅读(213) 评论(0) 推荐(0) 编辑

ANN实现
摘要:ANN核心数据结构: typedef struct { int input_n; /* number of input units */ int hidden_n; /* number of hidden ... 阅读全文

posted @ 2013-11-11 17:38 代码王子 阅读(362) 评论(0) 推荐(0) 编辑

人工神经网络模型种类
摘要:人工神经网络有40多种,其中比较著名的有反传网络、感知器、自组织映射、Hopfield网络、波耳兹曼机、适应谐振理论等。 参考: http://wenku.baidu.com/link?url=oE3BXB1aXx6Cgmc45EkK-XPjkErNnKc3oAj5S... 阅读全文

posted @ 2013-11-11 17:37 代码王子 阅读(612) 评论(0) 推荐(0) 编辑

最小二乘拟合
摘要:本文对最小二乘拟合直线中出现的问题,当直线垂直时参数无法求出,使用ax+by+c=0或者p=xcos(a)+ysin(a)计算量会增加,针对这种情况,本算做了修正可以判断直线垂直情况。 [cpp] view plaincopy //最小二乘法直线拟合ay = kx +... 阅读全文

posted @ 2013-11-11 17:37 代码王子 阅读(187) 评论(0) 推荐(0) 编辑

LDA主体模型
摘要:一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。 举个例子,有两个句子分别如下: ... 阅读全文

posted @ 2013-11-11 17:37 代码王子 阅读(106) 评论(0) 推荐(0) 编辑

Logistic Regression求解classification问题
摘要:classification问题和regression问题类似,区别在于y值是一个离散值,例如binary classification,y值只取0或1。 方法来自Andrew Ng的Machine Learning课件的note1的PartII,Classification... 阅读全文

posted @ 2013-11-11 17:37 代码王子 阅读(136) 评论(0) 推荐(0) 编辑

batch gradient descent(批量梯度下降) 和 stochastic gradient descent(随机梯度下降)
摘要:批量梯度下降是一种对参数的update进行累积,然后批量更新的一种方式。用于在已知整个训练集时的一种训练方式,但对于大规模数据并不合适。 随机梯度下降是一种对参数随着样本训练,一个一个的及时update的方式。常用于大规模训练集,当往往容易收敛到局部最优解。 详细参见:Andrew Ng 的M... 阅读全文

posted @ 2013-11-11 17:36 代码王子 阅读(201) 评论(0) 推荐(0) 编辑

SVM实验
摘要:说明: 1)α2=0表示第二个样例不在分类面上,在分类面上的点αi均不为零。 2)二次项矩阵,可以通过矩阵相乘相加方法得到,如上例 3)目标函数变为负值,是为了照顾matlab的标准型。 假定应用多项式核(核方法) 样本使用此前的样本。 ... 阅读全文

posted @ 2013-11-11 17:36 代码王子 阅读(164) 评论(0) 推荐(0) 编辑

SMO实现
摘要:#include "stdio.h" #include using namespace std; float function(float alfa[5],float H[5][5],float sign[5]) { float ret = alfa[0]+alfa[1]+... 阅读全文

posted @ 2013-11-11 17:36 代码王子 阅读(281) 评论(0) 推荐(0) 编辑

EM实现
摘要:以下是实验设计 设计一个一维的数据,14个数据,7个成一组,一个高斯分布,整体数据隐含了2个高斯分布。 系统最初给出第一个数属于z0的概率0.9,最后一个数属于在z1的概率0.9,其余数据不可判定。 迭代到最后,自动识别前7个数属于z0,后7个数属于z1。 实验代码 includ... 阅读全文

posted @ 2013-11-11 17:35 代码王子 阅读(284) 评论(0) 推荐(0) 编辑

/dev/null 2>&1的意思(可以直接参考shell重定向那篇,/dev/null是空设备)
摘要:路还长 别太狂 以后指不定谁辉煌 2>&1 和 &> 的解释 Linux的IO输入输出有三类 Standard Input 代码 0 Standard Output 代码 1 Standard Error 代码 2 ls thereisno 1> out.txt 标准输出重定向 也可以不加1写... 阅读全文

posted @ 2013-11-11 11:21 代码王子 阅读(175) 评论(0) 推荐(0) 编辑

前缀树
摘要:在计算机科学中,trie,又称前缀树,是一种有序树,用于保存关联数组,其中的键通常是字符串。与二叉查找树不同,键不是直接保存在节点中,而是由节点在树中的位置决定。一个节点的所有子孙都有相同的前缀,也就是这个节点对应的字符串,而根节点对应空字符串。一般情况下,不是所有的节点都有对应的值,只有叶子节... 阅读全文

posted @ 2013-11-10 22:34 代码王子 阅读(247) 评论(0) 推荐(0) 编辑

SMO
摘要:序列最小优化算法(英语:Sequential minimal optimization, SMO)是一种用于解决支持向量机训练过程中所产生优化问题的算法。SMO由微软研究院的约翰·普莱特(John Platt)发明于1998年,目前被广泛使用于SVM的训练过程中,并在通行的SVM库libsvm中... 阅读全文

posted @ 2013-11-10 22:31 代码王子 阅读(425) 评论(0) 推荐(0) 编辑

逻辑回归
摘要:初步接触 谓LR分类器(Logistic Regression Classifier),并没有什么神秘的。在分类的情形下,经过学习之后的LR分类器其实就是一组权值w0,w1,...,wm. 当测试样本集中的测试数据来到时,这一组权值按照与测试数据线性加和的方式,求出一个z值: z = w0+... 阅读全文

posted @ 2013-11-10 22:29 代码王子 阅读(258) 评论(0) 推荐(0) 编辑

EM算法
摘要:1.一般概念介绍 最大期望算法(Expectation-maximization algorithm,又译期望最大化算法)在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。 在统计计算中,最大期望(EM)算法是在概率(probabilistic)模型中寻找参数最大似... 阅读全文

posted @ 2013-11-10 22:28 代码王子 阅读(483) 评论(0) 推荐(0) 编辑

决策树
摘要:一、简介 决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。 数据挖掘中决... 阅读全文

posted @ 2013-11-10 22:27 代码王子 阅读(204) 评论(0) 推荐(0) 编辑

KNN算法
摘要:K-最邻近算法总结 1.基本介绍 K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别... 阅读全文

posted @ 2013-11-10 22:26 代码王子 阅读(219) 评论(0) 推荐(0) 编辑

贝叶斯方法
摘要:1. 历史 托马斯·贝叶斯(Thomas Bayes)同学的详细生平在这里。以下摘一段 wikipedia 上的简介: 所谓的贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在贝 叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“... 阅读全文

posted @ 2013-11-10 22:24 代码王子 阅读(651) 评论(0) 推荐(0) 编辑

决策树和决策森林
摘要:前言: 决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时,单决策树又有一些不好的地方,比如说容易over-fitting,虽然有一些方法,如剪枝可以减少这种情况,但是还是不够的。 模型组... 阅读全文

posted @ 2013-11-10 22:21 代码王子 阅读(1891) 评论(0) 推荐(0) 编辑

SVD
摘要:一、奇异值与特征值基础知识: 特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法。两者有着很紧密的关系,我在接下来会谈到,特征值分解和奇异值分解的目的都是一样,就是提取出一个矩阵最重要的特征。先谈谈特征值分解吧: 1)特征值: 如果说一个向量v是方阵A的特征向量,将... 阅读全文

posted @ 2013-11-10 22:19 代码王子 阅读(202) 评论(0) 推荐(0) 编辑

Boosting 和梯度Boosting
摘要:Boosting方法: Boosting这其实思想相当的简单,大概是,对一份数据,建立M个模型(比如分类),一般这种模型比较简单,称为弱分类器(weak learner)每次分类都将上一次分错的数据权重提高一点再进行分类,这样最终得到的分类器在测试数据与训练数据上都可以得到比较好的成绩。... 阅读全文

posted @ 2013-11-10 22:18 代码王子 阅读(356) 评论(0) 推荐(0) 编辑

LDA和PCA
摘要:LDA: LDA的全称是Linear Discriminant Analysis(线性判别分析),是一种supervised learning。有些资料上也称为是Fisher’s Linear Discriminant,因为它被Ronald Fisher发明自1936年,Discrimi... 阅读全文

posted @ 2013-11-10 22:16 代码王子 阅读(244) 评论(0) 推荐(0) 编辑

SVM算法
摘要:一、线性分类器: 首先给出一个非常非常简单的分类问题(线性可分),我们要用一条直线,将下图中黑色的点和白色的点分开,很显然,图上的这条直线就是我们要求的直线之一(可以有无数条这样的直线) 假如说,我们令黑色的点 = -1, 白色的点 = +1,直线f(x) = w.x + b... 阅读全文

posted @ 2013-11-10 22:14 代码王子 阅读(229) 评论(0) 推荐(0) 编辑

B+树
摘要:B+树 B+ 树是一种树数据结构,通常用于数据库和操作系统的文件系统中。B+ 树的特点是能够保持数据稳定有序,其插入与修改拥有较稳定的对数时间复杂度。B+ 树元素自底向上插入,这与二叉树恰好相反。 B+ 树在节点访问时间远远超过节点内部访问时间的时候,比可作为替代的实现有着实在的优势。这通常在... 阅读全文

posted @ 2013-11-10 21:58 代码王子 阅读(176) 评论(0) 推荐(0) 编辑

摘要:二叉树 二叉查找树(BST) 笛卡尔树 MVP树 Top tree T树 自平衡二叉查找树 AA树 AVL树 左倾红黑树 红黑树 替罪羊树 伸展树 树堆 节点大小平衡树 ... 阅读全文

posted @ 2013-11-10 21:54 代码王子 阅读(94) 评论(0) 推荐(0) 编辑

梯度下降法
摘要:梯度下降法,基于这样的观察:如果实值函数 在点 处可微且有定义,那么函数 在 点沿着梯度相反的方向 下降最快。 因而,如果 对于 为一个够小数值时成立,那么 。 考虑到这一点,我们可以从函数 的局部极小值的初始估计 出发,并考虑如下序列 使得 因此可得到 如果顺利的话... 阅读全文

posted @ 2013-11-10 21:36 代码王子 阅读(164) 评论(0) 推荐(0) 编辑

维特比算法
摘要:维特比算法 维特比算法(Viterbi algorithm)是一种动态规划算法。它用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列,特别是在马尔可夫信息源上下文和隐马尔可夫模型中。 术语“维特比路径”和“维特比算法”也被用于寻找观察结果最有可能解释相关的动态规划算法。例如在统计句法... 阅读全文

posted @ 2013-11-10 21:31 代码王子 阅读(655) 评论(0) 推荐(0) 编辑

分治法
摘要:分治法 简介 对于一个规模为n的问题,若该问题可以容易地解决(比如说规模n较小)则直接解决,否则将其分解为k个规模较小的子问题,这些子问题互相独立且与原问题形式相同,递归地解这些子问题,然后将各子问题的解合并得到原问题的解。这种算法设计策略叫做分治法。 分治法的基本思想 任何一个可以用计算机求... 阅读全文

posted @ 2013-11-10 21:22 代码王子 阅读(343) 评论(0) 推荐(0) 编辑

动态规划
摘要:动态规划 本文介绍了动态规划的基本思想和基本步骤,通过实例研究了利用动态规划设计算法的具体途径,讨论了动态规划的一些实现技巧,并将动态规划和其他一些算法作了比较,最后还简单介绍了动态规划的数学理论基础和当前最新的研究成果。 引言——由一个问题引出的算法 考虑以下问题 [例1]最短路径问题 现有... 阅读全文

posted @ 2013-11-10 19:05 代码王子 阅读(467) 评论(0) 推荐(0) 编辑

hadoop学习视频
摘要:杨尚川的视频 http://www.tudou.com/plcover/EvJCo2zl9hQ/ 酷6视频 http://v.ku6.com/show/8PkgqGcarHKndyP3rl_pUw...html?nr=1 优酷hadoop专辑 ... 阅读全文

posted @ 2013-11-10 13:29 代码王子 阅读(79) 评论(0) 推荐(0) 编辑

hadoop学习大纲
摘要: 阅读全文

posted @ 2013-11-10 13:08 代码王子 阅读(121) 评论(0) 推荐(0) 编辑

Java深拷贝浅拷贝
摘要:首先,Java中常用的拷贝操作有三个,operator = 、拷贝构造函数 和 clone()方法。由于Java不支持运算符重载,我们无法在自己的自定义类型中定义operator=。拷贝构造函数大家应该很熟悉,现在看一下如何支持clone方法: 实现 Cloneable接口,因为 ... 阅读全文

posted @ 2013-11-09 16:29 代码王子 阅读(173) 评论(0) 推荐(0) 编辑

HBase写数据
摘要:1 多HTable并发写 创建多个HTable客户端用于写操作,提高写数据的吞吐量,一个例子: static final Configuration conf = HBaseConfiguration.create(); static final String table_log_name ... 阅读全文

posted @ 2013-11-09 16:11 代码王子 阅读(170) 评论(0) 推荐(0) 编辑

HBase性能调优
摘要:因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。 配置优化 zookeeper.session.timeout 默认值:3分钟(180000ms) 说明:R... 阅读全文

posted @ 2013-11-09 16:08 代码王子 阅读(99) 评论(0) 推荐(0) 编辑

HBase压缩
摘要:Hbase有两种压缩 策略:minor和major。Minor compactions通常选择几个临近的小的storefiles把他们重写成一个。Minors 不会丢掉已删除或者过期的cells,只有major compactions才会做这些。有时一次Minor compactions将... 阅读全文

posted @ 2013-11-09 16:06 代码王子 阅读(412) 评论(0) 推荐(0) 编辑

HBASE表设计
摘要:1. 表的设计 1.1 Pre-Creating Regions 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这 个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些... 阅读全文

posted @ 2013-11-09 16:05 代码王子 阅读(173) 评论(0) 推荐(0) 编辑

Mapreduce 框架解析
摘要:MapReduce过程解析 一、客户端 Map-Reduce的过程首先是由客户端提交一个任务开始的。 public static RunningJob runJob(JobConf job) throws IOException { //首先生成一个JobClient对象 ... 阅读全文

posted @ 2013-11-09 15:56 代码王子 阅读(220) 评论(0) 推荐(0) 编辑

HDFS读写数据过程
摘要:一、文件的打开 1.1、客户端 HDFS打开一个文件,需要在客户端调用DistributedFileSystem.open(Path f, int bufferSize),其实现为: public FSDataInputStream open(Path f, int bufferSi... 阅读全文

posted @ 2013-11-09 15:50 代码王子 阅读(885) 评论(0) 推荐(0) 编辑

Hadoop 数据排序(一)
摘要:1、概述 1TB排序通常用于衡量分布式数据处理框架的数据处理能力。Terasort是Hadoop中的的一个排序作业。那么Terasort在Hadoop中是怎样实现的呢?本文主要从算法设计角度分析Terasort作业。 2、算法思想 实 际上,当我们要把传统的串行排序算法设计成并行的排序算法时,... 阅读全文

posted @ 2013-11-09 15:41 代码王子 阅读(299) 评论(0) 推荐(0) 编辑

排序算法
摘要:排序算法有很多,所以在特定情景中使用哪一种算法很重要。为了选择合适的算法,可以按照建议的顺序考虑以下标准: (1)执行时间 (2)存储空间 (3)编程 对于数据量较小的情形,(1)(2)差别不大,主要考虑(3);而对于数据量大的,(1)为首要。 主要排序法有: ... 阅读全文

posted @ 2013-11-09 15:33 代码王子 阅读(210) 评论(0) 推荐(0) 编辑

Weka 算法大全
摘要:关联规则挖掘 (一) Apriori (二) FilteredAssociator (三) FPGrowth (四) GeneralizedSequentislPatterns (五) PredictiveApriori (六) Tertius Cluster (一) ... 阅读全文

posted @ 2013-11-09 15:30 代码王子 阅读(482) 评论(0) 推荐(0) 编辑

Mahout系列之----kmeans 聚类
摘要:Kmeans是最经典的聚类算法之一,它的优美简单、快速高效被广泛使用。 Kmeans算法描述 输入:簇的数目k;包含n个对象的数据集D。 输出:k个簇的集合。 方法: 从D中任意选择k个对象作为初始簇中心;repeat;根据簇中对象的均值,将每个对象指派到最相似的簇;更新簇均值,即计算每个簇... 阅读全文

posted @ 2013-11-09 14:32 代码王子 阅读(175) 评论(0) 推荐(0) 编辑

Mahout 系列之--canopy 算法
摘要:Canopy 算法,流程简单,容易实现,一下是算法 (1)设样本集合为S,确定两个阈值t1和t2,且t1>t2。 (2)任取一个样本点p属于S,作为一个Canopy,记为C,从S中移除p。 (3)计算S中所有点到p的距离dist (4)若dist<t1,则将相应点归到C,作为弱关联。 (5)若... 阅读全文

posted @ 2013-11-09 14:07 代码王子 阅读(270) 评论(0) 推荐(0) 编辑

Mahout系列之-----相似度
摘要:Mahout推荐系统中有许多相似度实现,这些组件实现了计算不能User之间或Item之间的相似度。对于数据量以及数据类型不同的数据源,需要不同的相似度计算方法来提高推荐性能,在mahout提供了大量用于计算相似度的组件,这些组件分别实现了不同的相似度计算方。 User 相似度: ... 阅读全文

posted @ 2013-11-09 13:08 代码王子 阅读(240) 评论(0) 推荐(0) 编辑

Mahout系列之----距离度量
摘要:x = (x1,...,xn) 和y = (y1,...,yn) 之间的距离为 (1)欧氏距离 EuclideanDistanceMeasure (2)曼哈顿距离 ManhattanDistanceMeasure (3)马氏距离MahalanobisDi... 阅读全文

posted @ 2013-11-09 13:01 代码王子 阅读(205) 评论(0) 推荐(0) 编辑

Mahout系列之----共轭梯度预处理
摘要:对于大型矩阵,预处理是很重要的.常用的预处理方法有: (1) 雅克比预处理 (2)块状雅克比预处理 (3)半LU 分解 (4... 阅读全文

posted @ 2013-11-09 12:21 代码王子 阅读(218) 评论(0) 推荐(0) 编辑

Mahout 系列之----共轭梯度
摘要:无预处理共轭梯度 要求解线性方程组 ,稳定双共轭梯度法从初始解 开始按以下步骤迭代: 任意选择向量 使得 ,例如, 对 若 足够精确则退出 预处理共轭梯度 预处理通常被用来加速迭代方法的收敛。要使用预处理子 来求解线性方程组 ,预处理稳定双共轭... 阅读全文

posted @ 2013-11-08 17:58 代码王子 阅读(253) 评论(0) 推荐(0) 编辑

git使用详解
摘要:1. Git概念 1.1. Git库中由三部分组成 Git 仓库就是那个.git 目录,其中存放的是我们所提交的文档索引内容,Git 可基于文档索引内容对其所管理的文档进行内容追踪,从而实现文档的版本控制。.git目录位于工作目录内。 1)工作目录:用户本地的目录; 2) Index(索引... 阅读全文

posted @ 2013-11-08 17:38 代码王子 阅读(148) 评论(0) 推荐(0) 编辑

Hive 配置
摘要:hive.metastore.local false javax.jdo.option.ConnectionURL jdbc:mysql://hadoop23:3306/hive?createDatabaseIfNotExist=true&amp;useUnicode... 阅读全文

posted @ 2013-11-08 17:35 代码王子 阅读(185) 评论(0) 推荐(0) 编辑

Lucene 自动补全
摘要:package com.pera.suggestion; import java.io.IOException; import java.io.Reader; import java.util.ArrayList; import java.util.HashMap; import java.... 阅读全文

posted @ 2013-11-08 17:20 代码王子 阅读(299) 评论(0) 推荐(0) 编辑

my project 中git使用过程(基本操作流程)
摘要:1.g it clone git@name:server/BM/APPS.git 则BM_APPS.git项目被下载到当前目录下了,这时git@name:server/BM/APPS.git就是自己的origin库。 2.为自己的仓库定义别名 为方便以后操作,可给... 阅读全文

posted @ 2013-11-08 17:05 代码王子 阅读(242) 评论(0) 推荐(0) 编辑

hadoop 部署和调优
摘要:一、集群安装 1.在所有的机器上建立相同的用户名,如:hadoop。 $adduser hadoop $passwd hadoop 2.在/etc/hosts中添加机器名和IP hadoop... 阅读全文

posted @ 2013-11-08 17:04 代码王子 阅读(265) 评论(0) 推荐(0) 编辑

机器学习常用算法
摘要:一、分类算法 (一)贝叶斯 (二)决策树 ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ和SPRINT (三)神经网络 (四)SVM (五)KNN (六)Bagging 和Boosting (七)最大熵 (八)Logistic 回归 ... 阅读全文

posted @ 2013-11-08 17:01 代码王子 阅读(182) 评论(0) 推荐(0) 编辑

Mahout 算法
摘要:Mahout 包括协同过滤,基于User和Item的推荐;kmeans、Fuzzy-kmeans 、Mean shift 、Dirichlet process 、LDA聚类;奇异值分解;并行频繁项集挖掘;补充的贝叶斯分类、随机森林决策树分类。 一、分类算法 (一)Logistic 回归(SGD... 阅读全文

posted @ 2013-11-08 16:59 代码王子 阅读(197) 评论(0) 推荐(0) 编辑

hadoop学习要点
摘要:一、HDFS (一)HDFS 概念 (二)HDFS命令行接口 (三)Java 接口 (四)文件读取和文件写入,一致性 (五)集群数据的均衡 (六)存档 (七)NameNode 单点故障问题 (八)大量小文件处理策略 (九)数据备份和恢复 (十)数据安全 (十一)负载均衡和... 阅读全文

posted @ 2013-11-08 16:57 代码王子 阅读(134) 评论(0) 推荐(0) 编辑

自然语言处理中的若干问题
摘要:一、语言模型 (一)N元语言模型 (二)语言模型性能评价 (三)数据平滑 (四)语言模型自适应方法 二、汉语自动分词和词性标注 (一)基本分词方法 (二)未登陆词处理方法 (三)基于多特征的命名实体模型 (四)词性标注 (五)词性标注的一致性检查和自动校对 三、句法分... 阅读全文

posted @ 2013-11-08 16:51 代码王子 阅读(202) 评论(0) 推荐(0) 编辑

hadoop上C++开发两种方式的例子
摘要:百度在使用Hadoop过程中同样发现了Hadoop因为Java语言带来的低效问题,并对Hadoop进行扩展。 而在此之前,百度也尝试了 Hadoop PIPES 和 Hadoop Streamming,但是发现这些问题: - 这两种方案都无法很好地控制Child JVM(Map TaskTra... 阅读全文

posted @ 2013-11-07 18:53 代码王子 阅读(860) 评论(0) 推荐(0) 编辑

hadoop上的C++程序开发
摘要:hadoop可以用C++开发,命令运行方式为pipes,例子:hadoop pipes -conf job_config.xml -input input/myfile.txt -output output -program bin/wordcount 另外,还有一种streaming方式(?)... 阅读全文

posted @ 2013-11-07 18:48 代码王子 阅读(257) 评论(0) 推荐(0) 编辑

some phrase for oral english
摘要:依我看,在我看来 I suppose that, ... As far as i'm concerned, ... As i see it, ... It seems to me that ... 1.In my opinion, ... 2.In my view, ... 4.... 阅读全文

posted @ 2013-11-07 18:31 代码王子 阅读(166) 评论(0) 推荐(0) 编辑

python的安装,IDLE基本操作
摘要:§一、安装Python 1. 下载Active Python安装包 根据你机器型号download Python,32b选择for windows X86,64b选择for window 64b 2. 运行,安装,成功 §二、程序执行 3. 打开IDLE(python GUI),输入简单脚... 阅读全文

posted @ 2013-11-06 14:36 代码王子 阅读(1317) 评论(0) 推荐(0) 编辑

of这个变态
摘要:英式口语还能听懂,一到美式,连读,爆破,就让人疯掉。 尤其big bang theory, of就是个变态,其读法有,英[əv, əv, v, f] 美[əv, ɑv,əv]。但大部分都是/əv/。 而且经常省略 如:照顾他”是take care of him(这里of就发得很不明显,基本上只有... 阅读全文

posted @ 2013-11-06 14:21 代码王子 阅读(175) 评论(0) 推荐(0) 编辑

一分钟先生: 程序员面试真经
摘要:看见万兴所以就分享了,这是我本科毕业后签的第一家软件公司,当时感觉好累啊,所以就读研去了,没有去。现在才发现其实相对轻松了。 作为面试官,在面试程序员时,都会关注哪些问题?而程序员应该从哪些方面做好面试的准备?本期话题相信对面试官和程序员都会有所启示。 刘秋伟 深圳市万兴软件有限公司研发总... 阅读全文

posted @ 2013-11-06 13:42 代码王子 阅读(271) 评论(0) 推荐(0) 编辑

shell的字符串和数字的转化(数字自动做字符串处理,变量名做字符串输出用单引号)
摘要:shell里面怎么样把字符串转换为数字? 例如:a="024" 1,用${{a}} 2,用let达到(()) 运算效果。 let num=0123; echo $num; 83 3,双括号运算符: a=$((1+2)); echo $a; 等同于: a=`expr 1 + 2` 而数字... 阅读全文

posted @ 2013-11-05 15:03 代码王子 阅读(14698) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示