会员
周边
新闻
博问
闪存
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
dalu610
博客园
首页
新随笔
联系
管理
订阅
上一页
1
2
3
下一页
2016年3月18日
Gradient boosting
摘要: Gradient boostin是一个机器学习技术,可以用来分类和线性回归。通过集成一些弱的预测模型来生成一个预测模型。通常是决策树。 它像其他boosting方法一样通过阶段性的建立模型。它允许对可微的损失函数的优化。
阅读全文
posted @ 2016-03-18 14:42 dalu610
阅读(118)
评论(0)
推荐(0)
2016年3月17日
自定义Writable
摘要: package com.elong; import org.apache.hadoop.io.Text; import org.apache.hadoop.io.WritableComparable; import java.io.DataInput; import java.io.DataOutp
阅读全文
posted @ 2016-03-17 16:19 dalu610
阅读(441)
评论(0)
推荐(0)
Writable collections
摘要: org.apache.hadoop.io包包含了6个Writable collection类型: ArrayWritable,TwoDArrayWritable是Writable实现了数组和二维数组的实例。所有的元素都必须是一个相同类的实例: ArrayWritable writable = new ArrayWritable(Text.class); ArrayPrimitiveWri...
阅读全文
posted @ 2016-03-17 15:07 dalu610
阅读(140)
评论(0)
推荐(0)
Writable Interface
摘要: import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; /** * Created by user on 16/3/17. */ public interface Writable { void write(DataOutput out) throws IOException;...
阅读全文
posted @ 2016-03-17 11:45 dalu610
阅读(260)
评论(0)
推荐(0)
2016年3月16日
Stream groupings
摘要:
阅读全文
posted @ 2016-03-16 20:48 dalu610
阅读(156)
评论(0)
推荐(0)
storm
摘要: hadoop跑的是MapReduce job 而对于storm集群跑的是拓扑任务,MapReduce任务可以完成,但一个拓扑任务会一直进行下去,除非你kill它。 storm也有master和work节点,master叫Nimbus,work节点称之为Supervisor。 storm的核心抽象时流,流是一个无界的元组序列。storm提供原函数(primitives)操作,可靠的分布式的使一个...
阅读全文
posted @ 2016-03-16 16:34 dalu610
阅读(127)
评论(0)
推荐(0)
2016年3月9日
事务
摘要: 事务(Transaction)是数据库区别文件系统的重要特性之一。 事务会吧数据从一种一致的状态转换为另一种一致的状态。要么修改都保存,要么都不保存 事务完全符合ACID的特性: 原子性(atomicity),整个数据库事务是不可分割的工作单位。 一致性(consistency) 隔离性(isola
阅读全文
posted @ 2016-03-09 10:34 dalu610
阅读(112)
评论(0)
推荐(0)
2016年3月7日
序列化(Serialization)
摘要: 一直对序列化这块比较迷糊,也比较感兴趣。 序列化(Serialization)是将结构化对象转换为字节流数据用来在网络中传输,或者写到持久话存储(persistent storage)。 反序列化(Deserialization)是一个相反的过程,将字节流数据转换为一系列的结构化对象。(这点,一直不
阅读全文
posted @ 2016-03-07 19:20 dalu610
阅读(290)
评论(0)
推荐(0)
2016年3月4日
Hadoop I/O
摘要: Hadoop配备了一套的基本数据I/O操作,例如数据的压缩,数据完成行。但由于需要考虑大数据的问题,hadoop也自己开发了例如序列化框架,在磁盘的数据结构 数据完整性,通常使用计算一个checksum,在原始数据和之后的数据传输中,通常使用CRC-32,HDFS使用更高效的方法CRC-32C 在h
阅读全文
posted @ 2016-03-04 19:24 dalu610
阅读(188)
评论(0)
推荐(0)
YARN调度
摘要: 理想的世界,一个YARN应用请求将会立刻得到授予。而现实世界,资源是受限制的,在一个忙碌的集群中,一个应用经常需要等待他请求的资源。YARN调度负责这个事情,分配资源给应用通过一些方式定义。调度是一个困难的问题也没有所谓最好的方法。 YARN有三种调度,FIFO,Capacity,Fair Sche
阅读全文
posted @ 2016-03-04 15:35 dalu610
阅读(223)
评论(0)
推荐(0)
上一页
1
2
3
下一页
公告