上一页 1 ··· 15 16 17 18 19 20 21 22 23 ··· 127 下一页

2015年12月14日

Hadoop环境共享

摘要: 最近花了很长时间搭载了Hadoop生态系统环境,其中包含Spark,Hive,HBase等,将环境压缩成一个压缩包,现在分享给大家,亲测可用虚拟机镜像链接1.下载解压后直接用VMVare打开(有点大,7个多G)2.虚拟机登录密码为liu 3.打开终端,输入:su 然后输入密码:l... 阅读全文

posted @ 2015-12-14 09:48 爱你一万年123 阅读(112) 评论(0) 推荐(0) 编辑

2015年12月9日

TFS(Taobao File System)安装办法

摘要: TFS(Taobao File System)是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统,主要针对海量的非结构化数据,它构筑在普通的Linux机器 集群上,可为外部提供高可靠和高并发的存储访问。TFS为淘宝提供海量小文件存储,通常文件大小不超过1M,满足了淘宝对... 阅读全文

posted @ 2015-12-09 11:46 爱你一万年123 阅读(1111) 评论(0) 推荐(0) 编辑

2015年12月6日

Hadoop的HA机制

摘要: NameNode是HDFS集群的单点故障,每一个集群只有一个NameNode,如果这个机器或进程不可用,整个集群就无法使用,直到重启NameNode或者新启动一个NameNode节点 影响HDFS集群不可用主要包括以下两种情况 - 类似机器宕机这样的意外情况将导致集群不可用,只有重... 阅读全文

posted @ 2015-12-06 08:52 爱你一万年123 阅读(207) 评论(0) 推荐(0) 编辑

2015年12月4日

从源码中分析Hadoop的RPC机制

摘要: RPC是Remote Procedure Call(远程过程调用)的简称,这一机制都要面对两个问题 对象调用方式;序列/反序列化机制在此之前,我们有必要了解什么是架构层次的协议。通俗一点说,就是我把某些接口和接口中的方法称为协议,客户端和服务端只要实现这些接口中的方法就可以进行通信... 阅读全文

posted @ 2015-12-04 13:50 爱你一万年123 阅读(183) 评论(0) 推荐(0) 编辑

2015年12月1日

一个完整的MapReduce程序

摘要: 最近初学Hadoop,仿照参考书上编写了一个wordcount程序,本文主要解决运行过程中出现的一些问题,下边先看一下这个项目。 项目结构 WordMapper类package wordcount;import java.io.IOException;import java.ut... 阅读全文

posted @ 2015-12-01 14:18 爱你一万年123 阅读(276) 评论(0) 推荐(0) 编辑

2015年11月30日

数据挖掘中分类与预测的区别

摘要: 分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。 第一步:建立训练集的分类器 第二步:首先评估分类器的预测准确率,再对新数据预测其类标号 b)预测可以涉及数据值预测和类标记预测,但预测通常指值预测。... 阅读全文

posted @ 2015-11-30 16:55 爱你一万年123 阅读(393) 评论(0) 推荐(0) 编辑

大数据基本概念及Hadoop技术基础

摘要: This article is from Teacher Ren courseware , which summarizes the basic concept of Big Data, related technologies and Hadaop technical basi... 阅读全文

posted @ 2015-11-30 16:07 爱你一万年123 阅读(170) 评论(0) 推荐(0) 编辑

2015年11月28日

基于 ReliefF和K-means算法的应用

摘要: 数据挖掘方法的提出,让人们有能力最终认识数据的真正价值,即蕴藏在数据中的信息和知识。数据挖掘 (DataMiriing),指的是从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息,数据挖掘是目前国际上,数据库和信息决策领域的最前沿研究方向之一。因... 阅读全文

posted @ 2015-11-28 23:32 爱你一万年123 阅读(824) 评论(0) 推荐(0) 编辑

2015年11月27日

利用Hadoop和Spark处理用户心跳周期数据

摘要: 数据源:可穿戴设备的实时数据分析。1.txt记录的是某一个用户的心跳周期数据,每一个数值表示一次心跳的周期,单位是秒。例如,0.8表示用户当时的心跳间隙是0.8秒。心跳间期按照顺序存储 MapReduce框架编写程序计算出总测量时间和平均心跳间期,即求和与求平均。请写出程序,并在实... 阅读全文

posted @ 2015-11-27 10:44 爱你一万年123 阅读(527) 评论(0) 推荐(0) 编辑

2015年11月9日

Java线程池源码解析及高质量代码案例

摘要: 引言本文为Java高级编程中的一些知识总结,其中第一章对Jdk 1.7.0_25中的多线程架构中的线程池ThreadPoolExecutor源码进行架构原理介绍以及源码解析。第二章则分析了几个违反Java高质量代码案例以及相应解决办法。如有总结的不好的地方,欢迎大家提出宝贵的意见和... 阅读全文

posted @ 2015-11-09 14:46 爱你一万年123 阅读(464) 评论(0) 推荐(0) 编辑

上一页 1 ··· 15 16 17 18 19 20 21 22 23 ··· 127 下一页

导航