摘要: 详见: http://www.geekfan.net/8107/ 或 http://www.jianshu.com/p/09a3bbb8b362 阅读全文
posted @ 2017-03-05 22:08 一人浅醉- 阅读(380) 评论(0) 推荐(0) 编辑
摘要: 写好博文后,点击"文件" --- "共享" --- "发布至博客",如下图所示 如果没有博客账户,会提示注册,点击注册,填写相关信息,如图所示: 然后就大功造成了!!! 阅读全文
posted @ 2017-03-05 19:55 一人浅醉- 阅读(1106) 评论(1) 推荐(0) 编辑
摘要: 参考:http://blog.csdn.net/wengengeng/article/details/52013650 阅读全文
posted @ 2017-03-05 18:28 一人浅醉- 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 参考原文: 《http://blog.csdn.net/veson__/article/details/53898890》 阅读全文
posted @ 2017-02-22 10:35 一人浅醉- 阅读(512) 评论(0) 推荐(0) 编辑
摘要: 参考原文:《关于SimpleDateFormat安全的时间格式化线程安全问题》 阅读全文
posted @ 2017-02-22 10:18 一人浅醉- 阅读(1665) 评论(0) 推荐(0) 编辑
摘要: 直接上代码: 其中sortResult方法里对Traversable[(K,V)]类型的集合使用了reduceByKey方法,这个方法是自行封装的,使用时需要导入,代码如下: 阅读全文
posted @ 2017-01-20 18:00 一人浅醉- 阅读(2643) 评论(0) 推荐(0) 编辑
摘要: Pregel是个强大的基于图的迭代算法,也是Spark中的一个迭代应用aggregateMessage的典型案例,用它可以在图中方便的迭代计算,如最短路径、关键路径、n度关系等。然而对于之前对图计算接触不多的童鞋来说,这个api还算是一个比较重量组的接口,不太容易理解。 Spark中的Pregel定义如下: def pregel[A: ClassTag]( initialMsg: A,... 阅读全文
posted @ 2017-01-19 17:36 一人浅醉- 阅读(3303) 评论(0) 推荐(0) 编辑
摘要: 为什么之前的MapReduce系统比较慢 常理上有几个理由使得MapReduce框架慢于MPP数据库: 容错所引入的昂贵数据实体化(data materialization)开销。 孱弱的数据布局(data layout),比如缺少索引。 执行策略的开销[1 2]。 而我们对于Hive的实验也进一步证明了上述的理由,但是通过对Hive“工程上”的改进,如改变存储引擎(内存存储引擎)、改善执行... 阅读全文
posted @ 2017-01-17 11:48 一人浅醉- 阅读(3088) 评论(0) 推荐(0) 编辑
摘要: 关系计算问题描述 二度关系是指用户与用户通过关注者为桥梁发现到的关注者之间的关系。目前微博通过二度关系实现了潜在用户的推荐。用户的一度关系包含了关注、好友两种类型,二度关系则得到关注的关注、关注的好友、好友的关注、好友的好友四种类型。 如果要为全站亿级用户根据二度关系和四种桥梁类型推荐桥梁权重最高 TopN 个用户,大致估算了下总关系量在千亿级别,按照原有的 Mapreduce 模式计算整个二度关... 阅读全文
posted @ 2017-01-17 11:38 一人浅醉- 阅读(3888) 评论(1) 推荐(0) 编辑
摘要: 参考: https://github.com/JerryLead/SparkInternals/blob/master/markdown/english/5-Architecture.md?winzoom=1 相关文献: 《Spark源码分析之Storage模块》 《详细探究Spark的shuffl 阅读全文
posted @ 2017-01-17 11:37 一人浅醉- 阅读(285) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2017-01-15 18:57 一人浅醉- 阅读(4) 评论(0) 推荐(0) 编辑
摘要: 一、快速打开Action: Ctrl+Shift+A 列表中会列出所有的action,对应于idea的各种操作,例如: 输入backgroud,可以为编辑器设置背景 输入restclient,可以打开restclient替代postman执行http请求操作 输入ssh,可以打开一个ssh会话 action中的东西很多,可以慢慢发掘… 二、配置项目管理服务器 如添加JIRA服务器: Ctrl+... 阅读全文
posted @ 2017-01-04 12:02 一人浅醉- 阅读(7022) 评论(0) 推荐(0) 编辑
摘要: 关于Parquet的详细介绍,请参考: 新一代列式存储格式Parquet,此文中对Parquet做了详细的介绍,这里不做重复介绍,但其中关于Definition Level(DL)和Repeated Level(RL)部分,比较难懂,这里做一个更加方便易懂的总结。 对DL和RL的理解,最好是文中的关 阅读全文
posted @ 2016-12-31 18:00 一人浅醉- 阅读(846) 评论(0) 推荐(0) 编辑
摘要: 方法一:使用vbs启动,新建一个vbs脚本,内容如下: set ws=WScript.CreateObject("WScript.Shell") ws.Run "test.cmd",0 方法二:将程序注册成windows服务,详情见:将bat文件或exe程序注册成windows服务 阅读全文
posted @ 2016-12-25 00:56 一人浅醉- 阅读(6261) 评论(0) 推荐(1) 编辑
摘要: 命令行使用sc命令.关于sc命令的详解,请自行查看帮助(sc /?),在此只简单提及如何加入系统服务功能.加入服务:sc create ServiceName binPath= 路径 start= auto(等号后面的空格必须)删除服务:sc delete ServiceName例一:将Tomcat 阅读全文
posted @ 2016-12-25 00:39 一人浅醉- 阅读(49416) 评论(4) 推荐(0) 编辑
摘要: 1.下载hadoop-2.7.2.tar.gz 2.解压到D:\hadoop\ 3.配置HADOOP_HOME环境变量 4.将%HADOOP_HOME%\bin目录添加到path环境变量中 5.配置JAVA_HOME环境变量,注意路径不要带空格 6.下载hadoop-common-bin工具包(注意 阅读全文
posted @ 2016-12-24 22:29 一人浅醉- 阅读(721) 评论(0) 推荐(0) 编辑
摘要: Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。 在大数据系统中,常常会碰到一个问题,整个大数据是由各个子系统组成,数据需要在各个子系统中高性能,低延迟的不停流转。传统的企业消息系统并不是非常适合大规模的数据处理。为了已在同时搞定在线应用(消息)和... 阅读全文
posted @ 2016-12-19 14:00 一人浅醉- 阅读(22319) 评论(1) 推荐(0) 编辑
摘要: RDD 优点: 编译时类型安全编译时就能检查出类型错误 面向对象的编程风格直接通过类名点的方式来操作数据 缺点: 序列化和反序列化的性能开销无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化. GC的性能开销频繁的创建和销毁对象, 势必会增加GCimport org.apache.spark.sql.SQLContext import org.apache.sp... 阅读全文
posted @ 2016-12-14 20:11 一人浅醉- 阅读(1428) 评论(0) 推荐(0) 编辑
摘要: 图的集合视图 图信息接口 缓存方法 节点与边的变换操作 修改图结构操作 图join操作 在邻边上聚合信息 VertexRDD与RDD有一个明显的区别是,VertexRDD的key不重复,而RDD的key可以重复 aggregateUsingIndex函数的作用类似于reduceByKey,如vert 阅读全文
posted @ 2016-12-13 19:05 一人浅醉- 阅读(2256) 评论(0) 推荐(0) 编辑
摘要: 步骤: sudo apt-get install xinetd telnetd 安装成功后,系统会显示有相应得提示 sudo vim /etc/inetd.conf 并加入内容: telnet stream tcp nowait telnetd /usr/sbin/tcpd /usr/sbin/in 阅读全文
posted @ 2016-11-27 18:45 一人浅醉- 阅读(2658) 评论(0) 推荐(0) 编辑
摘要: LInux原始的防火墙工具iptables由于过于繁琐,所以ubuntu系统默认提供了一个基于iptable之上的防火墙工具ufw。而UFW支持图形界面操作,只需在命令行运行ufw命令即能看到一系列的操作。接下来,就由专业运营香港服务器、美国服务器、韩国服务器等国外服务器的天下数据为大家介绍ubuntu系统防火墙的开启、关闭等常规操作命令。 启用ufwsudo ufw enablesudo ufw... 阅读全文
posted @ 2016-11-27 17:40 一人浅醉- 阅读(230) 评论(0) 推荐(0) 编辑
摘要: 问题: 参考:Spark快速入门指南 – Spark安装与基础使用 阅读全文
posted @ 2016-11-27 01:27 一人浅醉- 阅读(166) 评论(0) 推荐(0) 编辑
摘要: 实验性操作是在虚拟机里进行的,除了搭建hadoop本身的操作之外,遇到的其它问题总结如下: 1. 虚拟机挂载windows磁盘: 添加硬件,要保证该硬件此时没有被读写访问等,因为挂载后,该磁盘在宿主机上就不能用了。启动虚拟机linux,执行 fdisk –l 查看windows磁盘的分区,如/dev 阅读全文
posted @ 2016-11-27 01:26 一人浅醉- 阅读(2475) 评论(0) 推荐(0) 编辑
摘要: linux使用rz和sz命令上传和下载文件! sz命令发送文件到本地: # sz filename rz命令本地上传文件到服务器: # rz 执行该命令后,在弹出框中选择要上传的文件即可。 说明:打开SecureCRT软件 -> Options -> session options -> X/Y/Z 阅读全文
posted @ 2016-11-21 17:29 一人浅醉- 阅读(948) 评论(0) 推荐(0) 编辑
摘要: 参考文档 阅读全文
posted @ 2016-11-19 20:15 一人浅醉- 阅读(143) 评论(0) 推荐(0) 编辑
摘要: 调用文件系统(FS)Shell命令应使用bin/hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。URI路径详解点击这里。 1、cat 说明:将路径指定文件的内容输出到stdout。用法:hadoop fs -cat URI [URI …]范例:hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:port2/fi... 阅读全文
posted @ 2016-11-17 19:26 一人浅醉- 阅读(2259) 评论(0) 推荐(0) 编辑
摘要: 使用lzop命令解压并查看 :lzop -cd xxx.lzo |more 附压缩命令:lzop xxx.log (生成xxx.log.lzo) 其它参数: 需要在机器上安装lzop后才能使用命令,参考:http://cyibeike.blog.163.com/blog/static/2111257 阅读全文
posted @ 2016-11-17 16:26 一人浅醉- 阅读(9671) 评论(0) 推荐(0) 编辑
摘要: 获取默认配置 配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到core-default.xm... 阅读全文
posted @ 2016-11-17 15:40 一人浅醉- 阅读(9752) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2016-11-16 16:43 一人浅醉- 阅读(184) 评论(0) 推荐(0) 编辑
摘要: skldfsdf Javaawtetwetwetwetwe testse Javaestestset 阅读全文
posted @ 2016-11-16 11:48 一人浅醉- 阅读(1019) 评论(1) 推荐(0) 编辑