一人浅醉-

摘要： Pregel是个强大的基于图的迭代算法，也是Spark中的一个迭代应用aggregateMessage的典型案例，用它可以在图中方便的迭代计算，如最短路径、关键路径、n度关系等。然而对于之前对图计算接触不多的童鞋来说，这个api还算是一个比较重量组的接口，不太容易理解。 Spark中的Pregel定义如下： def pregel[A: ClassTag]( initialMsg: A,... 阅读全文

posted @ 2017-01-19 17:36 一人浅醉- 阅读(3365) 评论(0) 推荐(0)

2017年1月17日

传统的MapReduce框架慢在那里

摘要：为什么之前的MapReduce系统比较慢常理上有几个理由使得MapReduce框架慢于MPP数据库：容错所引入的昂贵数据实体化(data materialization)开销。孱弱的数据布局(data layout)，比如缺少索引。执行策略的开销[1 2]。而我们对于Hive的实验也进一步证明了上述的理由，但是通过对Hive“工程上”的改进，如改变存储引擎(内存存储引擎)、改善执行... 阅读全文

posted @ 2017-01-17 11:48 一人浅醉- 阅读(3129) 评论(0) 推荐(0)

基于Spark GraphX计算二度关系

摘要：关系计算问题描述二度关系是指用户与用户通过关注者为桥梁发现到的关注者之间的关系。目前微博通过二度关系实现了潜在用户的推荐。用户的一度关系包含了关注、好友两种类型，二度关系则得到关注的关注、关注的好友、好友的关注、好友的好友四种类型。如果要为全站亿级用户根据二度关系和四种桥梁类型推荐桥梁权重最高 TopN 个用户，大致估算了下总关系量在千亿级别，按照原有的 Mapreduce 模式计算整个二度关... 阅读全文

posted @ 2017-01-17 11:38 一人浅醉- 阅读(3960) 评论(1) 推荐(0)

Spark内部结构详解

摘要：参考： https://github.com/JerryLead/SparkInternals/blob/master/markdown/english/5-Architecture.md?winzoom=1 相关文献：《Spark源码分析之Storage模块》《详细探究Spark的shuffl 阅读全文

posted @ 2017-01-17 11:37 一人浅醉- 阅读(300) 评论(0) 推荐(0)

2017年1月15日

Intellij IDEA插件开发教程

该文被密码保护。阅读全文

posted @ 2017-01-15 18:57 一人浅醉- 阅读(4) 评论(0) 推荐(0)

2017年1月4日

Idea高级用法

摘要：一、快速打开Action: Ctrl+Shift+A 列表中会列出所有的action，对应于idea的各种操作，例如：输入backgroud，可以为编辑器设置背景输入restclient，可以打开restclient替代postman执行http请求操作输入ssh，可以打开一个ssh会话 action中的东西很多，可以慢慢发掘… 二、配置项目管理服务器如添加JIRA服务器： Ctrl+... 阅读全文

posted @ 2017-01-04 12:02 一人浅醉- 阅读(7083) 评论(0) 推荐(0)

2016年12月31日

快速理解Parquet的DL和RL

摘要：关于Parquet的详细介绍，请参考：新一代列式存储格式Parquet，此文中对Parquet做了详细的介绍，这里不做重复介绍，但其中关于Definition Level(DL)和Repeated Level(RL)部分，比较难懂，这里做一个更加方便易懂的总结。对DL和RL的理解，最好是文中的关阅读全文

posted @ 2016-12-31 18:00 一人浅醉- 阅读(979) 评论(0) 推荐(0)

2016年12月25日

windows下后台运行程序

摘要：方法一：使用vbs启动，新建一个vbs脚本，内容如下： set ws=WScript.CreateObject("WScript.Shell") ws.Run "test.cmd",0 方法二：将程序注册成windows服务，详情见：将bat文件或exe程序注册成windows服务阅读全文

posted @ 2016-12-25 00:56 一人浅醉- 阅读(6311) 评论(0) 推荐(1)

将bat文件或exe程序注册成windows服务

摘要：命令行使用sc命令.关于sc命令的详解,请自行查看帮助(sc /?),在此只简单提及如何加入系统服务功能.加入服务:sc create ServiceName binPath= 路径 start= auto(等号后面的空格必须)删除服务:sc delete ServiceName例一：将Tomcat 阅读全文

posted @ 2016-12-25 00:39 一人浅醉- 阅读(50346) 评论(4) 推荐(0)

2016年12月24日

windows下运行hadoop2.7.2

摘要： 1.下载hadoop-2.7.2.tar.gz 2.解压到D:\hadoop\ 3.配置HADOOP_HOME环境变量 4.将%HADOOP_HOME%\bin目录添加到path环境变量中 5.配置JAVA_HOME环境变量，注意路径不要带空格 6.下载hadoop-common-bin工具包(注意阅读全文

posted @ 2016-12-24 22:29 一人浅醉- 阅读(770) 评论(0) 推荐(0)

2016年12月19日

Kafka介绍

摘要： Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发，之后成为Apache项目的一部分。Kafka是一个分布式的，可划分的，冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。在大数据系统中，常常会碰到一个问题，整个大数据是由各个子系统组成，数据需要在各个子系统中高性能，低延迟的不停流转。传统的企业消息系统并不是非常适合大规模的数据处理。为了已在同时搞定在线应用（消息）和... 阅读全文

posted @ 2016-12-19 14:00 一人浅醉- 阅读(22408) 评论(1) 推荐(0)

2016年12月14日

Spark-RDD/DataFrame/DateSet

摘要： RDD 优点: 编译时类型安全编译时就能检查出类型错误面向对象的编程风格直接通过类名点的方式来操作数据缺点: 序列化和反序列化的性能开销无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化. GC的性能开销频繁的创建和销毁对象, 势必会增加GCimport org.apache.spark.sql.SQLContext import org.apache.sp... 阅读全文

posted @ 2016-12-14 20:11 一人浅醉- 阅读(1442) 评论(0) 推荐(0)

2016年12月13日

Spark-GraphxAPI学习笔记

摘要：图的集合视图图信息接口缓存方法节点与边的变换操作修改图结构操作图join操作在邻边上聚合信息 VertexRDD与RDD有一个明显的区别是，VertexRDD的key不重复，而RDD的key可以重复 aggregateUsingIndex函数的作用类似于reduceByKey，如vert 阅读全文

posted @ 2016-12-13 19:05 一人浅醉- 阅读(2281) 评论(0) 推荐(0)

2016年11月27日

linux开启telnet服务

摘要：步骤： sudo apt-get install xinetd telnetd 安装成功后，系统会显示有相应得提示 sudo vim /etc/inetd.conf 并加入内容: telnet stream tcp nowait telnetd /usr/sbin/tcpd /usr/sbin/in 阅读全文

posted @ 2016-11-27 18:45 一人浅醉- 阅读(2736) 评论(0) 推荐(0)

linux防火墙

摘要： LInux原始的防火墙工具iptables由于过于繁琐,所以ubuntu系统默认提供了一个基于iptable之上的防火墙工具ufw。而UFW支持图形界面操作,只需在命令行运行ufw命令即能看到一系列的操作。接下来,就由专业运营香港服务器、美国服务器、韩国服务器等国外服务器的天下数据为大家介绍ubuntu系统防火墙的开启、关闭等常规操作命令。启用ufwsudo ufw enablesudo ufw... 阅读全文

posted @ 2016-11-27 17:40 一人浅醉- 阅读(245) 评论(0) 推荐(0)

Spark集群搭建步骤

摘要：问题：参考：Spark快速入门指南 – Spark安装与基础使用阅读全文

posted @ 2016-11-27 01:27 一人浅醉- 阅读(181) 评论(0) 推荐(0)

Hadoop集群搭建步骤

摘要：实验性操作是在虚拟机里进行的，除了搭建hadoop本身的操作之外，遇到的其它问题总结如下： 1. 虚拟机挂载windows磁盘：添加硬件，要保证该硬件此时没有被读写访问等，因为挂载后，该磁盘在宿主机上就不能用了。启动虚拟机linux，执行 fdisk –l 查看windows磁盘的分区，如/dev 阅读全文

posted @ 2016-11-27 01:26 一人浅醉- 阅读(2492) 评论(0) 推荐(0)

2016年11月21日

Linux上传与下载(sz-rz)

摘要： linux使用rz和sz命令上传和下载文件！ sz命令发送文件到本地： # sz filename rz命令本地上传文件到服务器： # rz 执行该命令后，在弹出框中选择要上传的文件即可。说明：打开SecureCRT软件 -> Options -> session options -> X/Y/Z 阅读全文

posted @ 2016-11-21 17:29 一人浅醉- 阅读(1008) 评论(0) 推荐(0)

2016年11月19日

Spark文档

摘要：参考文档阅读全文

posted @ 2016-11-19 20:15 一人浅醉- 阅读(153) 评论(0) 推荐(0)

2016年11月17日

Hadoop基本命令详解

摘要：调用文件系统(FS)Shell命令应使用bin/hadoop fs 的形式。所有的的FS shell命令使用URI路径作为参数。URI路径详解点击这里。 1、cat 说明：将路径指定文件的内容输出到stdout。用法：hadoop fs -cat URI [URI …]范例：hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:port2/fi... 阅读全文

posted @ 2016-11-17 19:26 一人浅醉- 阅读(2316) 评论(0) 推荐(0)

lzo压缩格式文件查看

摘要：使用lzop命令解压并查看：lzop -cd xxx.lzo |more 附压缩命令：lzop xxx.log （生成xxx.log.lzo）其它参数：需要在机器上安装lzop后才能使用命令，参考：http://cyibeike.blog.163.com/blog/static/2111257 阅读全文

posted @ 2016-11-17 16:26 一人浅醉- 阅读(9818) 评论(0) 推荐(0)

hadoop端口配置指南

摘要：获取默认配置配置hadoop，主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件，默认下来，这些配置文件都是空的，所以很难知道这些配置文件有哪些配置可以生效，上网找的配置可能因为各个hadoop版本不同，导致无法生效。浏览更多的配置，有两个方法:1.选择相应版本的hadoop,下载解压后，搜索*.xml,找到core-default.xm... 阅读全文

posted @ 2016-11-17 15:40 一人浅醉- 阅读(9945) 评论(0) 推荐(0)

2016年11月16日

SSH免密登录服务器

摘要：阅读全文

posted @ 2016-11-16 16:43 一人浅醉- 阅读(193) 评论(0) 推荐(0)

安装Java Cer证书

摘要： skldfsdf Javaawtetwetwetwetwe testse Javaestestset 阅读全文

posted @ 2016-11-16 11:48 一人浅醉- 阅读(1081) 评论(1) 推荐(0)

技术改变命运~

公告