05 2018 档案

摘要:一、模拟生成数据 1 package com.bw.test; 2 3 import java.util.ArrayList; 4 import java.util.Arrays; 5 import java.util.List; 6 import java.util.Random; 7 impor 阅读全文
posted @ 2018-05-23 20:23 扎心了,老铁 阅读(7396) 评论(4) 推荐(0) 编辑
摘要:一、概述 JSON的全称是”JavaScript Object Notation”,意思是JavaScript对象表示法,它是一种基于文本,独立于语言的轻量级数据交换格式。XML也是一种数据交换格式,为什么没 有选择XML呢?因为XML虽然可以作为跨平台的数据交换格式,但是在JS(JavaScrip 阅读全文
posted @ 2018-05-23 18:58 扎心了,老铁 阅读(4435) 评论(0) 推荐(0) 编辑
摘要:一、创建Maven项目 创建项目,名称为LogAnalysis 二、常用工具类 2.1 配置管理组建 ConfigurationManager.java 1 import java.io.InputStream; 2 import java.util.Properties; 3 4 /** 5 * 阅读全文
posted @ 2018-05-21 11:52 扎心了,老铁 阅读(4709) 评论(0) 推荐(1) 编辑
摘要:一、概述 数据设计,往往包含两个环节: 第一个:就是我们的上游数据,就是数据调研环节看到的项目基于的基础数据,是否要针对其开发一些Hive ETL,对数据进行进一步的处理和转换,从而让我们能够更加方便的和快速的去计算和执行spark作业; 第二个:就是要设计spark作业要保存结果数据的业务表的结构 阅读全文
posted @ 2018-05-21 09:42 扎心了,老铁 阅读(4264) 评论(0) 推荐(0) 编辑
摘要:1、按条件筛选session 搜索过某些关键词的用户、访问时间在某个时间段内的用户、年龄在某个范围内的用户、职业在某个范围内的用户、所在某个城市的用户,发起的session。找到对应的这些用户的session,也就是我们所说的第一步,按条件筛选session。 这个功能,就最大的作用就是灵活。也就是 阅读全文
posted @ 2018-05-21 09:30 扎心了,老铁 阅读(5225) 评论(0) 推荐(0) 编辑
摘要:一、user_visit_action(Hive表) 1.1 表的结构 date:日期,代表这个用户点击行为是在哪一天发生的user_id:代表这个点击行为是哪一个用户执行的session_id :唯一标识了某个用户的一个访问sessionpage_id :点击了某些商品/品类,也可能是搜索了某个关 阅读全文
posted @ 2018-05-21 09:29 扎心了,老铁 阅读(5207) 评论(0) 推荐(0) 编辑
摘要:一、对用户访问session进行分析 1、可以根据使用者指定的某些条件,筛选出指定的一些用户(有特定年龄、职业、城市); 2、对这些用户在指定日期范围内发起的session,进行聚合统计,比如,统计出访问时长在0~3s的session占总session数量的比例; 3、按时间比例,比如一天有24个小 阅读全文
posted @ 2018-05-21 09:27 扎心了,老铁 阅读(7160) 评论(4) 推荐(2) 编辑
摘要:Zookeeper集群搭建 http://www.cnblogs.com/qingyunzong/p/8619184.html Hadoop集群搭建 http://www.cnblogs.com/qingyunzong/p/8634335.html http://www.cnblogs.com/qi 阅读全文
posted @ 2018-05-21 09:23 扎心了,老铁 阅读(6124) 评论(0) 推荐(1) 编辑
摘要:一、CentOS7集群搭建 1.1 准备3台centos7的虚拟机 IP及主机名规划如下: 192.168.123.110 spark1192.168.123.111 spark2192.168.123.112 spark3 1.2 修改IP地址 1.3 修改主机映射 1.4 修改主机名 三台机器分 阅读全文
posted @ 2018-05-21 09:21 扎心了,老铁 阅读(6108) 评论(0) 推荐(0) 编辑
摘要:一、项目概述 本项目主要用于互联网电商企业中,使用Spark技术开发的大数据统计分析平台,对电商网站的各种用户行为(访问行为、购物行为、广告点击行为等)进行复杂的分析。用统计分析出来的数据,辅助公司中的PM(产品经理)、数据分析师以及管理人员分析现有产品的情况,并根据用户行为分析结果持续改进产品的设 阅读全文
posted @ 2018-05-21 09:20 扎心了,老铁 阅读(13549) 评论(1) 推荐(1) 编辑
摘要:一、引言 在了解GraphX之前,需要先了解关于通用的分布式图计算框架的两个常见问题:图存储模式和图计算模式。 二、图存储模式 巨型图的存储总体上有边分割和点分割两种存储方式。2013年,GraphLab2.0将其存储方式由边分割变为点分割,在性能上取得重大提升,目前基本上被业界广泛接受并使用。 2 阅读全文
posted @ 2018-05-16 19:37 扎心了,老铁 阅读(6862) 评论(0) 推荐(0) 编辑
摘要:一、图 1.1 基本概念 图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种数据结构。 这里的图并非指代数中的图。图可以对事物以及事物之间的关系建模,图可以用来表示自然发生的连接数据,如:社交网络、互联网web页面 常用的应用有:在地图应用中找到最短路径、基于与他人的相似度图, 阅读全文
posted @ 2018-05-16 19:22 扎心了,老铁 阅读(2899) 评论(1) 推荐(0) 编辑
摘要:一、SparkCore、SparkSQL和SparkStreaming的类似之处 二、SparkStreaming的运行流程 2.1 图解说明 2.2 文字解说 1、我们在集群中的其中一台机器上提交我们的Application Jar,然后就会产生一个Application,开启一个Driver,然 阅读全文
posted @ 2018-05-16 18:41 扎心了,老铁 阅读(5002) 评论(2) 推荐(2) 编辑
摘要:官网地址:http://spark.apache.org/docs/latest/streaming-programming-guide.html 一、简介 1.1 概述 Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。支持从多种 阅读全文
posted @ 2018-05-11 18:48 扎心了,老铁 阅读(7266) 评论(0) 推荐(0) 编辑
摘要:一、Windows、Linux虚拟机、docker关系图 如果此时在Windows宿主机中pingDocker容器是ping不同的,因为在宿主机上没有通往172.17.0.0/24网络的路由,宿主机会将发往172.17.0.0/24网络的数据发往默认路由,这样就无法到达容器。 二、操作 2.1 关闭 阅读全文
posted @ 2018-05-10 18:47 扎心了,老铁 阅读(9815) 评论(2) 推荐(0) 编辑
摘要:一、概述 形成了安装有vim、jdk、ssh的centos镜像,现在我们在这个的基础上继续搭建haoop。 在正式开始前,了解一些docker容器的操作命令 docker ps:查看活动的容器 docker ps -a:查看所有的容器(包括终止状态的) docker images:查看镜像 dock 阅读全文
posted @ 2018-05-10 18:46 扎心了,老铁 阅读(20897) 评论(0) 推荐(1) 编辑
摘要:一、检查系统内核 Docker 要求 CentOS 系统的内核版本高于 3.10 ,查看本页面的前提条件来验证你的CentOS 版本是否支持 Docker 。 通过 uname -r 命令查看你当前的内核版本 二、安装Docker 2.1 安装 Docker 软件包和依赖包已经包含在默认的 Cent 阅读全文
posted @ 2018-05-10 18:44 扎心了,老铁 阅读(31423) 评论(2) 推荐(3) 编辑
摘要:一、Kafka在zookeeper中存储结构图 二、分析 2.1 topic注册信息 /brokers/topics/[topic] : 存储某个topic的partitions所有分配信息 2.2 partition状态信息 /brokers/topics/[topic]/partitions/[ 阅读全文
posted @ 2018-05-08 11:06 扎心了,老铁 阅读(37156) 评论(11) 推荐(20) 编辑
摘要:一、下载 下载地址: http://kafka.apache.org/downloads.html http://mirrors.hust.edu.cn/apache/ 二、安装前提(zookeeper安装) 参考http://www.cnblogs.com/qingyunzong/p/863433 阅读全文
posted @ 2018-05-08 09:50 扎心了,老铁 阅读(39918) 评论(5) 推荐(11) 编辑
摘要:一、高可用的由来 1.1 为何需要Replication 在Kafka在0.8以前的版本中,是没有Replication的,一旦某一个Broker宕机,则其上所有的Partition数据都不可被消费,这与Kafka数据持久性及Delivery Guarantee的设计目标相悖。同时Producer都 阅读全文
posted @ 2018-05-07 20:10 扎心了,老铁 阅读(87593) 评论(14) 推荐(26) 编辑
摘要:一、Kafka的架构 如上图所示,一个典型的Kafka集群中包含若干Producer(可以是web前端产生的Page View,或者是服务器日志,系统CPU、Memory等),若干broker(Kafka支持水平扩展,一般broker数量越多,集群吞吐率越高),若干Consumer Group,以及 阅读全文
posted @ 2018-05-07 19:39 扎心了,老铁 阅读(86367) 评论(12) 推荐(37) 编辑
摘要:一、简介 1.1 概述 Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级 阅读全文
posted @ 2018-05-07 19:18 扎心了,老铁 阅读(678866) 评论(29) 推荐(120) 编辑
摘要:一、单一代理流配置 1.1 官网介绍 http://flume.apache.org/FlumeUserGuide.html#avro-source 通过一个通道将来源和接收器链接。需要列出源,接收器和通道,为给定的代理,然后指向源和接收器及通道。一个源的实例可以指定多个通道,但只能指定一个接收器实 阅读全文
posted @ 2018-05-07 18:47 扎心了,老铁 阅读(22843) 评论(0) 推荐(1) 编辑
摘要:一、概述 官方文档介绍:http://flume.apache.org/FlumeUserGuide.html#flume-sources 二、Flume Sources 描述 2.1 Avro Source 2.1.1 介绍 监听Avro端口,从Avro client streams接收event 阅读全文
posted @ 2018-05-07 18:46 扎心了,老铁 阅读(22431) 评论(1) 推荐(4) 编辑
摘要:一、背景 Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步. 许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需 阅读全文
posted @ 2018-05-07 18:43 扎心了,老铁 阅读(66955) 评论(1) 推荐(7) 编辑
摘要:666 阅读全文
posted @ 2018-05-07 18:42 扎心了,老铁 阅读(4862) 评论(6) 推荐(0) 编辑
摘要:一、概述 SparkSQL 的元数据的状态有两种: 1、in_memory,用完了元数据也就丢了 2、hive , 通过hive去保存的,也就是说,hive的元数据存在哪儿,它的元数据也就存在哪儿。 换句话说,SparkSQL的数据仓库在建立在Hive之上实现的。我们要用SparkSQL去构建数据仓 阅读全文
posted @ 2018-05-07 18:33 扎心了,老铁 阅读(7651) 评论(0) 推荐(0) 编辑
摘要:一、引导系统之后 界面说明: Install CentOS 7 安装CentOS 7 Test this media & install CentOS 7 测试安装文件并安装CentOS 7 Troubleshooting 修复故障 二、这里选择第一项,安装CentOS 7,回车,进入下面的界面 可 阅读全文
posted @ 2018-05-06 19:38 扎心了,老铁 阅读(5560) 评论(0) 推荐(0) 编辑
摘要:在Spark中,也支持Hive中的自定义函数。自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF(User- Defined Aggregation Funcation),用户自定义聚合函数,类似在 阅读全文
posted @ 2018-05-04 20:51 扎心了,老铁 阅读(14759) 评论(0) 推荐(2) 编辑
摘要:一、SparkSQL的进化之路 1.0以前: Shark 1.1.x开始: SparkSQL(只是测试性的) SQL 1.3.x: SparkSQL(正式版本)+Dataframe 1.5.x: SparkSQL 钨丝计划 1.6.x: SparkSQL+DataFrame+DataSet(测试版本 阅读全文
posted @ 2018-05-03 21:54 扎心了,老铁 阅读(53100) 评论(0) 推荐(3) 编辑
摘要:一、分区的概念 分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务的个数,也是由RDD(准确来说是作业最后一个RDD)的分区数决定。 二、为什么要进行分区 数据分区, 阅读全文
posted @ 2018-05-03 19:24 扎心了,老铁 阅读(22007) 评论(5) 推荐(5) 编辑
摘要:一、概述 上一篇主要是介绍了spark启动的一些脚本,这篇主要分析一下Spark源码中提交任务脚本的处理逻辑,从spark-submit一步步深入进去看看任务提交的整体流程,首先看一下整体的流程概要图: 二、源码解读 2.1 spark-submit 所以spark-submit脚本的整体逻辑就是: 阅读全文
posted @ 2018-05-02 19:01 扎心了,老铁 阅读(5206) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示