04 2019 档案
摘要:Spark GraphX 概述 1、Spark GraphX是什么? (1)Spark GraphX 是 Spark 的一个模块,主要用于进行以图为核心的计算还有分布式图的计算。 (2)GraphX 他的底层计算也是 RDD 计算,它和 RDD 共用一种存储形态,在展示形态上可以以数据集来表示,也可
阅读全文
posted @ 2019-04-30 19:48
黑泽君
摘要:第1章 Spark GraphX 概述1.1 什么是 Spark GraphX1.2 弹性分布式属性图1.3 运行图计算程序第2章 Spark GraphX 解析2.1 存储模式2.1.1 图存储模式2.1.2 GraphX 存储模式2.2 vertices、edges 以及 triplets2.2
阅读全文
posted @ 2019-04-30 19:25
黑泽君
摘要:Spark Streaming 是什么 1、SPark Streaming 是 Spark 中一个组件,基于 Spark Core 进行构建,用于对流式进行处理,类似于 Storm。2、Spark Streaming 能够和 Spark Core、Spark SQL 来进行混合编程。3、Spark
阅读全文
posted @ 2019-04-29 18:57
黑泽君
摘要:第1章 Spark Streaming 概述1.1 什么是 Spark Streaming1.2 为什么要学习 Spark Streaming1.3 Spark 与 Storm 的对比第2章 运行 Spark Streaming第3章 架构与抽象第4章 Spark Streaming 解析4.1 初
阅读全文
posted @ 2019-04-29 18:42
黑泽君
摘要:测试中,需要通过 Netcat 发送数据。 配置环境:CentOS 6.8 1、下载安装包到指定目录,例如本博主的是:/opt/software/ wget https://sourceforge.net/projects/netcat/files/netcat/0.7.1/netcat-0.7.1
阅读全文
posted @ 2019-04-28 17:42
黑泽君
摘要:Spark SQL 1、Spark SQL 是 Spark 的一个模块,可以和 RDD 进行混合编程、支持标准的数据源、可以集成和替代 Hive、可以提供 JDBC、ODBC 服务器功能。 2、Spark SQL 的特点: (1)和 Spark Core 的无缝集成,可以在写整个 RDD 应用的时候
阅读全文
posted @ 2019-04-28 11:20
黑泽君
摘要:第1章 Spark SQL 概述1.1 什么是 Spark SQL1.2 RDD vs DataFrames vs DataSet1.2.1 RDD1.2.2 DataFrame1.2.3 DataSet1.2.4 三者的共性1.2.5 三者的区别第2章 执行 Spark SQL 查询2.1 命令行
阅读全文
posted @ 2019-04-28 10:42
黑泽君
摘要:1、RDD 全称 弹性分布式数据集 Resilient Distributed Dataset它就是一个 class。 abstract class RDD[T: ClassTag]( @transient private var _sc: SparkContext, @transient priv
阅读全文
posted @ 2019-04-26 23:21
黑泽君
摘要:第1章 RDD 概念1.1 RDD 为什么会产生1.2 RDD 概述1.2.1 什么是 RDD1.2.2 RDD 的属性1.3 RDD 弹性1.4 RDD 特点1.4.1 分区1.4.2 只读1.4.3 依赖1.4.4 缓存1.4.5 CheckPoint第2章 RDD 编程2.1 RDD 编程模型
阅读全文
posted @ 2019-04-26 22:45
黑泽君
摘要:摘要:Google 在 2003 年到 2004 年公布了关于 GFS、MapReduce 和 BigTable 三篇技术论文(旧三驾马车),这也成为后来云计算发展的重要基石,如今 Google 在后 Hadoop 时代的新“三驾马车” -- Caffeine、Pregel、Dremel 再一次影响
阅读全文
posted @ 2019-04-23 19:05
黑泽君
摘要:1、准备安装包 2、Spark Standalone 即独立模式 2.1、解压安装包到你安装的目录。 2.2、拷贝 conf 目录下的 slaves 文件,将 slave 节点的 hostname 写在文件中,每行一个。 2.3、拷贝 conf 目录下的 spark-env.sh 文件,将 SPAR
阅读全文
posted @ 2019-04-22 12:15
黑泽君
摘要:问题再现: 使用本机 Ecilpse (Windows环境) 去访问远程 hadoop 集群出现以下异常: 问题原因: 因为远程提交的情况下如果没有 hadoop 的系统环境变量,就会读取当前主机的用户名,所以 hadoop 集群的节点中没有该用户名的权限,所以出现的异常。 问题解决: a、如果是测
阅读全文
posted @ 2019-04-21 20:52
黑泽君
摘要:第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2.4 配置 Spark Standalone 模式2.5 配置 Spark History Serv
阅读全文
posted @ 2019-04-21 15:58
黑泽君
摘要:1、将项目软件工具包导入 2、项目思路: 2.1、读取 HDFS 数据进行 ETL 清洗操作,并将最终结果写入到 HBase 中。 2.2、从 HBase 中读取数据,进行新增用户统计分析操作,并将结果写入到 Mysql。 3、细节实现 数据清洗: 3.1、LoggerUtil.java 3.1.1
阅读全文
posted @ 2019-04-20 15:45
黑泽君
摘要:今天,我在修改Eclipse项目的 JRE 环境时,老是报这个错误,很纳闷,到底是由于什么原因,导致的这个问题: 后面发现了,是在这个项目里面的 .classpath 的这个文件有问题,所以对待这个问题的解决的方法就是: 可以新建一个类似的项目,然后把那个项目中的 .classpath 的替换进来,
阅读全文
posted @ 2019-04-20 11:16
黑泽君
摘要:1. 问题描述 在 Hive1.2.1 版本运行如下 HQL 时: 会抛出如下异常: 2. 问题分析 在 Hive1.2.0 版本开始增加了如下配置选项,默认值为 true。 该选项的目的是:是否启用对 SQL2011 保留关键字的支持。 启用后,将支持部分 SQL2011 保留关键字。 3. 解决
阅读全文
posted @ 2019-04-18 11:37
黑泽君
摘要:二十、数据分析20.1、统计表20.2、目标20.3、代码实现20.3.1、Mapper20.3.2、Reducer20.3.3、Runner20.3.4、自定义 OutPutFormat20.3.5、测试二十一、Hive 之 hourly 分析21.1、目标21.2、目标解析21.3、创建 Mys
阅读全文
posted @ 2019-04-17 23:02
黑泽君
摘要:十六、数据处理16.1、ETL 操作16.2、HBase 设计16.2.1、每天1张表16.2.2、倒序或在前缀上加数字16.2.3、预分区16.3、MapReduce 分析过程16.4、Hive 分析过程16.5、Mysql 表结构设计16.5.1、常用关系型数据库表模型16.5.2、表结构十七、
阅读全文
posted @ 2019-04-16 20:53
黑泽君
摘要:1、问题描述 最近在做有关大数据的项目中,解码客户端的请求参数时抛出异常: java.lang.IllegalArgumentException: URLDecoder: Incomplete trailing escape (%) pattern 详细错误如下: 截图如下: 我的主要代码如下:(代
阅读全文
posted @ 2019-04-16 19:55
黑泽君
摘要:对于 Linux 虚拟机,您可以使用命令行工具手动安装或升级 VMware Tools。 本次演示的 Linux 虚拟机为 CentOS6.8。 先决条件 开启虚拟机。 确认客户机操作系统正在运行。 由于 VMware Tools 安装程序是使用 Perl 编写的,因此,请确认在客户机操作系统中安装
阅读全文
posted @ 2019-04-15 21:30
黑泽君
摘要:十一、Nginx11.1、介绍11.2、常见其他 Web 服务器11.3、版本11.4、Nginx 安装11.5、目录结构11.6、操作命令十二、Mysql12.1、介绍12.2、关系型数据库(SQL)种类12.3、特征12.4、术语12.4、与非关系型数据库比较(Not Only SQL)12.4
阅读全文
posted @ 2019-04-15 18:26
黑泽君
摘要:一、准备工作二、安装过程三、配置环境变量四、Eclipse 开发环境配置 一、准备工作 安装环境:CentOS 6.8 桌面版(其他发行版本安装过程基本一样)所需软件:(下载时选择 Linux 版 tar.gz 格式) 1、Oracle jdk 各个版本下载地址: https://www.oracl
阅读全文
posted @ 2019-04-15 18:23
黑泽君
摘要:一、项目开发流程1.1、项目调研1.2、项目需求分析1.3、方案设计1.3.1、概要设计1.3.2、详细设计1.4、编码实现1.4.1、单元测试1.4.2、集成测试1.4.3、压力测试1.4.4、用户测试二、大数据常用应用2.1、数据出售2.2、数据分析2.2.1、百度统计2.2.2、友盟2.2.3
阅读全文
posted @ 2019-04-14 23:49
黑泽君
摘要:问题描述: 由于使用频率较低,以及促进网页编码规范,Chrome 浏览器在 55 版本以后删除了手动设置网站编码的功能。 但是对于部分没有设置编码或编码设置不正确的网站,新版 Chrome 浏览器可能会因为无法准确判断其使用的编码,导致网站显示乱码,本文说明如何解决这个问题。 解决办法: 可以通过
阅读全文
posted @ 2019-04-14 20:08
黑泽君
摘要:一 Storm 概述1.1 离线计算是什么?1.2 流式计算是什么?1.3 Storm 是什么?1.4 Storm 与 Hadoop 的区别1.5 Storm 应用场景及行业案例1.5.1 运用场景1.5.2 典型案列1.6 Storm 特点二 Storm 基础知识2.1 Storm 编程模型2.1
阅读全文
posted @ 2019-04-13 23:41
黑泽君
摘要:第十九章 Scala语言的数据结构和算法19.1 数据结构(算法)的介绍19.2 看几个实际编程中遇到的问题19.2.1 一个五子棋程序19.2.2 约瑟夫问题(丢手帕问题)19.2.3 其它常见算法问题19.3 稀疏数组 sparsearray19.3.1 基本介绍19.3.2 应用实例19.3.
阅读全文
posted @ 2019-04-12 13:24
黑泽君
摘要:IDEA 会自动显示形式参数的变量名称,这在一开始使用时感觉很方便、友好。有时候也会显得排版很乱,下面是取消自动显示形式参数名称的方法: File -> Settings -> Editor -> General -> Appearance 把 Show parameter name hints 选
阅读全文
posted @ 2019-04-07 23:11
黑泽君
摘要:第十七章 设计模式17.1 学习设计模式的必要性17.2 掌握设计模式的层次17.3 设计模式的介绍17.4 设计模式的类型17.5 简单工厂模式(生产类)17.5.1 基本介绍17.5.2 看一个具体的需求17.5.3 使用传统的方式来完成17.5.4 使用简单工厂模式来完成17.6 工厂方法模式
阅读全文
posted @ 2019-04-07 21:03
黑泽君
摘要:第十五章 客户信息管理系统15.1 项目的开发流程15.2 项目的需求分析15.3 项目的界面15.4 项目的设计-程序框架图15.5 项目的功能实现15.5.1 完成 Customer 类15.5.2 完成显示主菜单和退出软件功能15.5.3 完成显示客户列表的功能15.5.4 完成添加客户的功能
阅读全文
posted @ 2019-04-06 01:25
黑泽君
摘要:第十四章 使用递归的方式去思考,去编程14.1 基本介绍14.2 Scala 提倡函数式编程(递归思想)14.3 应用案例1-求和14.4 应用案例2-求最大值14.5 应用案例3-翻转字符串14.6 应用案例4-求阶乘14.7 应用案例5-求x的n次方14.8 应用案例6-求斐波那契数14.9 作
阅读全文
posted @ 2019-04-03 17:45
黑泽君
摘要:第十三章 函数式编程-高级13.1 偏函数(partial function)13.1.1 提出一个需求,引出思考13.1.2 解决方式-filter + map 返回新的集合13.1.3 解决方式-模式匹配13.1.4 偏函数的基本介绍13.1.5 偏函数的快速入门13.1.6 偏函数的小结13.
阅读全文
posted @ 2019-04-03 09:36
黑泽君
摘要:第十一章 数据结构(下)-集合操作11.1 集合元素的映射-map11.1.1 map 映射函数的操作11.1.2 高阶函数基本使用案例1+案例211.1.3 使用 map 映射函数来解决11.1.4 模拟实现 map 映射函数的机制11.1.5 课堂练习11.2 集合元素的扁平-flatMap11
阅读全文
posted @ 2019-04-02 16:32
黑泽君

浙公网安备 33010602011771号