随笔档案「2019年4月」 - 黑泽君

大数据技术之_19_Spark学习_05_Spark GraphX 应用解析小结

摘要：Spark GraphX 概述 1、Spark GraphX是什么？（1）Spark GraphX 是 Spark 的一个模块，主要用于进行以图为核心的计算还有分布式图的计算。（2）GraphX 他的底层计算也是 RDD 计算，它和 RDD 共用一种存储形态，在展示形态上可以以数据集来表示，也可阅读全文

posted @ 2019-04-30 19:48 黑泽君

大数据技术之_19_Spark学习_05_Spark GraphX 应用解析 + Spark GraphX 概述、解析 + 计算模式 + Pregel API + 图算法参考代码 + PageRank 实例

摘要：第1章 Spark GraphX 概述1.1 什么是 Spark GraphX1.2 弹性分布式属性图1.3 运行图计算程序第2章 Spark GraphX 解析2.1 存储模式2.1.1 图存储模式2.1.2 GraphX 存储模式2.2 vertices、edges 以及 triplets2.2 阅读全文

posted @ 2019-04-30 19:25 黑泽君

大数据技术之_19_Spark学习_04_Spark Streaming 应用解析小结

摘要：Spark Streaming 是什么 1、SPark Streaming 是 Spark 中一个组件，基于 Spark Core 进行构建，用于对流式进行处理，类似于 Storm。2、Spark Streaming 能够和 Spark Core、Spark SQL 来进行混合编程。3、Spark 阅读全文

posted @ 2019-04-29 18:57 黑泽君

大数据技术之_19_Spark学习_04_Spark Streaming 应用解析 + Spark Streaming 概述、运行、解析 + DStream 的输入、转换、输出 + 优化

摘要：第1章 Spark Streaming 概述1.1 什么是 Spark Streaming1.2 为什么要学习 Spark Streaming1.3 Spark 与 Storm 的对比第2章运行 Spark Streaming第3章架构与抽象第4章 Spark Streaming 解析4.1 初阅读全文

posted @ 2019-04-29 18:42 黑泽君

Linux学习_012_Centos 6.8 安装 Netcat

摘要：测试中，需要通过 Netcat 发送数据。配置环境：CentOS 6.8 1、下载安装包到指定目录，例如本博主的是：/opt/software/ wget https://sourceforge.net/projects/netcat/files/netcat/0.7.1/netcat-0.7.1 阅读全文

posted @ 2019-04-28 17:42 黑泽君

大数据技术之_19_Spark学习_03_Spark SQL 应用解析小结

摘要：Spark SQL 1、Spark SQL 是 Spark 的一个模块，可以和 RDD 进行混合编程、支持标准的数据源、可以集成和替代 Hive、可以提供 JDBC、ODBC 服务器功能。 2、Spark SQL 的特点：（1）和 Spark Core 的无缝集成，可以在写整个 RDD 应用的时候阅读全文

posted @ 2019-04-28 11:20 黑泽君

大数据技术之_19_Spark学习_03_Spark SQL 应用解析 + Spark SQL 概述、解析、数据源、实战 + 执行 Spark SQL 查询 + JDBC/ODBC 服务器

摘要：第1章 Spark SQL 概述1.1 什么是 Spark SQL1.2 RDD vs DataFrames vs DataSet1.2.1 RDD1.2.2 DataFrame1.2.3 DataSet1.2.4 三者的共性1.2.5 三者的区别第2章执行 Spark SQL 查询2.1 命令行阅读全文

posted @ 2019-04-28 10:42 黑泽君

大数据技术之_19_Spark学习_02_Spark Core 应用解析小结

摘要：1、RDD 全称弹性分布式数据集 Resilient Distributed Dataset它就是一个 class。 abstract class RDD[T: ClassTag]( @transient private var _sc: SparkContext, @transient priv 阅读全文

posted @ 2019-04-26 23:21 黑泽君

大数据技术之_19_Spark学习_02_Spark Core 应用解析+ RDD 概念 + RDD 编程 + 键值对 RDD + 数据读取与保存主要方式 + RDD 编程进阶 + Spark Core 实例练习

摘要：第1章 RDD 概念1.1 RDD 为什么会产生1.2 RDD 概述1.2.1 什么是 RDD1.2.2 RDD 的属性1.3 RDD 弹性1.4 RDD 特点1.4.1 分区1.4.2 只读1.4.3 依赖1.4.4 缓存1.4.5 CheckPoint第2章 RDD 编程2.1 RDD 编程模型阅读全文

posted @ 2019-04-26 22:45 黑泽君

【转载】Google 后 Hadoop 时代的新 “三驾马车” -- Caffeine(搜索)、Pregel(图计算)、Dremel(查询)

摘要：摘要：Google 在 2003 年到 2004 年公布了关于 GFS、MapReduce 和 BigTable 三篇技术论文（旧三驾马车），这也成为后来云计算发展的重要基石，如今 Google 在后 Hadoop 时代的新“三驾马车” -- Caffeine、Pregel、Dremel 再一次影响阅读全文

posted @ 2019-04-23 19:05 黑泽君

大数据技术之_19_Spark学习_01_Spark 基础解析小结（无图片）

摘要：1、准备安装包 2、Spark Standalone 即独立模式 2.1、解压安装包到你安装的目录。 2.2、拷贝 conf 目录下的 slaves 文件，将 slave 节点的 hostname 写在文件中，每行一个。 2.3、拷贝 conf 目录下的 spark-env.sh 文件，将 SPAR 阅读全文

posted @ 2019-04-22 12:15 黑泽君

【Hadoop & Ecilpse】Exception in thread "main" org.apache.hadoop.security.AccessControlException: Permission denied: user=bruce, access=WRITE, inode="/out2/_temporary/0":atguigu:supergroup:drwxr-xr-x

摘要：问题再现：使用本机 Ecilpse (Windows环境) 去访问远程 hadoop 集群出现以下异常：问题原因：因为远程提交的情况下如果没有 hadoop 的系统环境变量，就会读取当前主机的用户名，所以 hadoop 集群的节点中没有该用户名的权限，所以出现的异常。问题解决： a、如果是测阅读全文

posted @ 2019-04-21 20:52 黑泽君

大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序

摘要：第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2.4 配置 Spark Standalone 模式2.5 配置 Spark History Serv 阅读全文

posted @ 2019-04-21 15:58 黑泽君

大数据技术之_18_05

摘要：1、将项目软件工具包导入 2、项目思路： 2.1、读取 HDFS 数据进行 ETL 清洗操作，并将最终结果写入到 HBase 中。 2.2、从 HBase 中读取数据，进行新增用户统计分析操作，并将结果写入到 Mysql。 3、细节实现数据清洗： 3.1、LoggerUtil.java 3.1.1 阅读全文

posted @ 2019-04-20 15:45 黑泽君

【Eclipse】出现 'Setting build path' has encountered a problem 的解决方法

摘要：今天，我在修改Eclipse项目的 JRE 环境时，老是报这个错误，很纳闷，到底是由于什么原因，导致的这个问题：后面发现了，是在这个项目里面的 .classpath 的这个文件有问题，所以对待这个问题的解决的方法就是：可以新建一个类似的项目，然后把那个项目中的 .classpath 的替换进来，阅读全文

posted @ 2019-04-20 11:16 黑泽君

【Hive】FAILED: ParseException line 5:2 Failed to recognize predicate 'date'. Failed rule: 'identifier' in column specification

摘要：1. 问题描述在 Hive1.2.1 版本运行如下 HQL 时：会抛出如下异常： 2. 问题分析在 Hive1.2.0 版本开始增加了如下配置选项，默认值为 true。该选项的目的是：是否启用对 SQL2011 保留关键字的支持。启用后，将支持部分 SQL2011 保留关键字。 3.　解决阅读全文

posted @ 2019-04-18 11:37 黑泽君

大数据技术之_18_04

摘要：二十、数据分析20.1、统计表20.2、目标20.3、代码实现20.3.1、Mapper20.3.2、Reducer20.3.3、Runner20.3.4、自定义 OutPutFormat20.3.5、测试二十一、Hive 之 hourly 分析21.1、目标21.2、目标解析21.3、创建 Mys 阅读全文

posted @ 2019-04-17 23:02 黑泽君

大数据技术之_18_03

摘要：十六、数据处理16.1、ETL 操作16.2、HBase 设计16.2.1、每天1张表16.2.2、倒序或在前缀上加数字16.2.3、预分区16.3、MapReduce 分析过程16.4、Hive 分析过程16.5、Mysql 表结构设计16.5.1、常用关系型数据库表模型16.5.2、表结构十七、阅读全文

posted @ 2019-04-16 20:53 黑泽君

java.lang.IllegalArgumentException: URLDecoder: Incomplete trailing escape (%) pattern 的问题处理

摘要：1、问题描述最近在做有关大数据的项目中，解码客户端的请求参数时抛出异常： java.lang.IllegalArgumentException: URLDecoder: Incomplete trailing escape (%) pattern 详细错误如下：截图如下：我的主要代码如下：（代阅读全文

posted @ 2019-04-16 19:55 黑泽君

Linux学习_011_在 Linux 虚拟机中手动安装或升级 VMware Tools

摘要：对于 Linux 虚拟机，您可以使用命令行工具手动安装或升级 VMware Tools。本次演示的 Linux 虚拟机为 CentOS6.8。先决条件开启虚拟机。确认客户机操作系统正在运行。由于 VMware Tools 安装程序是使用 Perl 编写的，因此，请确认在客户机操作系统中安装阅读全文

posted @ 2019-04-15 21:30 黑泽君

大数据技术之_18_02

摘要：十一、Nginx11.1、介绍11.2、常见其他 Web 服务器11.3、版本11.4、Nginx 安装11.5、目录结构11.6、操作命令十二、Mysql12.1、介绍12.2、关系型数据库(SQL)种类12.3、特征12.4、术语12.4、与非关系型数据库比较(Not Only SQL)12.4 阅读全文

posted @ 2019-04-15 18:26 黑泽君

Linux学习_010_在 CentOS6.8 上安装 Eclipse

摘要：一、准备工作二、安装过程三、配置环境变量四、Eclipse 开发环境配置一、准备工作安装环境：CentOS 6.8 桌面版（其他发行版本安装过程基本一样）所需软件：（下载时选择 Linux 版 tar.gz 格式） 1、Oracle jdk 各个版本下载地址： https://www.oracl 阅读全文

posted @ 2019-04-15 18:23 黑泽君

大数据技术之_18_01

摘要：一、项目开发流程1.1、项目调研1.2、项目需求分析1.3、方案设计1.3.1、概要设计1.3.2、详细设计1.4、编码实现1.4.1、单元测试1.4.2、集成测试1.4.3、压力测试1.4.4、用户测试二、大数据常用应用2.1、数据出售2.2、数据分析2.2.1、百度统计2.2.2、友盟2.2.3 阅读全文

posted @ 2019-04-14 23:49 黑泽君

最新版本的 Chrome 浏览器如何设置网页编码？

摘要：问题描述：由于使用频率较低，以及促进网页编码规范，Chrome 浏览器在 55 版本以后删除了手动设置网站编码的功能。但是对于部分没有设置编码或编码设置不正确的网站，新版 Chrome 浏览器可能会因为无法准确判断其使用的编码，导致网站显示乱码，本文说明如何解决这个问题。解决办法：可以通过阅读全文

posted @ 2019-04-14 20:08 黑泽君

大数据技术之_17

摘要：一 Storm 概述1.1 离线计算是什么？1.2 流式计算是什么？1.3 Storm 是什么？1.4 Storm 与 Hadoop 的区别1.5 Storm 应用场景及行业案例1.5.1 运用场景1.5.2 典型案列1.6 Storm 特点二 Storm 基础知识2.1 Storm 编程模型2.1 阅读全文

posted @ 2019-04-13 23:41 黑泽君

大数据技术之_16_Scala学习_13_Scala语言的数据结构和算法_Scala学习之旅收官之作

摘要：第十九章 Scala语言的数据结构和算法19.1 数据结构(算法)的介绍19.2 看几个实际编程中遇到的问题19.2.1 一个五子棋程序19.2.2 约瑟夫问题(丢手帕问题)19.2.3 其它常见算法问题19.3 稀疏数组 sparsearray19.3.1 基本介绍19.3.2 应用实例19.3. 阅读全文

posted @ 2019-04-12 13:24 黑泽君

IDEA 取消参数名称（形参名）提示

摘要：IDEA 会自动显示形式参数的变量名称，这在一开始使用时感觉很方便、友好。有时候也会显得排版很乱，下面是取消自动显示形式参数名称的方法： File -> Settings -> Editor -> General -> Appearance 把 Show parameter name hints 选阅读全文

posted @ 2019-04-07 23:11 黑泽君

大数据技术之_16_Scala学习_12_设计模式+泛型、上下界、视图界定、上下文界定、协变逆变不变

摘要：第十七章设计模式17.1 学习设计模式的必要性17.2 掌握设计模式的层次17.3 设计模式的介绍17.4 设计模式的类型17.5 简单工厂模式(生产类)17.5.1 基本介绍17.5.2 看一个具体的需求17.5.3 使用传统的方式来完成17.5.4 使用简单工厂模式来完成17.6 工厂方法模式阅读全文

posted @ 2019-04-07 21:03 黑泽君

大数据技术之_16_Scala学习_11_客户信息管理系统+并发编程模型 Akka+Akka 网络编程-小黄鸡客服案例+Akka 网络编程-Spark Master Worker 进程通讯项目

摘要：第十五章客户信息管理系统15.1 项目的开发流程15.2 项目的需求分析15.3 项目的界面15.4 项目的设计-程序框架图15.5 项目的功能实现15.5.1 完成 Customer 类15.5.2 完成显示主菜单和退出软件功能15.5.3 完成显示客户列表的功能15.5.4 完成添加客户的功能阅读全文

posted @ 2019-04-06 01:25 黑泽君

大数据技术之_16_Scala学习_10_使用递归的方式去思考，去编程+作业07/08/09

摘要：第十四章使用递归的方式去思考，去编程14.1 基本介绍14.2 Scala 提倡函数式编程(递归思想)14.3 应用案例1-求和14.4 应用案例2-求最大值14.5 应用案例3-翻转字符串14.6 应用案例4-求阶乘14.7 应用案例5-求x的n次方14.8 应用案例6-求斐波那契数14.9 作阅读全文

posted @ 2019-04-03 17:45 黑泽君

大数据技术之_16_Scala学习_09_函数式编程-高级

摘要：第十三章函数式编程-高级13.1 偏函数(partial function)13.1.1 提出一个需求，引出思考13.1.2 解决方式-filter + map 返回新的集合13.1.3 解决方式-模式匹配13.1.4 偏函数的基本介绍13.1.5 偏函数的快速入门13.1.6 偏函数的小结13. 阅读全文

posted @ 2019-04-03 09:36 黑泽君

大数据技术之_16_Scala学习_08_数据结构(下)-集合操作+模式匹配

摘要：第十一章数据结构(下)-集合操作11.1 集合元素的映射-map11.1.1 map 映射函数的操作11.1.2 高阶函数基本使用案例1+案例211.1.3 使用 map 映射函数来解决11.1.4 模拟实现 map 映射函数的机制11.1.5 课堂练习11.2 集合元素的扁平-flatMap11 阅读全文

posted @ 2019-04-02 16:32 黑泽君

Bruce

04 2019 档案