2019 年 4月 30 日随笔档案 - BBBone

2019年4月30日

摘要： domain层开发及测试数据准备修改pom.xml配置文件创建四层结构在domain层,创建Orders.class和Iterms.class两个类Orders.classimport lombok.Data;import javax.persistence.Entity;import javax.persistence.Id;import javax.persistence.Table;@E... 阅读全文

posted @ 2019-04-30 17:32 BBBone 阅读(342) 评论(0) 推荐(0) 编辑

Scala代码开发 metaTable(元表)

摘要：使用Scala语言开发时，自动生成get和set方法不用写return进行返回，因为它的最后一行就是返回值先建立四个层(层层递进)domain 表结构的建立repository(DAO) 实现接口层service 实现业务层controller 实现控制层domain层开发MetaTable.scalapackage com.imooc.imoocb... 阅读全文

posted @ 2019-04-30 17:30 BBBone 阅读(246) 评论(0) 推荐(0) 编辑

RDD转换成为DataFrame

摘要：方式一：通过case class创建DataFrames（反射）TestDataFrame1.scalapackage com.bky// 隐式类的导入// 定义case class，相当于表结构case class Dept(var id:Int, var position:String, var location:String)// 需要导入SparkSession这个包import org... 阅读全文

posted @ 2019-04-30 17:29 BBBone 阅读(2388) 评论(0) 推荐(0) 编辑

SparkSQL中的自定义函数UDF

摘要：在Spark中，也支持Hive中的自定义函数。自定义函数大致可以分为三种：UDF(User-Defined-Function)，即最基本的自定义函数，类似to_char,to_date等UDAF（User- Defined Aggregation Funcation），用户自定义聚合函数，类似在group by之后使用的sum,avg等UDTF(User-Defined Table-Generat... 阅读全文

posted @ 2019-04-30 17:28 BBBone 阅读(395) 评论(0) 推荐(0) 编辑

SparkSQL开窗函数 row_number()

摘要：开始编写我们的统计逻辑，使用row_number()函数先说明一下，row_number()开窗函数的作用其实就是给每个分组的数据，按照其排序顺序，打上一个分组内行号比如说，有一个分组20151001，里面有三条数据，1122，1121，1124那么对这个分组的每一行使用row_number()开窗函数以后，三行依次会获得一个组内的行号行号从1开始递增，比如1122，1 1121，2 1124... 阅读全文

posted @ 2019-04-30 17:28 BBBone 阅读(7127) 评论(0) 推荐(0) 编辑

流处理过程的问题

摘要：基于Spark Streaming&Flume&Kafka打造通用流处理平台整合日志输出到Flume整合Flume到Kafka整合Kafka到Spark StreamingSpark Streaming对接收到的数据进行处理异常:java.lang.ClassNotFoundException:org.apache.flume.clients.log4jappender.Log4jAppender... 阅读全文

posted @ 2019-04-30 17:27 BBBone 阅读(245) 评论(0) 推荐(0) 编辑

Java NIO

摘要： Java NIO I/O模型什么是同步: 若果有多个任务或者事件要发生,这些任务或者事件必须逐个地进行,一个事件或者任务的执行都会导致整个流程的暂时等待,这些事件没有办法并发地执行.什么是异步: 如果有多个任务或者事件发生,这些事件可以并发地执行,一个事件或者任务的执行不会导致整个流程的暂时等待. 重点: 判断同步还是异步,就看同时多个任务和事件发生时,一个事件的发生或执... 阅读全文

posted @ 2019-04-30 17:22 BBBone 阅读(78) 评论(0) 推荐(0) 编辑

HBase学习

摘要：总结:HBase是一个分布式的数据库主要作用: 海量数据的存储和海量数据的准实时查询一、HBase的应用场景应用场景交通、金融、电商、移动 HBase特点 (重点): 针对特点去思考容量大(针对TB级别的数据,千万起步) 列式存储(根据数据自动增加列),建表时不需要指定列多版本(针对具体列,进行管理) 扩展性(在分布式文件系统,不需要停掉集群,可在集群... 阅读全文

posted @ 2019-04-30 17:21 BBBone 阅读(150) 评论(0) 推荐(0) 编辑

kafka补充

摘要：阅读全文

posted @ 2019-04-30 17:20 BBBone 阅读(85) 评论(0) 推荐(0) 编辑

实际业务代码开发

摘要：数据清洗时间工具类开发:DateUtils.scalapackage com.imooc.utilsimport java.util.Dateimport org.apache.commons.lang3.time.FastDateFormat/** * 日期时间工具类 */object DateUtils {// 2019-03-31 06:00:00 val YYYYMMDDHHMMS... 阅读全文

posted @ 2019-04-30 17:17 BBBone 阅读(134) 评论(0) 推荐(0) 编辑

功能一: 数据库访问DAO层方法定义

摘要：功能1: 今天到现在为止实战课程的访问量yyyyMMdd courseID使用数据库来进行存储我们的统计结果 Spark Streaming把统计结果写入到数据库里面可视化前端根据: yyyyMMdd courseId 把数据库里面的统计结果展示出来选择什么数据库作为统计结果的存储呢? RDBMS: MySQL、Oracle... day ... 阅读全文

posted @ 2019-04-30 17:17 BBBone 阅读(1533) 评论(0) 推荐(0) 编辑

实时流处理项目具体步骤

摘要：一、产生实时数据(使用python编写),为以后的处理打基础构建:编写python脚本,用crontab定时执行编写python脚本文件,行内容包括time,ip,url,statu_code,referer的数据 generate_log.py#coding=UTF-8 # 导入random函数 import randomimport time# 定义url字段url_paths = [ ... 阅读全文

posted @ 2019-04-30 17:16 BBBone 阅读(544) 评论(0) 推荐(0) 编辑

数据处理,简易流程开发

摘要：跟项目经理，确认业务自己思考，写出大概流程，画出草体，跟同事交流，写出具体流程，画出具体流程图，确定业务，跟项目经理交流，进一步确定项目，开始进行项目的开发0 、创建项目scala项目：G A V ，构建项目目录树，导入依赖向pom.xml中导入依赖 2.11.8 0.9.0.0 2.2.0 org.scala-l... 阅读全文

posted @ 2019-04-30 17:15 BBBone 阅读(175) 评论(0) 推荐(0) 编辑

Azkaban使用

摘要： dependency1 创建一个带dependency的作业关键点: dependenciesfirst.job type=command command=echo "first"second.job type=command dependencies=first command=echo "second"将first.job和second.job一起压缩,创... 阅读全文

posted @ 2019-04-30 17:12 BBBone 阅读(297) 评论(0) 推荐(0) 编辑

hadoop构成

摘要： Hadoop的主要特点扩容能力: 能可靠地存储和处理PB级的数据.成本低: 可用廉价机器组成的服务器进行分发、处理数据.高效率: 通过分发数据,可在节点上进行处理,速度非常快.可靠性: 能自动维护数据的多份复制, 任务失败后能自动地重新部署计算任务.机架感知:概念:通过位置感知可以知道工作节点所处的机架(通过网络交换机)特点:HDFS使用机架感知在多个交换机的节点间复制数据,用于数据冗余.该方法降... 阅读全文

posted @ 2019-04-30 17:10 BBBone 阅读(362) 评论(0) 推荐(0) 编辑

Spark构成

摘要： RDDSpark基本的数据结构叫弹性分布式数据集(Resilient Distributed Datasets,简称RDD).概念: 一个分布于集群节点的只读数据集合,并以容错的、并行的方式进行维护. 为了解决MapReduce的性能问题,Spark使用RDD作为分布式程序的工作集合,它提供一种分布式共享内存的受限形式.在分布式共享内存系统中,应用可以向全局地址空间的任意位置进行读写操... 阅读全文

posted @ 2019-04-30 17:10 BBBone 阅读(374) 评论(0) 推荐(0) 编辑

CAP

摘要： CAP理论指的是任何一个分布式计算系统都不能同时保证如下三点: Consistency(一致性):所有节点上的数据时刻保持同步 Availability(可用性):每个请求都能接收到一个响应,无论响应成功或失败. Partition tolerance(分区容错性):系统应该能持续提供服务,无论网络中的任何分区失效. CA without P CP without A... 阅读全文

posted @ 2019-04-30 17:08 BBBone 阅读(194) 评论(0) 推荐(0) 编辑

Hive内置函数和自定义函数的使用

摘要：一、内置函数的使用查看当前hive版本支持的所有内置函数show function;查看某个函数的使用方法及作用,比如查看upper函数desc function upper;查看upper函数更为详细的信息desc function extended upper;转换为小写: lower()查询emp表中员工姓名,员工姓名小写显示select empno, ename, lower(ename)... 阅读全文

posted @ 2019-04-30 17:07 BBBone 阅读(471) 评论(0) 推荐(0) 编辑

Mysql部署

摘要： 1. 下载 Mysql 版本为: mysql-5.6.43-linux-glibc2.12-x86_64.tar.gz (注意:下载二进制文件) 存放位置: /usr/local2. 检查机器上是否安装了MySQL\## root用户 \$> ps -ef|grep mysqld \$> rpm -qa |grep -i mysql 3. 解压、改名\##roo... 阅读全文

posted @ 2019-04-30 17:04 BBBone 阅读(371) 评论(0) 推荐(0) 编辑

Spring Boot

摘要： SpringBoot的优点简化配置下一代Java Web框架微服务的入门级微框架课程目录开发第一个SpringBoot程序自定义属性配置Controller的使用spring-data-jpa(用于操作数据库,很方便)事务管理(数据库)结果: 可以开发一个小型的Java Web项目前置知识:利用maven构建项目Spring注解RESTful API注意:具备必要的前置知识不需要去学习Spring... 阅读全文

posted @ 2019-04-30 17:03 BBBone 阅读(273) 评论(0) 推荐(0) 编辑

BBBone

公告