2020 年 10月随笔档案 - 勤奋的园

shell脚本将字符串按指定分隔符切分成数组

摘要：Shell 数组用括号来表示，元素用"空格"符号分割开，语法格式如下： array_name=(value1 value2 ... valuen) keyword=1,sdg,ddd array=(${keyword//,/ }) len=${#array[*]} 本质是利用了将keyword变量中阅读全文

posted @ 2020-10-27 17:23 勤奋的园阅读(5107) 评论(0) 推荐(1) 编辑

SparkStreaming

摘要：一、Spark Streaming概述 1.1 Spark Streaming是什么 Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的阅读全文

posted @ 2020-10-25 23:07 勤奋的园阅读(464) 评论(0) 推荐(0) 编辑

SparkSQL

摘要：一、Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集阅读全文

posted @ 2020-10-25 17:36 勤奋的园阅读(237) 评论(0) 推荐(0) 编辑

SparkCore2

摘要：二、RDD编程 2.5 RDD中的函数传递在实际开发中我们往往需要自己定义一些对于RDD的操作，那么此时需要主要的是，初始化工作是在Driver端进行的，而实际运行程序是在Executor端进行的，这就涉及到了跨进程通信，是需要序列化的。下面我们看几个例子： 2.5.1 传递一个方法 1．创建一个阅读全文

posted @ 2020-10-25 16:09 勤奋的园阅读(84) 评论(0) 推荐(0) 编辑

SparkCore

摘要：一、RDD概述 1.1 什么是RDD RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象。代码中是一个抽象类，它代表一个不可变、可分区、里面的元素可并行计算的集合。 1.2 RDD的属性 1) 一组分区（Partition），即数据集阅读全文

posted @ 2020-10-19 22:14 勤奋的园阅读(236) 评论(0) 推荐(0) 编辑

SQL

摘要：非数字列都要加引号 where是对原表过滤，having是对结果表，where不能使用聚合函数 GROUP BY 和 HAVING 是从表中选取数据时用来改变抽取数据形式的，而 ORDER BY 是用来指定取得结果显示顺序的阅读全文

posted @ 2020-10-19 20:31 勤奋的园阅读(65) 评论(0) 推荐(0) 编辑

Spark基础

摘要：一、Spark概述 1.1 什么是Spark 1.2 Spark内置模块 Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet，简称RDD 阅读全文

posted @ 2020-10-18 15:58 勤奋的园阅读(136) 评论(0) 推荐(0) 编辑

idea使用maven的打包工具package不会打上主类解决方法

摘要：阅读全文

posted @ 2020-10-14 20:54 勤奋的园阅读(592) 评论(0) 推荐(0) 编辑

使用Observer实现HBase到Elasticsearch的数据同步

摘要：最近在公司做统一日志收集处理平台，技术选型肯定要选择elasticsearch，因为可以快速检索系统日志，日志问题排查及功业务链调用可以被快速检索，公司各个应用的日志有些字段比如说content是不需要在es中作为存储的，当时考虑使用一种keyValue形式的数据库作存储，然后使用hbase的Row 阅读全文

posted @ 2020-10-09 20:07 勤奋的园阅读(568) 评论(0) 推荐(0) 编辑

通过HBase Observer同步数据到ElasticSearch

摘要：Observer希望解决的问题 HBase是一个分布式的存储体系，数据按照RowKey分成不同的Region，再分配给RegionServer管理。但是RegionServer只承担了存储的功能，如果Region能拥有一部分的计算能力，从而实现一个HBase框架上的MapReduce，那HBase的阅读全文

posted @ 2020-10-09 20:00 勤奋的园阅读(343) 评论(0) 推荐(0) 编辑

Spring依赖注入

摘要：package com.atguigu.spring.dao; public interface UserDao { void saveUser(); } package com.atguigu.spring.dao; import org.springframework.stereotype.Re 阅读全文

posted @ 2020-10-01 21:11 勤奋的园阅读(117) 评论(0) 推荐(0) 编辑

勤奋的园

10 2020 档案

公告