一y样

2020年2月26日

摘要：来源：　https://blog.csdn.net/Wu000999/article/details/83550275 断点是最常用的软件调试技术之一,其基本思想是在某一个位置设置一个“陷阱”,当CPU执行到这个位置的时候停止被调试的程序并中断到调试器中,让调试者进行分析和调试,调试者分析结束后,可阅读全文

posted @ 2020-02-26 21:03 一y样阅读(177) 评论(0) 推荐(0) 编辑

2020年2月11日

大数据学习day33----spark13-----1.两种方式管理偏移量并将偏移量写入redis 2. MySQL事务的测试 3.利用MySQL事务实现数据统计的ExactlyOnce（sql语句中出现相同key时如何进行累加（此处时出现相同的单词））4 将数据写入kafka

摘要： 1.两种方式管理偏移量并将偏移量写入redis （1）第一种：rdd的形式一般是使用这种直连的方式，但其缺点是没法调用一些更加高级的api，如窗口操作。如果想更加精确的控制偏移量，就使用这种方式代码如下 KafkaStreamingWordCountManageOffsetRddApi pack 阅读全文

posted @ 2020-02-11 23:12 一y样阅读(438) 评论(0) 推荐(0) 编辑

2020年1月9日

大数据学习day32-----spark12-----1. sparkstreaming（1.1简介，1.2 sparkstreaming入门程序（统计单词个数，updateStageByKey的用法，1.3 SparkStreaming整合Kafka，1.4 SparkStreaming获取KafkaRDD的偏移量，并将偏移量写入kafka中）

摘要： 1. Spark Streaming 1.1 简介（来源：spark官网介绍） Spark Streaming是Spark Core API的扩展，其是支持可伸缩、高吞吐量、容错的实时数据流处理。Spark Streaming的数据源可以为kafka，Flume，Kinesis或者是TCP sock 阅读全文

posted @ 2020-01-09 11:28 一y样阅读(261) 评论(0) 推荐(0) 编辑

2020年1月7日

大数据学习day31------spark11-------1. Redis的安装和启动，2 redis客户端 3.Redis的数据类型 4. kafka（安装和常用命令）5.kafka java客户端

摘要： 1. Redis Redis是目前一个非常优秀的key-value存储系统（内存的NoSQL数据库）。和Memcached类似，它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sorted set有序集合)和hash（哈希类型）。 1.1 阅读全文

posted @ 2020-01-07 20:56 一y样阅读(184) 评论(0) 推荐(0) 编辑

2020年1月4日

大数据学习day30-----spark10-------

摘要：阅读全文

posted @ 2020-01-04 20:25 一y样阅读(110) 评论(0) 推荐(0) 编辑

2020年1月3日

大数据学习day29-----spark09-------1. 练习：统计店铺按月份的销售额和累计到该月的总销售额（SQL, DSL,RDD） 2. 分组topN的实现（row_number(), rank(), dense_rank()方法的区别）3. spark自定义函数-UDF

摘要： 1. 练习数据：（1）需求1：统计有过连续3天以上销售的店铺有哪些,并且计算出连续三天以上的销售额第一步：将每天的金额求和（同一天可能会有多个订单） SELECT sid,dt,SUM(money) day_money FROM v_orders GROUP BY sid,dt View Co 阅读全文

posted @ 2020-01-03 10:05 一y样阅读(1133) 评论(0) 推荐(0) 编辑

2019年12月30日

大数据学习day28-----hive03------1. null值处理，子串，拼接，类型转换 2.行转列，列转行 3. 窗口函数（over，lead,lag等函数） 4.rank（行号函数）5. json解析函数 6.jdbc连接hive，企业级调优

摘要： 1. null值处理，子串，拼接，类型转换（1）空字段赋值（null值处理）当表中的某个字段为null时，比如奖金，当你要统计一个人的总工资时，字段为null的值就无法处理，这个时候就可以使用NVL函数 NVL：给值为NULL的数据赋值，它的格式是NVL( string1, replace_w 阅读全文

posted @ 2019-12-30 20:41 一y样阅读(569) 评论(0) 推荐(0) 编辑

2019年12月27日

大数据学习----day27----hive02------1. 分桶表以及分桶抽样查询 2. 导出数据 3.Hive数据类型 4 逐行运算查询基本语法（group by用法，原理补充） 5.case when（练习题，多表关联）6 排序

摘要： 1. 分桶表以及分桶抽样查询 1.1 分桶表对Hive(Inceptor)表分桶可以将表中记录按分桶键(某个字段对应的的值)的哈希值分散进多个文件中，这些小文件称为桶。如要按照name属性分为3个桶，就是对name属性值的hash值对3取摸，按照取模结果对数据分桶。如取模结果为0的数据记录存放到阅读全文

posted @ 2019-12-27 15:10 一y样阅读(712) 评论(0) 推荐(0) 编辑

2019年12月23日

大数据学习day26----hive01----1hive的简介 2 hive的安装（hive的两种连接方式，后台启动，标准输出，错误输出）3. 数据库的基本操作 4. 建表（内部表和外部表的创建以及应用场景，数据导入，学生、分数sql练习）5.分区表 6加载数据的方式

摘要： 1. hive的简介（具体见文档） Hive是分析处理结构化数据的工具本质：将hive sql转化成MapReduce程序或者spark程序 Hive处理的数据一般存储在HDFS上，其分析数据底层的实现是MapReduce/spark，执行程序运行在Yarn上其大致可以按如下图理解（具体可见HI 阅读全文

posted @ 2019-12-23 23:15 一y样阅读(404) 评论(0) 推荐(0) 编辑

2019年12月19日

大数据学习day25------spark08-----1. 读取数据库的形式创建DataFrame 2. Parquet格式的数据源 3. Orc格式的数据源 4.spark_sql整合hive 5.在IDEA中编写spark程序（用来操作hive） 6. SQL风格和DSL风格以及RDD的形式计算连续登陆三天的用户

摘要： 1. 读取数据库的形式创建DataFrame DataFrameFromJDBC object DataFrameFromJDBC { def main(args: Array[String]): Unit = { // 创建SparkSession实例 val spark: SparkSessio 阅读全文

posted @ 2019-12-19 15:06 一y样阅读(406) 评论(0) 推荐(0) 编辑

公告