Hoult丶吴邪

2021年3月7日

摘要： 1.连接mysql --driver-class-path mysql-connector-java-5.1.21.jar 在数据库中，SET GLOBAL binlog_format=mixed; 2.Spark中使用Hive的udf 同样使用—jars 才行 3.Spark jupyter使用阅读全文

posted @ 2021-03-07 22:50 Hoult丶吴邪阅读(457) 评论(0) 推荐(0) 编辑

大数据实战-Hive-技巧实战

摘要： 1.union 和 union all 前者可以去重 select sex,address from test where dt='20210218' union all select sex,address from test where dt='20210218'; + + +--+ | sex 阅读全文

posted @ 2021-03-07 19:43 Hoult丶吴邪阅读(148) 评论(0) 推荐(0) 编辑

2021年2月28日

大数据开发-Spark-Streaming处理数据到mysql

摘要：前面一篇讲到streamin读取kafka数据加工处理后写到kafka数据，大数据开发-Spark-开发Streaming处理数据 && 写入Kafka是针对比如推荐领域，实时标签等场景对于实时处理结果放到mysql也是一种常用方式，假设一些车辆调度的地理位置信息处理后写入到mysql 1.说明数阅读全文

posted @ 2021-02-28 13:02 Hoult丶吴邪阅读(360) 评论(0) 推荐(0) 编辑

2021年2月27日

算法 - 链表操作思想 && case

摘要：算法 - 链表操作题目套路前面这一篇文章主要讲链表操作时候的实操解决方式，本文从本质讲解链表操作的元信息，学完后，再也不怕链表操作题目了。 1.链表的基本操作链表的基本操作无外乎插入，删除，遍历插入的化，要考虑到前驱节点和后继节点，记住下面的伪代码 nex = 当前节点.next 当前节点.n 阅读全文

posted @ 2021-02-27 23:36 Hoult丶吴邪阅读(147) 评论(0) 推荐(0) 编辑

2021年2月23日

Hive-常见调优方式 && 两个面试sql

摘要： Hive作为大数据领域常用的数据仓库组件，在设计和开发阶段需要注意效率。影响Hive效率的不仅仅是数据量过大；数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等因素都对Hive的效率有影响。对Hive的调优既包含对HiveQL语句本身的优化，也包含Hive配置项和MR方面的调整阅读全文

posted @ 2021-02-23 17:43 Hoult丶吴邪阅读(838) 评论(0) 推荐(1) 编辑

开发工具-scala处理json格式利器-json4s

摘要： 1.为什么是json4s 从json4s的官方描述 At this moment there are at least 6 json libraries for scala, not counting the java json libraries. All these libraries have 阅读全文

posted @ 2021-02-23 11:38 Hoult丶吴邪阅读(967) 评论(0) 推荐(0) 编辑

2021年2月20日

大数据开发-linux下常见问题详解

摘要： 1.user ss is currently user by process 3234 问题原因：root --> ss --> root 栈递归一样解决方式：exit 退出当前到ss再退出到root 然后执行命令即可。 2.列出某目录下的目录而不是文件参考：ls --https://jingy 阅读全文

posted @ 2021-02-20 10:46 Hoult丶吴邪阅读(168) 评论(0) 推荐(0) 编辑

2021年2月15日

大数据开发--Hbase协处理器案例

摘要：大数据开发--Hbase协处理器案例 1. 需求描述在社交网站，社交APP上会存储有大量的用户数据以及用户之间的关系数据，比如A用户的好友列表会展示出他所有的好友，现有一张Hbase表，存储就是当前注册用户的好友关系数据，如下需求使用Hbase相关API创建一张结构如上的表删除好友操作实现（阅读全文

posted @ 2021-02-15 16:11 Hoult丶吴邪阅读(317) 评论(0) 推荐(0) 编辑

2021年2月14日

大数据开发-linux后台运行，关闭，查看后台任务

摘要：在日常开发过程中，除了例行调度的任务和直接在开发环境下比如Scripts，开发，很多情况下是shell下直接搞起（小公司一般是这样），看一下常见的linux后台运行和关闭的命令，这里做一个总结，主要包括：fg、bg、jobs、&、nohup、ctrl+z、ctrl+c 命令等一、& 加在一个命令的阅读全文

posted @ 2021-02-14 19:43 Hoult丶吴邪阅读(217) 评论(0) 推荐(0) 编辑

2021年2月13日

大数据开发-从cogroup的实现来看join是宽依赖还是窄依赖

摘要：前面一篇文章提到大数据开发-Spark Join原理详解,本文从源码角度来看cogroup 的join实现 1.分析下面的代码 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} obje 阅读全文

posted @ 2021-02-13 19:24 Hoult丶吴邪阅读(141) 评论(0) 推荐(0) 编辑

A lot can happen between now and never.

公告