摘要: 不是每个程序员天生对递归理解深刻,刚入大一时候,当别人写出第一个求最大公约数的递归函数时,对其多么的惊叹,竟然可以不用循环,竟然代码可以这么简洁,确实递归在大多数情况下实现时候代码很短,大部分人也知道递归,也能基本看懂递归,可是却经常不知道怎么写,或者写出来的递归经常死循环,写算法往往也是学的是套路 阅读全文
posted @ 2020-12-06 15:54 Hoult丶吴邪 阅读(792) 评论(0) 推荐(0) 编辑
摘要: 0.架构简介 模拟线上的实时流,比如用户的操作日志,采集到数据后,进行处理,暂时只考虑数据的采集,使用Html+Jquery+Nginx+Ngx_kafka_module+Kafka来实现,其中Ngx_kafka_module 是开源的专门用来对接Nginx和Kafka的一个组件。 1.需求描述 1 阅读全文
posted @ 2020-12-06 15:52 Hoult丶吴邪 阅读(354) 评论(0) 推荐(0) 编辑
摘要: 实时流接入数仓,基本在大公司都会有,在Flume1.8以后支持taildir source, 其有以下几个特点,而被广泛使用: 1.使用正则表达式匹配目录中的文件名 2.监控的文件中,一旦有数据写入,Flume就会将信息写入到指定的Sink 3.高可靠,不会丢失数据 4.不会对跟踪文件有任何处理,不 阅读全文
posted @ 2020-12-06 15:50 Hoult丶吴邪 阅读(340) 评论(0) 推荐(0) 编辑
摘要: 1.思考 只要对hadoop中mapreduce的原理清楚的都熟知下面的整个流程运行原理,其中涉及到至少三次排序,分别是溢写快速排序,溢写归并排序,reduce拉取归并排序,而且排序是默认的,即天然排序的,那么为什么要这么做的,设计原因是什么。先给个结论,为了整体更稳定,输出满足多数需求,前者体现在 阅读全文
posted @ 2020-12-06 15:48 Hoult丶吴邪 阅读(212) 评论(0) 推荐(0) 编辑
摘要: 算法中的双指针使用,有时候会觉得很巧妙,解决了很多的问题,有必要归纳总结一下,首先双指针也是个很宽泛的概念,它类似于遍历中的 i 和 j 但是其区别是,两个指针是同时移动的,即没有贡献复杂度从O(N) 到 O(N*N) ,所以被很多算法大佬所推崇,所以基于此归纳总结出双指针的常见解法和套路。 1.题 阅读全文
posted @ 2020-12-06 15:46 Hoult丶吴邪 阅读(338) 评论(0) 推荐(0) 编辑
摘要: 1 问题 除了像Alibaba 的 Dataworks 外,很难有另外的公司能够把数据调度,数据监控,数据血缘,元数据管理等作为一体化的平台了,包括我司在内的一些厂,往往把这些建设独立开来,由不同的团队负责,其中数据平台调度功能是绝大多数公司都有的基础平台,但是调度的功能程度就各不同了,下面的问题当 阅读全文
posted @ 2020-12-06 15:45 Hoult丶吴邪 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 1.sql题描述 话说有一个日志表,只有两列,分别是连续id和num 至于啥意思,把它当金额把。现在想知道连续次数3次及以上的num,数据如下 id num 1 1 2 1 3 1 4 2 5 3 6 4 7 4 8 4 那么结果只有1,4满足条件,问这个sql该怎么写? 2.思路和解法 分析:题目 阅读全文
posted @ 2020-12-06 15:43 Hoult丶吴邪 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 1.问题背景 通过flume直接上传实时数据到hdfs,会常遇到的一个问题就是小文件,需要调参数来设置,往往在生产环境参数大小也不同 1.flume滚动配置为何不起作用? 2.通过源码分析得出什么原因? 3.该如何解决flume小文件? 2. 过程分析 接着上一篇,https://blog.csdn 阅读全文
posted @ 2020-12-06 15:42 Hoult丶吴邪 阅读(765) 评论(1) 推荐(0) 编辑
摘要: 前面是常用日期函数总结,后面是一道连续日期的sql题目及其解法套路。 1.当前日期和时间 select current_timestamp -- 2020-12-05 19:16:29.284 2.获取当前日期,当前是 2020-12-05 SELECT current_date; ## OR SE 阅读全文
posted @ 2020-12-06 15:37 Hoult丶吴邪 阅读(1347) 评论(0) 推荐(0) 编辑