……

上一页 1 ··· 32 33 34 35 36
2020年5月11日
摘要: 1.ElasticSearch的简介ElasticSearch:智能搜索,分布式的搜索引擎 是ELK的一个组成,是一个产品,而且是非常完善的产品,ELK代表的是:E就是ElasticSearch,L就是Logstach,K就是kibana E:EalsticSearch 搜索和分析的功能 L:Log 阅读全文
posted @ 2020-05-11 16:50 大码王 阅读(221) 评论(0) 推荐(0) 编辑
摘要: 随着央视诗词大会的热播,小史开始对诗词感兴趣,最喜欢的就是飞花令的环节。 但是由于小史很久没有背过诗词了,飞一个字很难说出一句,很多之前很熟悉的诗句也想不起来。 倒排索引 吕老师:但是我让你说出带“前”字的诗句,由于没有索引,你只能遍历脑海中所有诗词,当你的脑海中诗词量大的时候,就很难在短时间内得到 阅读全文
posted @ 2020-05-11 16:16 大码王 阅读(323) 评论(0) 推荐(0) 编辑
摘要: 第一章、redis入门 1,redis是什么 redis是一种支持Key-Value等多种数据结构的存储系统。可用于缓存,事件发布或订阅,高速队列等场景。该数据库使用ANSI C语言编写,支持网络,提供字符串,哈希,列表,队列,集合结构直接存取,基于内存,可持久化。 2,支持的语言 3,redis的 阅读全文
posted @ 2020-05-11 14:45 大码王 阅读(339) 评论(0) 推荐(0) 编辑
摘要: Linux下:redis安装 1.yum install gcc-c++ 2.redis安装包下:make 3.redis安装包下:make install PREFIX=/apps/redis 4.redis-server &启动 5.yum install -y ruby 6.yum insta 阅读全文
posted @ 2020-05-11 14:41 大码王 阅读(129) 评论(0) 推荐(0) 编辑
2020年5月9日
摘要: 前言 Flink是大数据处理领域最近很火的一个开源的分布式、高性能的流式处理框架,其对数据的处理可以达到毫秒级别。本文以一个来自官网的WordCount例子为引,全面阐述flink的核心架构及执行流程,希望读者可以借此更加深入的理解Flink逻辑。 本文跳过了一些基本概念,如果对相关概念感到迷惑,请 阅读全文
posted @ 2020-05-09 15:48 大码王 阅读(6091) 评论(0) 推荐(0) 编辑
2020年5月7日
摘要: 一.建表和加载数据 1.student表 create table if not exists student(s_id int,s_name string,s_birth string,s_sex string) row format delimited fields terminated by 阅读全文
posted @ 2020-05-07 23:22 大码王 阅读(472) 评论(0) 推荐(0) 编辑
摘要: 一、DataSet API之Data Sources(消费者之数据源) 介绍: flink提供了大量的已经实现好的source方法,你也可以自定义source 通过实现sourceFunction接口来自定义无并行度的source, 或者你也可以通过实现ParallelSourceFunction  阅读全文
posted @ 2020-05-07 23:17 大码王 阅读(1092) 评论(0) 推荐(1) 编辑
摘要: 一、DataStream API之Data Sources(消费者之数据源) 介绍: source是程序的数据源输入,你可以通过StreamExecutionEnvironment.addSource(sourceFunction)来为你的程序添加一个source。 flink提供了大量的已经实现好 阅读全文
posted @ 2020-05-07 23:16 大码王 阅读(1056) 评论(0) 推荐(0) 编辑
摘要: Flink面试--核心概念和基础考察 1、简单介绍一下 Flink 2、Flink 相比传统的 Spark Streaming 有什么区别? 3、Flink 的组件栈有哪些? 面试知识带你,分为以下几个部分: 第一部分:Flink 中的核心概念和基础篇,包含了 Flink 的整体介绍、核心概念、算子 阅读全文
posted @ 2020-05-07 23:05 大码王 阅读(721) 评论(1) 推荐(0) 编辑
摘要: Flink 面试--进阶篇 1、Flink是如何支持批流一体的? 2、Flink是如何做到高效的数据交换的? 3、Flink是如何做容错的? 4、Flink 分布式快照的原理是什么? 5、Flink 是如何保证Exactly-once语义的? 6、Flink 的 kafka 连接器有什么特别的地方? 阅读全文
posted @ 2020-05-07 23:04 大码王 阅读(1835) 评论(0) 推荐(0) 编辑
摘要: Flink面试--源码篇 1、Flink Job的提交流程? 2、Flink所谓"三层图"结构是哪几个"图"? 3、JobManger在集群中扮演了什么角色? 4、JobManger在集群启动过程中起到什么作用? 5、JobManger在集群启动过程中起到什么作用? 6、JobManger在集群启动 阅读全文
posted @ 2020-05-07 23:03 大码王 阅读(873) 评论(1) 推荐(1) 编辑
该文被密码保护。 阅读全文
posted @ 2020-05-07 11:38 大码王 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 1、Spark调优背景 目前Zeppelin已经上线一段时间,Spark作为底层SQL执行引擎,需要进行整体性能调优,来提高SQL查询效率。本文主要给出调优的结论,因为涉及参数很多,故没有很细粒度调优,但整体调优方向是可以得出的。 环境:服务器600+,spark 2.0.2,Hadoop 2.6. 阅读全文
posted @ 2020-05-07 11:08 大码王 阅读(374) 评论(0) 推荐(0) 编辑
摘要: 1. 概述 1.1 hive的特征: 可以通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析; 它可以使已经存储的数据结构化; 可以直接访问存储在Apache HDFS或其他数据存储系统(如Apache HBase)中的文件; Hive除了支持MapRe 阅读全文
posted @ 2020-05-07 11:06 大码王 阅读(679) 评论(0) 推荐(0) 编辑
摘要: 一、高性能Flink SQL优化技巧 1、Group Aggregate优化技巧 开启MicroBatch或MiniBatch(提升吞吐) MicroBatch和MiniBatch都是微批处理,只是微批的触发机制略有不同。原理同样是缓存一定的数据后再触发处理,以减少对State的访问,从而提升吞吐并 阅读全文
posted @ 2020-05-07 11:01 大码王 阅读(4356) 评论(0) 推荐(0) 编辑
摘要: 1、使用机器学习来解决问题,我们用数学语言来描述它,然后建立一个模型,例如回归模型或者分类模型等来描述这个问题; 2、通过最小化误差、最大似然、最大后验概率等等建立模型的代价函数,转化为最优化问题。找到最优化问题的解,也就是能拟合我们的数据的最好的模型参数; 3、求解这个代价函数,找到最优解。 求最 阅读全文
posted @ 2020-05-07 10:48 大码王 阅读(2744) 评论(0) 推荐(0) 编辑
摘要: Flink学习笔记 一.简介 1.定义: ​ 针对流数据和批数据的分布式处理引擎。它主要是由 Java 代码实现。。 2.应用场景: ​ 流数据:把所有任务当成流来处理,处理观察和分析连续事件产生的数据。 3.重要角色: ​ ①Client :用来提交任务给JobManager。 ​ ②JobMan 阅读全文
posted @ 2020-05-07 10:11 大码王 阅读(756) 评论(0) 推荐(0) 编辑
上一页 1 ··· 32 33 34 35 36
复制代码