06 2021 档案
ES核心概念和原理(一)
摘要:什么是搜索:百度、淘宝【垂直搜索(站内搜索)】 通过一个关键词或一段描述,得到你想要的(相关度高)结果。 如何实现搜索功能 关系型数据库:性能差、不可靠、结果不准确(相关度低) 假如数据库有一千万数据,关系型只能模糊查询,模糊查询索引失效,时间复杂度是O(n) ,如果对输入的词进行分词,假如分5个单
阅读全文
Flink-State(五)
摘要:说明: Flink是一个有状态的流式计算引擎,所以会将中间计算结果(状态)进行保存,默认保存到TaskManager 的堆内存中,但是当task挂掉,那么这个task所对应的状态都会被清空,造成了数据丢失,无法保证结 果的正确性,哪怕想要得到正确结果,所有数据都要重新计算一遍,效率很低。想要保证At
阅读全文
Flink-Sink(四)
摘要:Redis-Sink使用Flink内嵌 RedisSink <dependency> <groupId>org.apache.bahir</groupId> <artifactId>flink-connector-redis_2.11</artifactId> <version>1.0</versi
阅读全文
Flink-Dataflows分区策略(四)
摘要:shuffle 场景:增大分区、提高并行度,解决数据倾斜 DataStream → DataStream 分区元素随机均匀分发到下游分区,网络开销比较大 val env = StreamExecutionEnvironment.getExecutionEnvironment val stream =
阅读全文
Flink-transformation(四)
摘要:ke01开启: nc -lk 8888 Map:遍历数据流中的每一个元素,产生一个新的元素 package com.text.transformation import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment i
阅读全文
Flink-读取文件的方式(三)
摘要:从HDFS上读取文件 //在算子转换的时候,会将数据转换成Flink内置的数据类型,所以需要将隐式转换导入进来,才能自动进行类型转换 import org.apache.flink.streaming.api.scala._ val env = StreamExecutionEnvironment.
阅读全文
大数据常用默认端口
摘要:HADOOP 端口 说明 50070 HDFS WEB UI端口 8020 高可用的HDFS RPC端口 9000 非高可用的HDFS RPC端口 8088 yarn的WEB UI接口 8485 JournalNode的RPC端口 8019 ZKFC端口 19888 MapReduce 8032 y
阅读全文
Flink-API(二)
摘要:Flink API介绍 1.Stateful Stream Processing 最低级的抽象接口是状态化的数据流接口 2.DataStream/DataSet API 是 Flink 提供的核心 API ,DataSet 处理 有界的数据集,DataStream 处理有界或者无界的数据流。 3.T
阅读全文
Flink初识与搭建(一)
摘要:Spark生态圈 spark core 批计算 取代了MR spark streaming 流计算 取代了storm(没有自己的生态圈,所以不火) spark sql spark mlib 机器学习 问:spark core为什么会取代MR?spark计算速度为什么比MR快? 1. spark申请资
阅读全文
浙公网安备 33010602011771号