一、IDC :Internet Data Center,即互联网数据中心,简称IDC机房。 就是用来存放服务器的地方,是实体服务器的集群。这是随着互联网发展而兴起的服务器托管、租用、运维以及网络接入服务的业务。通过IDC服务,企业或政府单位无需再建立自己的专用机房、铺设昂贵的通信线路,也无需聘请网络 Read More
event time: 数据在源头的发生时间,跟flink无关,数据产生时就已经确定过了 processing time : 数据在flink中开始被处理的时间,跟flink有关 ingestion time : 数据到达flink集群中的时间 Read More
ProcessingTime是以operator处理的时间为准,它使用的是机器的系统时间来作为data stream的时间 IngestionTime是以数据进入flink streaming data flow的时间为准 EventTime是以数据自带的时间戳字段为准,应用程序需要指定如何从rec Read More
in的改写 考虑以下 SQL 查询语句: SELECT a.key, a.value FROM aWHERE a.key in (SELECT b.key FROM B); 可以改为: SELECT a.key, a.valueFROM a LEFT OUTER JOIN b ON (a.key = Read More
如果不指定MapJoin或者不符合MapJoin的条件,那么Hive解析器会将Join操作转换成Common Join,即:在Reduce阶段完成join。容易发生数据倾斜。可以用MapJoin把小表全部加载到内存在map端进行join,避免reducer处理 开启MapJoin参数设置 设置自动选 Read More
#!/usr/bin/env python3from HiveTask import HiveTaskimport osimport syssys.path.append(os.getenv('HIVE_TASK')) ht = HiveTask() data_day_str = sys.argv[ Read More
hive.exec.parallel可以控制一个sql中多个可并行执行的job的运行方式.当hive.exec.parallel为true的时候,同一个sql中可以并行执行的job会并发的执行. 而参数hive.exec.parallel.thread.number就是控制对于同一个sql来说同时可 Read More