05 2022 档案

摘要:http://hive.apache.org/ The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed st 阅读全文
posted @ 2022-05-31 17:53 匠人先生 阅读(244) 评论(0) 推荐(0) 编辑
摘要:SQL-Structured Query Language 语言简洁,易学易用 DDL:Create、Drop、Alter DML:ISUD(Insert、Select、Update、Delete) 权限 Grant、Revoke 场景 olap(Analysis) oltp(Transaction 阅读全文
posted @ 2022-05-31 17:22 匠人先生 阅读(136) 评论(0) 推荐(0) 编辑
摘要:https://hadoop.apache.org A framework for job scheduling and cluster resource management. 一 部署 角色 ResourceManager、NodeManager 客户端 Job、AppMaster、Contai 阅读全文
posted @ 2022-05-31 16:17 匠人先生 阅读(267) 评论(0) 推荐(0) 编辑
摘要:https://hadoop.apache.org A distributed file system that provides high-throughput access to application data. 特点: 大文件、一次写入多次读取,修改只支持Append 多副本 流式、非低延时 阅读全文
posted @ 2022-05-31 16:05 匠人先生 阅读(273) 评论(0) 推荐(0) 编辑
摘要:机器学习算法 Classification 分类:性别分类、年龄分类 Clustering 聚类:常用地址聚类 Regression 回归:销量预测,续航里程预测 Collaborative Filtering 协同过滤(User-based, Item-based):个性化推荐 流程 pipeli 阅读全文
posted @ 2022-05-31 12:39 匠人先生 阅读(62) 评论(0) 推荐(0) 编辑
摘要:一 50年科技发展史 方向 公司组织 年代 代表 大型机 IBM 70年代 System z、AIX 小型机 DEC、SUN 80年代 SPARC、Solaris 廉价PC+光纤 Google 90年代 Intel、Seagate 大数据 Google 2003-2004 GFS、MapReduce 阅读全文
posted @ 2022-05-31 12:10 匠人先生 阅读(154) 评论(0) 推荐(0) 编辑
摘要:1 冷热分离(Hot/Warm/Cold) Index Lifecircle Management Policy 索引特点 Hot: 索引被更新,大量被查询 Warm: 索引不更新,偶尔被查询 Cold: 索引不更新,很少被查询 Delete: 索引不更新,不被查询 参考:https://www.e 阅读全文
posted @ 2022-05-29 19:11 匠人先生 阅读(117) 评论(0) 推荐(0) 编辑
摘要:一 测试数据 SSB (Star Schema Benchmark) SSB SSB将TPC-H的雪花模式简化为了星型模式,将基准查询由TPC-H的复杂Ad-Hoc查询改为了结构更固定的OLAP查询 table comment lineorder 订单表 customer 用户表 supplier 阅读全文
posted @ 2022-05-20 18:09 匠人先生 阅读(475) 评论(0) 推荐(0) 编辑
摘要:*** doris clickhouse 官网 http://doris.apache.org/ https://clickhouse.tech/ 版本 0.14.0 21.7.2.7 开源 是 是 开发语言 * java + c c 安装 源码编译 rpm包 定位 olap olap 架构 mpp 阅读全文
posted @ 2022-05-20 18:01 匠人先生 阅读(2166) 评论(0) 推荐(0) 编辑
摘要:所有选项如下: 命令示例如下: bin/kafka-consumer-groups.sh --bootstrap-server kafka_1:9092,kafka_2:9092,kafka_3:9092,kafka_4:9092,kafka_5:9092 --group group_name -- 阅读全文
posted @ 2022-05-20 18:00 匠人先生 阅读(684) 评论(0) 推荐(0) 编辑
摘要:kafka开启压缩后,可以极大的优化磁盘占用和网络传输开销,以及cpu占用和gc时间,开启压缩的参数为compression.type Specify the final compression type for a given topic. This configuration accepts t 阅读全文
posted @ 2022-05-20 17:52 匠人先生 阅读(1201) 评论(0) 推荐(0) 编辑
摘要:impala从3.1版本开始支持orc格式查询,不过是experimental 开启方法,在cdh的impala配置中添加 --enable_orc_scanner=true 然后重启impala集群。 官方文档: https://docs.cloudera.com/documentation/en 阅读全文
posted @ 2022-05-20 17:18 匠人先生 阅读(510) 评论(0) 推荐(0) 编辑
摘要:hive-site.xml 1 接入ldap或ad域 <property> <name>hive.server2.authentication</name> <value>LDAP</value> </property> <property> <name>hive.server2.authentic 阅读全文
posted @ 2022-05-20 16:51 匠人先生 阅读(834) 评论(0) 推荐(0) 编辑
摘要:背景 有同学反馈kafka某个topic有消息丢失(消费比生产的要少),丢失率大概20% 排查 出现问题的topic的replication-factor为2,partition数量为5,该topic状态如下: 有一个topic处于Under Replicated状态,ISR只有1个,193节点被踢 阅读全文
posted @ 2022-05-20 16:17 匠人先生 阅读(2440) 评论(0) 推荐(0) 编辑
摘要:背景 kafka执行reassign后部分partition一直is still in progress,日志如下: 定位 经排查发现问题原因是做reassign的时候,将分区从相同broker的一个盘移动到另一个盘,这个操作目前还不被支持,官方解释如下 How to move replica be 阅读全文
posted @ 2022-05-19 17:32 匠人先生 阅读(487) 评论(0) 推荐(0) 编辑
摘要:背景 2个节点分别升级spark版本,从2.4升级到3.1,升级后一个节点执行spark-sql正常,另一个节点执行报错,报错信息如下: spark-sql> select * from $table where dt = '$dt' limit 5; Error in query: org.apa 阅读全文
posted @ 2022-05-19 16:51 匠人先生 阅读(889) 评论(0) 推荐(0) 编辑
摘要:背景 hive读取纯文本数据,无论是:原始格式、gzip、bzip,都可以自动识别,不需要修改建表语句或修改setting。 但是使用gobblin开启gzip压缩之后保存文件使用hive读取发生乱码。 定位 首先怀疑是文件损坏 gobblin开启压缩之后写的文件为:*.txt.gzip,将该文件下 阅读全文
posted @ 2022-05-19 16:32 匠人先生 阅读(553) 评论(0) 推荐(0) 编辑
摘要:假如hive中table或者partition的location错误或者丢失,需要批量修复,可以参考如下步骤: 修复table的location hdfs dfs -ls /data/hive/warehouse/$db | awk '{print $8}' |sed '1d' | awk -F ' 阅读全文
posted @ 2022-05-19 16:20 匠人先生 阅读(343) 评论(0) 推荐(0) 编辑
摘要:背景 在hive sql中执行添加临时udf的操作 add jar hdfs:///user/hive/lib/tools-1.0.jar; create temporary function decode as 'com.test.etl.Decoder'; 在定时任务重偶尔会报错,报错比较随机, 阅读全文
posted @ 2022-05-19 15:11 匠人先生 阅读(382) 评论(0) 推荐(0) 编辑
摘要:背景 kafka部分进程重启,报错如下: java.io.IOException: Too many open files at sun.nio.ch.ServerSocketChannelImpl.accept(ServerSocketChannelImpl.java:422) at sun.ni 阅读全文
posted @ 2022-05-19 14:41 匠人先生 阅读(718) 评论(0) 推荐(0) 编辑
摘要:现象 hbase的region server进程大面积重启 排查 第一个重启的region server节点有如下报错: 2021-12-03 14:44:11,948 WARN org.apache.hadoop.hdfs.DFSClient: Failed to connect to /$ser 阅读全文
posted @ 2022-05-19 14:15 匠人先生 阅读(1169) 评论(0) 推荐(0) 编辑
摘要:背景 某天开始集群网络带宽被占满 登录出问题的节点,通过iftop发现有大量出网方向的流量 hadoop-* ⇒ c-73-29-172-82.hsd1.nj.comcast.net 422Mb 433Mb 236Mb ⇐ 0b 0b 0b hadoop-* ⇒ cpe-75-187-235-200 阅读全文
posted @ 2022-05-19 10:57 匠人先生 阅读(361) 评论(0) 推荐(0) 编辑
摘要:背景 logstash集群,每个节点服务器配置和任务配置相同,但是其中一个节点发生比较大的消费延迟 定位 观察发现出问题的节点负载比其他节点要低很多,进一步对比logstash进程内线程的情况,发现出问题的节点只有4个worker进程,而正常节点有16个worker进程 进一步排查发现问题节点的lo 阅读全文
posted @ 2022-05-18 17:47 匠人先生 阅读(443) 评论(0) 推荐(0) 编辑
摘要:linux桌面有时会出现蓝牙失效的情况,这时所有蓝牙设备都连接不上,通过重启或者开关蓝牙都无法解决问题,而且设备无法通过删除之后重新添加的方式恢复连接 蓝牙命令行 bluetoothctl 查看状态 rfkill list 发现蓝牙处于block状态 rfkill unblock all 蓝牙恢复 阅读全文
posted @ 2022-05-13 17:28 匠人先生 阅读(365) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示