_XiongH - 博客园

2023年11月23日

摘要： sqoop import \ -D yarn.app.mapreduce.am.resource.mb=1024 \ -D yarn.scheduler.minimum-allocation-mb=8096 \-D yarn.scheduler.maximum-allocation-mb=16192 阅读全文

posted @ 2023-11-23 10:48 _XiongH 阅读(304) 评论(0) 推荐(0)

2022年10月13日

安装pyflink1.15.2报错[gcc: error: unrecognized command line option '-std=c++14']解决方法

摘要：问题描述：安装一些pyflink1.15.2时报错：gcc: error: unrecognized command line option ‘-std=c++14’ 解决方案升级gcc版本为5.2.0升级g++版本为5.2.0 实施步骤 cd /usr/local/src # 下载gcc5.2 阅读全文

posted @ 2022-10-13 13:58 _XiongH 阅读(691) 评论(0) 推荐(0)

2022年4月20日

混淆矩阵

摘要： Confusion Matrix 在机器学习领域，混淆矩阵（confusion matrix），又称为可能性表格或是错误矩阵。它是一种特定的矩阵用来呈现算法性能的可视化效果，通常是监督学习（非监督学习，通常用匹配矩阵：matching matrix）。其每一列代表预测值，每一行代表的是实际的类别。这阅读全文

posted @ 2022-04-20 15:05 _XiongH 阅读(2142) 评论(0) 推荐(0)

2022年3月10日

Linux查询python路径

摘要： 1 import sys print(sys.path) 2 whereis python 3 ll /usr/bin/python* 阅读全文

posted @ 2022-03-10 15:44 _XiongH 阅读(170) 评论(0) 推荐(0)

2022年2月28日

hive分区表新增字段需要加cascade

摘要： hive分区表新增字段时，特别注意要使用cascade，这样可以让表下面各个分区都能增加新的字段。因为分区表的各个分区在hive的元数据管理中是分开的。如果不这样操作，新字段插入的数据都是NULL。 hive删除列 hive中删除列时没有与mysql语句alter table <table> dro 阅读全文

posted @ 2022-02-28 15:13 _XiongH 阅读(1620) 评论(0) 推荐(0)

2022年2月21日

yarn.nodemanager.vmem-pmem-ratio的通俗解释(转载)

摘要：关于yarn.nodemanager.vmem-pmem-ratio的通俗解释这个东西就是虚拟内存，扯皮起来的话，要回到上古时代x86系统，那个年代内存超级贵，于是从硬盘借用空间，模拟出一个内存空间，所以称为虚拟内存。这里的ratio是啥意思呢？因为虚拟内存的性能比真实性能差一些，所以yarn- 阅读全文

posted @ 2022-02-21 15:10 _XiongH 阅读(302) 评论(0) 推荐(0)

2022年2月8日

Hive中count(1)结果为0的原因

摘要：执行count(1)或count(*)统计行数时，默认会从Hive的元数据库中查询 rowsNum 对应值作为结果返回。但是如果是使用加载数据文件load data的方式填充表数据，则hive元数据不会收集此统计信息,那么count时就会为0。也就是说通过insert的方式写入数据的表会更新hiv 阅读全文

posted @ 2022-02-08 11:10 _XiongH 阅读(1626) 评论(0) 推荐(0)

2022年1月28日

Yarn资源调度过程详细(TEZ)

摘要：在MapReduce1.0中，我们都知道也存在和HDFS一样的单点故障问题，主要是JobTracker既负责资源管理，又负责任务分配。 Yarn中可以添加多种计算框架，Hadoop,Spark,MapReduce,不同的计算框架在处理不同的任务时，资源利用率可能处于互补阶段，有利于提高整个集群的资源阅读全文

posted @ 2022-01-28 13:16 _XiongH 阅读(1514) 评论(0) 推荐(0)

2022年1月6日

pandas groupby合并列字符串

摘要：在pandas里对于数值字段而言，groupby后可以用sum()、max()等方法进行简单的处理，对于字符串字段，如果把它们的值拼接在一起，可以用使用 str.cat() 和 lamda 方法。如，将下面表格中的内容，对skill字段按照id进行分组合并。实现代码： import panda 阅读全文

posted @ 2022-01-06 17:11 _XiongH 阅读(1072) 评论(0) 推荐(0)

2021年12月27日

pandas中apply与lambda

摘要： lambda lambda：输入是传入到参数列表x的值，输出是根据表达式(expression)计算得到的值。比如：lambda x, y: xy #函数输入是x和y，输出是它们的积xy lambda x :x[-2:] #x是字符串时，输出字符串的后两位 lambda x :func #输入 x 阅读全文

posted @ 2021-12-27 16:05 _XiongH 阅读(1679) 评论(0) 推荐(0)

BigData

公告