摘要:
sqoop import \ -D yarn.app.mapreduce.am.resource.mb=1024 \ -D yarn.scheduler.minimum-allocation-mb=8096 \-D yarn.scheduler.maximum-allocation-mb=16192 阅读全文
摘要:
问题描述: 安装一些pyflink1.15.2时报错:gcc: error: unrecognized command line option ‘-std=c++14’ 解决方案 升级gcc版本为5.2.0升级g++版本为5.2.0 实施步骤 cd /usr/local/src # 下载gcc5.2 阅读全文
摘要:
Confusion Matrix 在机器学习领域,混淆矩阵(confusion matrix),又称为可能性表格或是错误矩阵。它是一种特定的矩阵用来呈现算法性能的可视化效果,通常是监督学习(非监督学习,通常用匹配矩阵:matching matrix)。其每一列代表预测值,每一行代表的是实际的类别。这 阅读全文
摘要:
1 import sys print(sys.path) 2 whereis python 3 ll /usr/bin/python* 阅读全文
摘要:
hive分区表新增字段时,特别注意要使用cascade,这样可以让表下面各个分区都能增加新的字段。因为分区表的各个分区在hive的元数据管理中是分开的。如果不这样操作,新字段插入的数据都是NULL。 hive删除列 hive中删除列时没有与mysql语句alter table <table> dro 阅读全文
摘要:
关于yarn.nodemanager.vmem-pmem-ratio的通俗解释 这个东西就是虚拟内存,扯皮起来的话,要回到上古时代x86系统,那个年代内存超级贵,于是从硬盘借用空间,模拟出一个内存空间,所以称为虚拟内存。 这里的ratio是啥意思呢?因为虚拟内存的性能比真实性能差一些,所以yarn- 阅读全文
摘要:
执行count(1)或count(*)统计行数时,默认会从Hive的元数据库中查询 rowsNum 对应值作为结果返回。但是如果是使用加载数据文件load data的方式填充表数据,则hive元数据不会收集此统计信息,那么count时就会为0。 也就是说通过insert的方式写入数据的表会更新hiv 阅读全文
摘要:
在MapReduce1.0中,我们都知道也存在和HDFS一样的单点故障问题,主要是JobTracker既负责资源管理,又负责任务分配。 Yarn中可以添加多种计算框架,Hadoop,Spark,MapReduce,不同的计算框架在处理不同的任务时,资源利用率可能处于互补阶段,有利于提高整个集群的资源 阅读全文
摘要:
在pandas里对于数值字段而言,groupby后可以用sum()、max()等方法进行简单的处理,对于字符串字段, 如果把它们的值拼接在一起,可以用使用 str.cat() 和 lamda 方法。 如,将下面表格中的内容,对skill字段按照id进行分组合并。 实现代码: import panda 阅读全文
摘要:
lambda lambda:输入是传入到参数列表x的值,输出是根据表达式(expression)计算得到的值。 比如:lambda x, y: xy #函数输入是x和y,输出是它们的积xy lambda x :x[-2:] #x是字符串时,输出字符串的后两位 lambda x :func #输入 x 阅读全文