摘要:
pyspark有个bug, 虽然下面代码写了 write.mode("overwrite")但是不生效 spark.conf.set("hive.exec.dynamic.partition.mode", "constrict") db_df.repartition(1).write.mode("o 阅读全文
摘要:
def output_mapper(line): """ 输入文件是gbk编码, 使用spark的GBKFileInputFormat读取后自动转为utf-8编码. Keys are the position in the file, and values are the line of text, 阅读全文
摘要:
Prior Correction 式(3) 推导 参考链接: 1. 面向稀有事件的 Logistic Regression 模型校准 http://vividfree.github.io/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/2015/12/15/model-ca 阅读全文
摘要:
背景 调研总体的情况时,常因调研成本等原因难以对总体情况逐一调研给出完全准确的结论。常以随机抽样的方式,通过统计样本估计总体。 单次随机抽样的结果可以看做是对总体结果的近似,但仍有不准确性。比如某次抽样的准确率为64.7%。 那么在不知道总体真实值的情况下,此次抽样结果是否可信呢?或者可以以多大的概 阅读全文
摘要:
问题 在写MR代码输出query对应embedding向量时,出现了每个part中最后一个query对应的embedding维度输出不全的问题,但是part中其他embedding维度都是全的,在本地测试也没有问题。 原因分析 以上说明预测embedding的代码本身是没有问题的,MR框架本身也没有 阅读全文
摘要:
1. for循环并发执行 - 前台命令变后台进程 shell中,后一个前台命令必须等待前一个前台命令执行完毕才能进行,这就是所谓的单线程程序。 shell并没有真正意义上的多进程。而最简单的节省时间,达到“多线程”效果的办法,是将前台命令变成后台进程,这样一来就可以跳过前台命令的限制了。 1.1 用 阅读全文
摘要:
#include <iostream> #include <cstring> using namespace std; class A { public: char *p; A() { p = new char[3]; }; A(const A& a) { p = new char[3]; for( 阅读全文
摘要:
scoped_ptr: https://www.cnblogs.com/33debug/p/6832726.html 阅读全文
摘要:
c++的类中含有指针类型时,在进行拷贝时要注意深拷贝和浅拷贝的问题。 (1) 浅拷贝采用"位拷贝"的方式。对于基础类型,如int, float等,可以直接copy过来; 但是对于指针类型,在copy时要格外注意,浅拷贝只copy了指针指向的地址,并未复制创建该地址上的对象内容,容易引发内存泄露、多次 阅读全文
摘要:
(1) 【join爆内存】 在join之前,对这两部分数据,分别能先reduce的先reduce, 降低join时候分给每个reducer的条目数。 比如要拼接两份数据,每份数据A, B中相同key的条目最多有上百万条。 可以先分别对A, B先进行reduce操作,之后再join, 这样join时候 阅读全文