Hadoop&Spark&数据处理 - 随笔分类 - blcblc

调优spark sql的方法

该文被密码保护。

posted @ 2019-04-16 21:47 blcblc 阅读(0) 评论(0) 推荐(0)

今天查一个诡异的Spark问题 OOM kryo NegativeArraySizeException

该文被密码保护。

posted @ 2019-04-11 15:03 blcblc 阅读(1) 评论(0) 推荐(0)

今天学到一个python编解码中文的重要技巧

该文被密码保护。

posted @ 2019-03-14 18:45 blcblc 阅读(5) 评论(0) 推荐(0)

storm的一些相关文章

摘要：文章可以看这些： https://www.cnblogs.com/zhaojiankai/p/7257617.html https://blog.csdn.net/wangshuminjava/article/details/79367944 阅读全文

posted @ 2018-10-15 14:19 blcblc 阅读(170) 评论(0) 推荐(0)

flink和spark stream等框架的对比

摘要：参考这篇文章： https://www.sohu.com/a/196257023_470008 我们当时的目标就是要设计一款低延迟、exactly once、流和批统一的，能够支撑足够大体量的复杂计算的引擎。 Spark streaming 的本质还是一款基于 microbatch 计算的引擎。这种阅读全文

posted @ 2018-09-06 20:44 blcblc 阅读(5950) 评论(1) 推荐(0)

hive的几道题目

该文被密码保护。

posted @ 2018-07-29 23:40 blcblc 阅读(0) 评论(0) 推荐(0)

今天学习了大数据课程的Hive课程

该文被密码保护。

posted @ 2018-07-29 21:22 blcblc 阅读(0) 评论(0) 推荐(0)

推荐算法中 ALS SVD(tensorflow - tf-recomm)的复习

该文被密码保护。

posted @ 2018-04-15 19:37 blcblc 阅读(0) 评论(0) 推荐(0)

MR hadoop streaming job的学习 combiner

摘要：代码已经拷贝到了公司电脑的： /Users/baidu/Documents/Data/Work/Code/Self/hadoop_mr_streaming_jobs 首先是主控脚本 main.sh 调用的是 extract.py 然后发现写的不太好。其中有一个combiner，可以看这里： http 阅读全文

posted @ 2018-04-14 13:10 blcblc 阅读(246) 评论(0) 推荐(0)

【面试题】用spark来实现topK

该文被密码保护。

posted @ 2018-04-11 14:13 blcblc 阅读(0) 评论(0) 推荐(0)

优化spark程序的12个方法，要看

该文被密码保护。

posted @ 2018-04-11 01:48 blcblc 阅读(1) 评论(0) 推荐(0)

【总结-复习】spark的复习 RDD stage task repartition和coalece pipeline优化

该文被密码保护。

posted @ 2018-04-10 13:59 blcblc 阅读(0) 评论(0) 推荐(0)

【公司内部学习资料】大数据分析相关

该文被密码保护。

posted @ 2018-03-16 13:39 blcblc 阅读(0) 评论(0) 推荐(0)

这一篇里面有很多关于scala的list的操作的好的知识

摘要：https://www.cnblogs.com/weilunhui/p/5658860.html 1.++[B] 在A元素后面追加B元素 1 2 3 4 5 6 7 8 9 10 11 12 13 14 scala> val a = List(1) a: List[Int] = List(1) sc 阅读全文

posted @ 2018-03-10 00:02 blcblc 阅读(164) 评论(0) 推荐(0)

复习Spark MLlib的内容 - Spark也是我的一个工作重点

该文被密码保护。

posted @ 2018-02-27 01:06 blcblc 阅读(1) 评论(0) 推荐(0)

saprk里面的action - aggregate

摘要：上一篇讲到了spark里面的action函数： Action列表： reduce collect count first take takeSample takeOrdered saveAsTextFile saveAsSequenceFile saveAsObjectFile countByKey 阅读全文

posted @ 2018-01-12 14:03 blcblc 阅读(317) 评论(0) 推荐(0)

Spark job, stage, task含义

该文被密码保护。

posted @ 2018-01-09 17:51 blcblc 阅读(1) 评论(0) 推荐(0)

【美团-笔记】Spark性能调优 - 非常好 - collect注意事项-拉到driver执行

该文被密码保护。

posted @ 2018-01-06 23:40 blcblc 阅读(4) 评论(0) 推荐(0)

xgboost on spark 原来我之前实验过了呀

该文被密码保护。

posted @ 2018-01-03 21:02 blcblc 阅读(1) 评论(0) 推荐(0)

安装新的Spark客户端-afs版本

该文被密码保护。

posted @ 2018-01-02 18:26 blcblc 阅读(4) 评论(0) 推荐(0)

笨鸟居士的博客

随笔分类 - Hadoop&Spark&数据处理

公告