摘要:
1. 安装ipykernel 为当前的虚拟环境安装ipykernel。 conda install ipykernel 2. 生成ipykernel的配置文件 python -m ipykernel install —-name tensorflow_env 3. 查看已有的kernel jupyt 阅读全文
摘要:
yum 安装程序时报异常 UnicodeDecodeError 解决方法 1. 新建一个python文件 2. 文件内容 3. 重新安装,问题解决 阅读全文
摘要:
Anaconda 学习笔记 Anaconda 创建环境、删除环境、激活环境、退出环境 1. 创建环境 2. 删除环境 3. 激活环境 4. 退出环境 `source deactivate (conda4 的是:conda deactivate)` 阅读全文
摘要:
数据倾斜解决方案 目录 "数据倾斜解决方案" "聚合源数据" "提高shuffle操作的reduce并行度" "使用随机key实现双重聚合" "将reduce join转为map join" "sample采样倾斜key进行两次join" "使用随机数以及扩容表进行join" 聚合源数据 1. 第一 阅读全文
摘要:
troubleShooting "troubleShooting" "控制shuffle reduce端缓冲大小以避免OOM" "JVM GC导致shuffle文件拉取失败" "Yarn队列资源不足导致Application直接失败" "各种序列化导致的报错" "算子函数返回NULL导致的问题" " 阅读全文
摘要:
算子调优 目录 "算子调优" "map与mapPartitions" "filter过后使用coalesce" "foreachPartition优化写数据库" "repartition解决Spark SQL并行度过低" "reduceByKey的Map端本地聚合" map与mapPartition 阅读全文
摘要:
Shuffle调优 目录 "Shuffle调优" "调节Map端内存缓冲与Reduce端内存占比" "spark.shuffle.sort.bypassMergeThreshold" 调节Map端内存缓冲与Reduce端内存占比 问题 默认情况下,shuffle的map task,输出到磁盘文件的时 阅读全文
摘要:
性能调优 目录 "性能调优" "调节并行度" "重构RDD与持久化" "广播大变量" "使用Kryo序列化" "使用fastutil优化数据格式" "调节数据本地化等待时长" "JVM调优之降低cache操作的内存占比" "JVM调优之调节Executor堆外内存与连接等待时长" 调节并行度 并行度 阅读全文
摘要:
java.util.concurrent JDK1.5引入了java.util.concurrent包,里边很有多有用的组件,我们挑选一些来学习 1. "CountDownLatch" 2. "CyclicBarrier" 3. "BlockingQueue" 3.1 "ArrayBlockingQ 阅读全文
摘要:
生产者消费者 生产者消费者模型是并发时线程之间同步和通信重要的实现,本文主要用一下四种方式来实现 1. "wait()/notify()方法" 2. "显式Lock和Condition" 3. "BlockingQueue阻塞队列方法" 4. "PipedWriter/PipedReader方法" 阅读全文