摘要: 学习计划1:spark,spark数据处理,预处理,机器学习,分布式机器学习算法等相关 学习计划2:hadoop系列 hbase,pig,yarn,HDFS 流计算学习 学习计划3:ETL相关知识学习 未完待续 spark学习计划: 各种零散的点 1.scala学习 2.hadoop基础,mapre 阅读全文
posted @ 2018-06-05 16:55 BigJelly 阅读(312) 评论(0) 推荐(0) 编辑
摘要: 任务说明 机器学习基本算法原理推到应用 主要包括:算法的原理,损失函数,推导,优缺点,适用条件等基本知识,以及工程实现(单机,分布式,算法优化)包括算法的自己实现,与spark分布式实现,sklearn源码,等 [DT,KNN,LR,GBDT,RF等,SVM]系统的学习与整理 涵盖 分类,回归,聚类 阅读全文
posted @ 2018-06-05 16:54 BigJelly 阅读(358) 评论(0) 推荐(0) 编辑
摘要: 深入理解常见的数据库的设计架构, 其中用到的数据结构, 算法等 SQL执行流程和优化, 可以了解一下calcite: https://calcite.apache.org/ 阅读全文
posted @ 2018-06-05 16:53 BigJelly 阅读(167) 评论(0) 推荐(0) 编辑
摘要: C/C++ 指针方面复习 6/7晚上,不刷题,复习这个 java相关 https://zhuanlan.zhihu.com/p/33456173 十多个主题,每个主题花两个学时的时间; java基础 语言基本知识,关键字 面向对象 重载重写、static和final等等很多东西 关键的类的源码学习 阅读全文
posted @ 2018-06-05 16:17 BigJelly 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 进程与线程 linux相关 shell 分布式存储(结构化存储关系型数据库,非结构化存储:HDFS无法支持随机访问;半结构化存储:NOSql,HBASE等;In-memory 存储 memcahed Redis内存k-v), 分布式计算(MapReduce-like 系统:hadoop,spark类 阅读全文
posted @ 2018-06-05 15:33 BigJelly 阅读(252) 评论(0) 推荐(0) 编辑
摘要: 校招中最基础的一环,笔试与白板撸算法 CS中最基本的能力,这方面的准备十分必要,但是准备过程必定十分痛苦 虽常言道水滴石穿,但是多少小河小溪在石穿之前干涸! 每天2-3道算法题,完不成就晚上加班 一次总计花一个小时时间学习: 1.找到对应知识点,梳理一遍,弄清楚难点 2.刷15-20分钟小题,来检测 阅读全文
posted @ 2018-06-05 14:42 BigJelly 阅读(1559) 评论(0) 推荐(1) 编辑