上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 70 下一页

2018年6月8日

Spark的word count

摘要: word count 注意spark的套路: 1. 创建配置配置,创建sparkcontext; 2. 获取数据源; 3. flatmap进行元素独立; 4. filter进行过滤; 5. map封装为元组; 6. reduce进行计数; 按照数量排序 你可以采用一条龙的方式来进行上述实现,感觉那是 阅读全文

posted @ 2018-06-08 11:41 下士闻道 阅读(392) 评论(0) 推荐(0) 编辑

2018年6月4日

Apache Spark 内存管理详解

摘要: 在spark里面,内存管理有两块组成,一部分是JVM的堆内内存(on-heap memory),这部分内存是通过spark dirver参数executor-memory以及spark.executor.memory来进行指定; 另外一部分是堆外内存(off-heap memory),堆外内存默认是 阅读全文

posted @ 2018-06-04 10:04 下士闻道 阅读(209) 评论(0) 推荐(0) 编辑

Python与机器学习

摘要: pandas里面的对于数据操作比如where,drop以及dropna等都会有一个属性:inplace,这个单词意思是原地,如果inplace=true代表数据本身要返回(原地数据也会被改变);如果inplace=false(默认)代表只是返回数据一个副本(copy,原数据并不会被改变)。 Data 阅读全文

posted @ 2018-06-04 09:59 下士闻道 阅读(776) 评论(0) 推荐(0) 编辑

Jupyter和IPython

摘要: Jupyter内核就是IPython(Interactive Python);你看到的按tab键能够自动提示/补齐都是IPython实现的。 IPython其实不只限于IPython,其实你看到的IDE里面的tab键自动感应都是IPython的实现,比如Pycharm里面的Anaconda库就是包含 阅读全文

posted @ 2018-06-04 09:24 下士闻道 阅读(212) 评论(0) 推荐(0) 编辑

Builder模式

摘要: Builder模式有什么好处? 构造函数构造一个函数的好处就是直接,但是缺点就是如果参数比较多,需要重载构造函数或者一个构造函数里面定义多个构造参数,对于调用方来讲十分不友好; 另外一种方式就是java bean模式,定义一个简洁的构造函数,然后通过set属性的方式来构造;这种方式避免了构造函数模式 阅读全文

posted @ 2018-06-04 09:10 下士闻道 阅读(206) 评论(0) 推荐(0) 编辑

2018年6月3日

线性模型的fit,predict

摘要: 线性模型的fit其实一个进行学习的过程,根据数据和标签进行学习;predict则是基于fit之后形成的模型,来决定指定的数据对应于标签(y_train_5)的值。 下面的是手写字母判断是否为“5” sgd_clf = SGDClassifier(random_state=42) sgd_clf.fi 阅读全文

posted @ 2018-06-03 18:49 下士闻道 阅读(1265) 评论(0) 推荐(1) 编辑

2018年5月31日

lamba数据架构以及数据湖

摘要: 面试大数据项目,面试过程中发现面试官提到的两个概念没有搞清楚: 1. lamba数据架构;这个概念的提出是由storm的作者提出来的,其实主旨就是想要说明,数据的处理分成三层,一类是批处理程序(batch laryer,非实时),比如午夜跑出来的报表,可以供第二天进行消费;第二类是实时增量处理数据( 阅读全文

posted @ 2018-05-31 20:30 下士闻道 阅读(2498) 评论(0) 推荐(1) 编辑

2018年5月30日

sklearn, Numpy以及Pandas

摘要: pandas里面的对于数据操作比如where,drop以及dropna等都会有一个属性:inplace,这个单词意思是原地,如果inplace=true代表数据本身要执行该操作;如果inplace=false(默认)代表操作影响的是数据一个副本(copy),返回的也是该副本;所以如果是drop,in 阅读全文

posted @ 2018-05-30 17:51 下士闻道 阅读(2126) 评论(0) 推荐(0) 编辑

2018年5月25日

机器学习概念

摘要: 极大似然 使用极大似然的大的前提是模型已知,数据独立同分布; 他的价值在于可以通过局部数据来获取全局的参数,具体的实现就是通过求导数为零的方式来创造 评估方法 评估就是利用测试数据来评估一下用训练数据训练的模型。 评估方法牵涉到一个很重要的环节就是对数据集进行划分;主要有三种:第一种留出法(leav 阅读全文

posted @ 2018-05-25 16:40 下士闻道 阅读(365) 评论(0) 推荐(0) 编辑

Spark性能调优

摘要: 1.压缩 KyroSerializer相比于JavaSerialize处理性能上10倍以上(综合了内存以及CPU);但是对于基本类型比如Int等压缩效果和javaSerializer相比并没有明显优势;另外Kyro支持的Java对象类型比较少,需要做相关配置。 2. Shuffle原理以及Manag 阅读全文

posted @ 2018-05-25 16:32 下士闻道 阅读(331) 评论(0) 推荐(0) 编辑

上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 70 下一页

导航