最近开始写scala程序,发现scala和python的相似度极高,写一下scala时间方面的处理; 1、一个时间戳怎么转化成yyyyMMddHH的格式: 2、怎么将进行时间加减 3、怎么对时间进行周末日判断 Read More
条件概率的精髓从这道题可以体现: 一个部件经销商从仓库购买部件。这些部件要么由A供应商生产,要么由B供应商生产,但部件上没有标识出是哪家供应商供应的。每次发货或每一批的所有零件都是由一个供应商生产的。平均来看,A供应商生产的产品中有2.5%的不合格品,B供应商生产的产品中有5.0%的不合格品。 仓库 Read More
继上一篇得到的初步数据,我们基本上已经得到了用于分类的数据了。接下来可以考虑建模了,建模可以有多种方法那么评估模型的最简单粗暴的方法就是匹配准确率。但是这次的评分规则是: 简单说下赛方为什么不用匹配准确率来评价模型,本身数据结构中“没得助学金”的个体已经占了85%左右的比例,如果计算整体的匹配率对好 Read More
这个竞赛整个过程是用python和sql一起完成的,当然单独用python也是可以做到,sql主要是体现在数据的初处理时候。 先介绍接下来会涉及哪些方面: 1、数据特征的选取及处理(初处理) 2、建模(贝叶斯、随机森林) 2.1 整体过程的实现 2.2 cross-validation 验证 2.3 Read More
这篇博客从用python实现分析数据的一个完整过程。以下着重几个python的moudle的运用“pandas”,"“wordcloud”,“matlibplot”; 1、导入数据,看看数据的结构内容: 2、清洗数据(包括剔除异常数据,新增必要字段,以及简单的字段为空的处理) 3、制作各个candi Read More
决策树和KNN是机器学习的入门级别的算法,所以面试的时候都时常会有面试官要求将决策树写出来以用来检验面试者的算法基本素养。 1.信息熵 信息熵是表示数据的混乱程度(物理学当中就有热熵来表示分子混乱程度)。信息熵表现为-log(信息的概率) 那么整体的信息熵的数学期望:对概率*-log(概率)求和,以 Read More
极大似然在本科的概率课里面有提及,当时没有应用意识,根本就没有当成一回事,现在知道错了。ps废话讲完,回归正题 从总体来说下极大似然可以做什么:求参数值--非常直接描述(θ1*x1+θ2*x2+...+θn*xn)其中w代表参数,x代表的是变量,求得就是θ。--ps:这里的例子只是用于说明,实际遇到 Read More
问:udf在sparksql 里面的作用是什么呢? 答:oracle的存储过程会有用到定义函数,那么现在udf就相当于一个在sparksql用到的函数定义; 第二个问题udf是怎么实现的呢? registerFunction(name, f, returnType=StringType) name Read More
date:2016-09-13 今天开始注册了kaggle,从digit recognizer开始学习, 由于是第一个案例对于整个流程目前我还不够了解,首先了解大神是怎么运行怎么构思,然后模仿。这样的学习流程可能更加有效,目前看到排名靠前的是用TensorFlow。ps:TensorFlow是可以直 Read More
上次在spark的一个群里面,众大神议论:dataset会取代rdd么? 大神1:听说之后的mlib都会用dataset来实现,呜呜,rdd要狗带 大神2:dataset主要是用来实现sql的,跟mlib没多大关系,你们说为什么要用dataset呢? 大神3:因为老板喜欢。 在市场上找一个会写sql Read More