摘要: 机器学习算法——神经网络 http://www.cnblogs.com/tornadomeet/archive/2013/03/18/2966041.html (转) 线性回归或者logistic回归问题理论上不是可以解决所有的回归和分类问题么,那么为什么还有其它各种各样的机器学习算法呢?比如这里马 阅读全文
posted @ 2016-08-26 09:54 跳出 阅读(232) 评论(0) 推荐(0) 编辑
摘要: http://www.cnblogs.com/tornadomeet/archive/2012/11/12/2766458.html 过拟合和规则项 Regularization中文意思是规则,指的是在overfitting和underfitting之间做平衡,通过限制参数空间来控制模型的复杂度。测 阅读全文
posted @ 2016-08-25 21:29 跳出 阅读(2317) 评论(0) 推荐(0) 编辑
摘要: 一、 mysql查询缓存 查询缓存不是mysql的子系统,却是查询优化和执行子系统不可缺少的组成部分。它不仅可以缓存查询结果,还可以缓存查询结果本身。如果某个查询的结果就在缓存里, 系统就可以直接取出那些数据返回给客户端而跳过整个查询优化和执行阶段;这对那些使用频繁的查询来说效果尤其显著。这技术是m 阅读全文
posted @ 2016-08-18 19:14 跳出 阅读(328) 评论(0) 推荐(0) 编辑
摘要: 关联规则模型 关联规则模型的特点:就是从大量随机发生的并发时间中,找到强关联的现象,使得在某事件发生的前提下,另一事件的发生具有很高的概率,并且是一种具有业务意义的强规则。 关联规则:Apriori算法、FP树频集算法。 一个关联规则是形如X=》Y的蕴含式,这里X属于I,Y属于I,并且X与Y的交集为 阅读全文
posted @ 2016-08-16 10:05 跳出 阅读(498) 评论(0) 推荐(0) 编辑
摘要: 聚类 数据没有标注。无监督技术。 K-均值聚类 层次聚类:是一个结构化的聚类方法,最终可得到多层的聚类结果,其中每个类族可能包含多个子类族。因为每个子类族与父类族连接,所以也称为树形聚类。 离群值:归一化/标准化解决。 降维 主成分分析 PCA 奇异值分解 SVD SVD试图将一个m X n矩阵分解 阅读全文
posted @ 2016-08-15 16:02 跳出 阅读(975) 评论(0) 推荐(0) 编辑
摘要: 处理和转换数据 1)过滤掉或删除非规整数或有缺陷的数据 2)填充非规整或有缺陷的数据(零值,全局期望,中值) 3)对异常值做鲁棒处理 (鲁棒回归) 4)对可能的异常值进行转换 利用如对数或高斯核对其转换,有助于降低变量存在的值跳跃的影响,并将非线性关系变为线性的。 矩阵分解:协同过滤 最小二乘法AL 阅读全文
posted @ 2016-08-15 14:35 跳出 阅读(295) 评论(0) 推荐(0) 编辑
摘要: 广播变量、累加器、collect spark集群由两类集群构成:一个驱动程序,多个执行程序。 1、广播变量 broadcast 广播变量为只读变量,它由运行sparkContext的驱动程序创建后发送给会参与计算 的节点。也可被非驱动程序所在节点(即工作节点)访问,访问是调用该变量的value方法。 阅读全文
posted @ 2016-08-15 12:59 跳出 阅读(365) 评论(0) 推荐(0) 编辑
摘要: 在大数据处理场景中,多表Join是非常常见的一类运算。为了便于求解,通常会将多表join问题转为多个两表连接问题。两表Join的实现算法非常多,一般我们会根据两表的数据特点选取不同的join算法,其中,最常用的两个算法是map-side join和reduce-side join。本文将介绍如何在a 阅读全文
posted @ 2016-08-15 10:32 跳出 阅读(621) 评论(0) 推荐(0) 编辑
摘要: MySQL数据库迁移(数据文件直接迁移) 在今年10月下旬的时候,公司的服务器需要迁移,其中涉及到了MySQL数据库迁移。查看了一下MySQL数据文件的大小,接近60G的大小(实际数据并没用那么多)。由于服务器上业务需要,要尽量减少服务器迁移时的损失。所以迁移时间选在了晚上零点开始,而且要尽量减少迁 阅读全文
posted @ 2016-08-13 13:46 跳出 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 1、hortonwork 和 cloudera 比较 除了功能,还需要对维护性能进行比较 2、环境部署需要细化 部署哪些组件 部署哪些webservice服务 各节点之间如何规划 内存磁盘资源如何分配 是否开启组件高可用 若开启组件高可用,是否考虑部署2套zookeeper 离线集群与在线集群如何互 阅读全文
posted @ 2016-08-13 11:20 跳出 阅读(191) 评论(0) 推荐(0) 编辑