摘要:
原文地址:http://blog.csdn.net/cnweike/article/details/8797443 在一些统计系统中,为了观察用户的粘度,我们会计算一系列的叫做留存的指标——次日注册留存、2日注册留存...N日注册留存,比如昨天注册了 1000名用户中,在今天有300名用户又登录了, 阅读全文
摘要:
1.数学基础 导数(derivative) 导数四则运算法则 复合函数运算法则 凸函数定义 前提0≤α≤1 偏导数 二阶偏导数矩阵也就所谓的赫氏矩阵(Hessian matrix).一元函数就是二阶导,多元函数就是二阶偏导组成的矩阵.求向量函数最小值时用的,矩阵正定是最小值存在的充分条件。 示例 参考地址: 凸函数和Hessian矩阵 阅读全文
摘要:
1.书籍 2.开源工具 机器学习 library scikit learn http://scikit-learn.org/ MLlib http://spark.apache.org/mllib/ Mallet http://mallet.cs.umass.edu/ Weka http://www 阅读全文
摘要:
1、合并(join) 参考官方实例storm-starter--SingleJoinExample 代码类涉及 Git:https://github.com/apache/storm.git 合并说明示意如下图: 阅读全文
摘要:
工作中需要读取很多大数据量(1000w条)的文件并写入到mysql表里,涉及到的技术点主要是数据库的addbatch及水平分表。 数据库的写入场景包括:一条一条的写入和批量写入,这里数据库的批量增加使用mybatis框架完成。 水平分表的意思是本来我们要将1000w的数据写入到一张表里,但为了考虑未 阅读全文
摘要:
工作中需要用java调用外部命令(shell脚本,启动服务等),之前使用Runtime.getRuntime().exec调用外部程序,Runtime.getRuntime().exec是java原生态的命令,而Apache commons-exec封装一些常用的方法用来执行外部命令。例如我们想得到 阅读全文
摘要:
Frequent Pattern频繁模式:频繁地出现在数据集中的模式,算法包括Apriori算法(相见),FP-Tree算法,FP-Tree是Apriori算法的改良版本,具体算法过程可以结合Apriori算法进行理解。 前提条件:最小支持度为2 数据集,有四个事务数据 ,分别的商品包括: 事务1: 阅读全文
摘要:
Apache Commons CLI 简介 Apache Commons CLI 是 Apache 下面的一个解析命令行输入的工具包,该工具包还提供了自动生成输出帮助文档的功能。 类似工具包args4j, TE-Code command line parsing, CLAJR (Command-Li 阅读全文
摘要:
在一个Tomcat集群的架构体系中,需要一个自动发布平台,对于大的公司都是自己建设,而对于中小公司一般采取的使用开源搭建,所以接下来详细介绍基于Jendins+svn+maven+tomcat的自动化部署环境搭建。 1. jenkins安装(svn,maven,tomcat已安装): 将jenkin 阅读全文
摘要:
修改JOB作业配置 Configuration conf = new Configuration(); conf.set( "mapreduce.task.timeout", "12000000"); conf.set( "mapreduce.reduce.memory.mb", "2048"); 阅读全文