摘要: 1.算法描述 最近在做AutoEncoder的一些探索,看到2016年的一篇论文,虽然不是最新的,但是思路和方法值得学习。论文原文链接 http://proceedings.mlr.press/v48/xieb16.pdf,论文有感于t-SNE算法的t-分布,先假设初始化K个聚类中心,然后数据距离中 阅读全文
posted @ 2018-10-21 23:12 很厉害的名字 阅读(19476) 评论(0) 推荐(2) 编辑
摘要: 1.变分自编码 变分是数学上的概念,大致含义是寻求一个中间的函数,通过改变中间函数来查看目标函数的改变。变分推断是变分自编码的核心,那么变分推断是要解决的是什么问题?? 问题描述如下,假如我们有一批样本X,这个时候,我们想生成一批和它类似的样本,且分布相同,这个时候我们该怎么办呢? 1.如果我们知道 阅读全文
posted @ 2018-10-14 22:40 很厉害的名字 阅读(3585) 评论(0) 推荐(0) 编辑
摘要: 1.算法简介 算法的原始论文 http://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf 。python的sklearn中已经实现了相关的api,对于单机的数据已经足够使用了,链接如下 http://scikit-learn.or 阅读全文
posted @ 2018-09-24 19:42 很厉害的名字 阅读(2937) 评论(0) 推荐(0) 编辑
摘要: 准确率指标: 该类型的指标大部分是推荐算法优化的目标,衡量着推荐算法的优劣。 非准确率指标: 该类型的指标重载衡量推荐的结果的“个性化”“多样性”“新颖性”等指标,推荐的的愿景之一就是“千人千面”,推荐给每个人的商品都是只是他本人的兴趣使然,抑或是根据本人兴趣进行扩展的商品集合。至于为什么要进行兴趣 阅读全文
posted @ 2018-05-01 14:07 很厉害的名字 阅读(10626) 评论(1) 推荐(1) 编辑
摘要: 很久没看推荐系统相关的论文了,最近发现一篇2017年的论文,感觉不错。 原始论文 https://arxiv.org/pdf/1708.05031.pdf 网上有翻译了 https://www.cnblogs.com/HolyShine/p/6728999.html git项目 https://gi 阅读全文
posted @ 2018-04-30 21:36 很厉害的名字 阅读(7391) 评论(0) 推荐(2) 编辑
摘要: 引言 hadoop的调试真心让人灰常恼火,而且从企业实际出发,集群的资源是有限的,不可能在集群上跑一遍又一遍根据log去调试代码,那么使用MRUnit编写测试单元,显得尤为重要。MRUnit中的MapReduce Driver可以测试一组Map/Reduce或者Combiner。 PipelineM 阅读全文
posted @ 2015-08-19 21:40 很厉害的名字 阅读(597) 评论(0) 推荐(0) 编辑
摘要: 在探索未知的程序之前,我们往往会使用“Hello World”这个经典的输出作为测试,为了遵循这个惯例,作为thrift菜鸟都不算的一员,决定跑一下“Hello world”正式进入菜鸟的行列。thrift通过一个跨语言的定义文件的方式定义数据类型和服务接口,这个文件作为RPC客户端和服务器通信的标... 阅读全文
posted @ 2015-08-18 10:28 很厉害的名字 阅读(640) 评论(0) 推荐(0) 编辑
摘要: echo "21 23 5217 23" | awk '{first[NR]=$1second[NR]=$2}END{print "======打印第1列并排序:===========" > "testAwkPipe.txt"close("testAwkPipe.txt")for(i in firs... 阅读全文
posted @ 2015-08-17 10:55 很厉害的名字 阅读(1117) 评论(0) 推荐(0) 编辑
摘要: Key排序1. 继承WritableComparator 在hadoop之Shuffle和Sort中,可以看到mapper的输出文件spill文件需要在内存中排序,并且在输入reducer之前,不同的mapper的数据也会排序,排序是根据数据的key进行的.如果key是用户自定义的类型,并没有默认... 阅读全文
posted @ 2015-07-31 20:52 很厉害的名字 阅读(852) 评论(0) 推荐(0) 编辑
摘要: partitioner负责shuffle过程的分组部分,目的是让map出来的数据均匀分布在reducer上,当然,如果我们不需要数据均匀,那么这个时候可以自己定制符合要求的partitioner. 下面内容涉及到的源代码请参考https://hadoop.apache.org/docs/curr... 阅读全文
posted @ 2015-07-31 20:51 很厉害的名字 阅读(709) 评论(0) 推荐(0) 编辑