摘要: L0、L1与L2范数、核范数 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限,以下都是我一些浅显的看法,如果理解存在... 阅读全文
posted @ 2014-10-25 20:53 LongYou 阅读(43336) 评论(3) 推荐(23) 编辑
摘要: 一张图告诉你如何分析数据以及选择算法 阅读全文
posted @ 2014-10-12 13:17 LongYou 阅读(538) 评论(0) 推荐(0) 编辑
摘要: 基于mapreduce的大规模连通图寻找算法当我们想要知道哪些账号是一个人的时候往往可以通过业务得到两个账号之间有联系,但是这种联系如何传播呢?问题 已知每个账号之间的联系如:A BB CD EF CB G得到 对应的一个人的账号如:A B C F G为同一个人D E 为同一个人 ... 阅读全文
posted @ 2014-08-21 10:25 LongYou 阅读(1224) 评论(4) 推荐(0) 编辑
摘要: 这是很早以前已经看过的,最近无意中又把保存的文章翻出来时,想起很多朋友问过矩阵,虽对矩阵似懂非懂,但却很想弄懂它,希望这几篇文章能帮你一下,故转之:(一)前不久chensh出于不可告人的目的,要充当老师,教别人线性代数。于是我被揪住就线性代数中一些务虚性的问题与他讨论了几次。很明显,chensh觉得... 阅读全文
posted @ 2014-04-19 15:22 LongYou 阅读(762) 评论(2) 推荐(0) 编辑
摘要: Mahout应用(一)Mahout 是应用于hadoop上的数据挖掘工具(废话不多说)这里先简单介绍一下mahout的一般使用方法。拿kmeans为列子Mahout中的kmeans所需要的输入比较特殊需要的输入类型为VectorWritable类型并且是SequenceFile格式存储(一般来讲为了方便查看数据我比较喜欢直接用Text格式直接存储)使用SequenceFile主要是因为可压缩和数据读入速度,mahout认为我们的输出绝大多数不需要看而是为了当做以后的输入。VectorWritable的应用我们以后再说。Mahout中有一个类叫做InputDriver是用来将输入的文件转化成Ve 阅读全文
posted @ 2014-03-14 18:20 LongYou 阅读(1186) 评论(0) 推荐(0) 编辑
摘要: GraphChi介绍最近在研究graphchi,它是一个在单机上处理图的一个很强大的框架。给大家一些链接可以学习它:论文:http://select.cs.cmu.edu/publications/paperdir/osdi2012-kyrola-blelloch-guestrin.pdf 例子:http://code.google.com/p/graphchi/wiki/ExampleApps 官方网站:http://code.google.com/p/graphchi/wiki/ExampleApps 阅读全文
posted @ 2013-12-31 09:14 LongYou 阅读(2244) 评论(0) 推荐(0) 编辑
摘要: 一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数b) 假设input目录下有3个文件a,b,c,大小分别为10m,20m,130m,那么hadoop会分隔成4个块(10m 阅读全文
posted @ 2013-10-11 15:17 LongYou 阅读(2604) 评论(0) 推荐(0) 编辑
摘要: 在做这个Join查询的时候,必然涉及数据,我这里设计了2张表,分别较data.txt和info.txt,字段之间以/t划分。 data.txt内容如下: 2010011003abc 2010021005def 2010031006ghi 2010041003jkl 2010051004mno 2010061005pqr info.txt内容如下: 1003kaka 1004da 1005jue 1006zhao 期望输出结果: 1003201001abckaka 1003201004jklkaka 1004201005mnoda 1005201002defjue 1005201006pqrju 阅读全文
posted @ 2013-10-10 09:57 LongYou 阅读(776) 评论(0) 推荐(0) 编辑
摘要: 对于优化问题: 的求解需要计算这个内积,而如果输入样本线性不可分的话,我们采取的方法是通过函数映射将输入样本映射到另外一个高维空间并使其线性可分。 以库克定律为例(http://zh.wikipedia.org/zh-cn/%E9%9D%99%E7%94%B5%E5%8A%9B): 一个电量为的点电荷作用于另一个电量为的点电荷,其静电力的大小,可以用方程表达为: ,其中,是两个点电荷之间的距离,是库仑常数。 显然这个定律无法用线性学习器来表达,看到乘积想到ln函数,对原始形式两边取ln,得到: ,令,,,,,那么就得到一个线性学习器: 这个过程... 阅读全文
posted @ 2013-09-01 20:33 LongYou 阅读(1337) 评论(0) 推荐(0) 编辑
摘要: 不多说 [http|https]+[://]+[0-9A-Za-z:/[-]_#[?][=][.][&]]* 这个就是匹配 网络上的网址 又称 url 。最起码 绝大部分的taobao url 可以完全匹配上 阅读全文
posted @ 2013-07-30 09:52 LongYou 阅读(8288) 评论(0) 推荐(0) 编辑