摘要: 文章来自:http://www.blogjava.net/decode360/archive/2009/09/18/287743.html Decode360's Blog 老师(业精于勤而荒于嬉 QQ:150355677 MSN:decode360@hotmail.com) 菜鸟表示不会写shel 阅读全文
posted @ 2015-08-04 17:15 努力的小叶子 阅读(409) 评论(0) 推荐(0) 编辑
摘要: HQL原文来自:http://slaytanic.blog.51cto.com/2057708/782175/ Slaytanic老师关于Hadoop的介绍来自:http://www.cnblogs.com/shishanyuan/p/4629300.html 石山园老师,他的Hadoop博客写得很... 阅读全文
posted @ 2015-07-26 19:30 努力的小叶子 阅读(849) 评论(0) 推荐(0) 编辑
摘要: 文件的删除和恢复 和Linux系统的回收站设计一样,HDFS会为每一个用户创建一个回收站目录:/user/用户名/.Trash/,每一个被用户通过Shell删除的文件/目录,在系统回收站中都一个周期,也就是当系统回收站中的文件/目录在一段时间之后没有被用户恢复的话,HDFS就会自动的把这个文件/... 阅读全文
posted @ 2015-07-26 18:28 努力的小叶子 阅读(16160) 评论(0) 推荐(0) 编辑
摘要: 一、安卓:MAC:接入网络的设备的序号,唯一值。用 16 进制数表示,由 0-9,A-F 组成,如:44:2A:60:71:CC:82 Uuid正则表达式:^([0-9a-fA-F]{2})(([/\s:][0-9a-fA-F]{2}){5})$更加严格的话,其实分割符也没有空格---^([0-9a... 阅读全文
posted @ 2015-07-26 18:22 努力的小叶子 阅读(15762) 评论(0) 推荐(0) 编辑
摘要: 最初是因为我需要计算一天的日志行数,如果用传统意义上的cat a.log |wc -l的话因为是单线程,所以需要计算半小时的样子,后来同组的小伙伴教了我一个方法可以有效提高计算速度,将计算时间减半。命令就是这个 cat a.log |parallel --pipe wc -l |awk '{a+=$ 阅读全文
posted @ 2015-07-10 19:43 努力的小叶子 阅读(998) 评论(0) 推荐(0) 编辑
摘要: hive函数参考手册 原文见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF http://www.cnblogs.com/end/archive/2012/06/18/2553682.html 1.内置运算符1 阅读全文
posted @ 2015-01-22 14:58 努力的小叶子 阅读(186) 评论(0) 推荐(0) 编辑
摘要: 基础知识: K-means聚类算法 聚类,简单地说就是把相似的东西分到一组。同 Classification (分类)不同,对于一个 classifier ,通常需要你告诉它“这个东西被分为某某类”。 理想情况下,一个 classifier 会从它得到的训练集中进行“学习”, 从而具备对未知数据进行 阅读全文
posted @ 2015-01-19 17:38 努力的小叶子 阅读(323) 评论(0) 推荐(0) 编辑
摘要: 100万条新浪微博用户的个人自定义标签信息 共四个字段 1、顺序ID号 2、用户Uid 3、标签内容(以英文逗号分隔) 4、用户昵称(部分用户昵称存在缺失,但Uid是完整的) 用户Uid、标签内容、用户昵称都是字符串(string)形式,以英文双引号区分,记录总共100万条,以\r \n 换行,UT 阅读全文
posted @ 2015-01-19 11:57 努力的小叶子 阅读(675) 评论(0) 推荐(0) 编辑
摘要: 网络广告方式有很多,最近我在做关于广告平台的产品需求,总结了一些东西,这是广告联盟目前在使用的几种防作弊方式,希望给大家带来一点有用的帮助。 1、 IP防止作弊 一般计费方式是按照24小时内唯一IP,可以将每个IP记入数据库,当下一个访问IP与数据库已存在的IP相同时,则不计费。现在上网一般是动态I 阅读全文
posted @ 2014-12-22 10:29 努力的小叶子 阅读(338) 评论(0) 推荐(0) 编辑