摘要:
1. SHOW CREATE TABLE可以查看创建分区表的CREATE语句2. SHOW TABLE STATUS可以查看表是否为分区表3. 查看INFORMATION_SCHEMA.PARTITIONS表SELECT partition_name part, partition_expression expr, partition_description descr, table_rowsFROM INFORMATION_SCHEMA.partitionsWHERE TABLE_SCHEMA = schema() AND TABLE_NAME='employees';可以查 阅读全文
摘要:
索引的设计:1. 索引的设计应根据实际的统计需求而定,主要体现在order by, group by的需求上2. 过多的需求不应导致过多的索引: key base1(...),key base2(...),... 过多的索引会导致insert,update相当费时3. 索引的字段应该为各类order by, group by的字段的公共前缀,而不是过多的索引。如 group by a,b,c,d;group by a,b,c,e 则索引应该为key base(a,b,c). 而不是创建两个索引 key base1(a,b,c,d),key base2(a,b,c,e)4. 用desc/expl 阅读全文
摘要:
-中国学生不够积极主动需要指导 -美国学生太知道自己的需要有一天,我去世,如果要给我写墓志铭,我希望上面写的是‘这是一个热心教育者’,而不是科学家,企业家、管理者。李开复,头顶“比尔盖茨曾经的亲密战友”,“谷歌全球副总裁、中国区总裁”等让人咋舌的头衔,却极热衷给青年学生当“精神导师”——专门创办网站来回答学生的各色问题,甚至鸡毛蒜皮的情感问题也一一作答;常到高校做免费演讲;将这些整理成书。他真如人所说“不务正业、情感营销,暗藏机心”?中国学生到底有什么问题让他牵肠挂肚?近日,李开复第三本给青年学生的书——《一网情深——与学生的网上对话》出版,记者当面将疑问抛给他。多数中国学生积极主动性不够三. 阅读全文
摘要:
整数划分问题是将一个正整数n拆成一组数连加并等于n的形式,且这组数中的最大加数不大于n。 如6的整数划分为 6 5 + 1 4 + 2, 4 + 1 + 1 3 + 3, 3 + 2 + 1, 3 + 1 + 1 + 1 2 + 2 + 2, 2 + 2 + 1 + 1, 2 + 1 + 1 + 1 + 1 1 + 1 + 1 + 1 + 1 + 1 共11种。下面介绍一种通过递归方法得到一个正整数的划分数。 递归函数的声明为 int split(int n, int m);其中n为要划分的正整数,m是划分中的最大加数(当m > n时,最大加数为n), 1 当n = 1或m = 1时,s 阅读全文
摘要:
樊安之求职意向: 研发工程师基本信息 学校:中山大学 专业:信息计算科学 毕业时间:2012-06手机:1598923**** 邮箱:fananzhi@163.com 政治面貌:党员教育背景 中山大学 信息计算科学 硕士 研究方向:数据挖掘,分布式计算/存储l2010.11 第七届研究生数学建模全国三等奖 国家级l2010.09 发表论文《Web使用挖掘及其在电子商务中的应用研究》 《现代计算机》中山大学 信息与计算科学 学士学位l2009-2010年度 新鸿基优秀学子奖学金,校级ACM优胜奖,GPA3.8 / 5.0 免试保送中山大学硕士研究生,中山大学优秀本科毕业生,毕业论文优秀l... 阅读全文
摘要:
map: (K1, V1) → list(K2, V2)reduce: (K2, list(V2)) → list(K3, V3)(K1, V1):jobConf.setInputKeyClass(K1. class );jobConf.setInputValueClass(V1. class );list(K2, V2):job.setMapOutputKeyClass(K2.class);job.setMapOutputValueClass(V2.class); list(K3, V3):jobConf.setOutputKeyClass(K3. class );jobConf.setOu 阅读全文
摘要:
1、气候监测数据集http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站http://www.fs.fed.us/fire/fuelman/http://www.cs.toronto.edu/~roweis/data.htmlhttp://www.cs.toronto.edu/~roweis/data.htmlhttp://kdd.ics.uci.edu/summary.task.type.htmlhttp://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/http://www-2 阅读全文
摘要:
开机因sendmail过慢,可通过:chkconfig --level 35 sendmail off关掉开机总动启动1. 准备hbase-0.90.3-cdh3u1hadoop-0.20.2从Cloudera官网下载,这里注意尽量使用cdh一套的hbase和hadoop 而不要杂用。这里没办法了,不想重新配置2. 服务器master:masterslaves:master,slave13. 配置文件hbase-site.xml<configuration> <property> <name>hbase.rootdir</name> <va 阅读全文
摘要:
参考官网,分析源码1. 网页给出了如何应用开发PFP-Growth的过程https://cwiki.apache.org/confluence/display/MAHOUT/Parallel+Frequent+Pattern+Mining但是易发现将其代码复制过去不能运行。原因有: 1.1 相应包没有加进去,加的必备包有:Mahout,Hadoop,Hbase。运行过程中会缺什么包,这是找到相应包加进去即可,这是一个折磨人的过程,因为不知道需要的类是包含在哪个包里面,但是一般都有启发式寻找思路。首先确定是在Mahout,还是在Hadoop下找?然后打开可能的包看下是否包含需要的类。例如本项目中 阅读全文
摘要:
配置:maven:下载,配置,用于在Mahout目录mvn install 编译mahouteclipse:导入jars,编译测试例子hadoop:分布式Mahout:下载,配置 /etc/profile推荐系统实例:1. 新建Java工程,新建Class Test2. 参考:http://blog.csdn.net/aidayei/article/details/6626699package org.apache.mahout.fpm.pfpgrowth;import org.apache.mahout.cf.taste.impl.model.file.*;import org.apache 阅读全文