摘要: 1.下载python.exe安装http://mirrors.sohu.com/python/2.6.5/python-2.6.5rc2.msiwin7安装时,中间有段时间需要等待很长时间2.下载pydevhttp://sourceforge.net/projects/pydev/files/pydev/Pydev%202.2.0/PyDev%202.2.0.zip/download注意安装前需要安装python2.1以上eclipse3.2-3.73.安装pydev下载后把zip解压到eclipse目录下,把features和plugins覆盖4.配置重启eclipse后在eclipse的w 阅读全文
posted @ 2013-07-11 10:36 度娘818 阅读(357) 评论(0) 推荐(0) 编辑
摘要: hbase安装0. 简介 HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理H... 阅读全文
posted @ 2015-12-01 15:52 度娘818 阅读(566) 评论(0) 推荐(0) 编辑
摘要: ubuntu14.04使用MySQL数据库安装配置Hive 1.2.1一.准备Mysql已经安装好。本人装的是navicat,图形化界面。 并在本地用root用户建立了test数据库二.安装Hive•解压Hive•tar zxvf apache-hive-1.2.1-bin.tar.gz•建立软连接... 阅读全文
posted @ 2015-11-30 17:04 度娘818 阅读(388) 评论(0) 推荐(0) 编辑
摘要: ubuntu14.04安装hadoop2.7.1伪分布式和错误解决需要说明的是我下载的是源码,通过编译源码并安装一、需要准备的软件:1.JDK和GCC 设置JAVA_HOME: vim ~/.bashrc 在最后增加:export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_31... 阅读全文
posted @ 2015-11-30 11:56 度娘818 阅读(2811) 评论(0) 推荐(0) 编辑
摘要: ConstantPool常量池的概念:在讲到String的一些特殊情况时,总会提到StringPool或者ConstantPool,但是我想很多人都不太明白ConstantPool到底是个怎么样的东西,运行的时候存储在哪里,所以在这里先说一下ConstantPool的内容.StringPool是对应... 阅读全文
posted @ 2014-09-29 16:31 度娘818 阅读(117) 评论(0) 推荐(0) 编辑
摘要: 终于可以写kafka的文章了,Mina的相关文章我已经做了索引,在我的博客中置顶了,大家可以方便的找到。从这一篇开始分布式消息系统的入门。在我们大量使用分布式数据库、分布式计算集群的时候,是否会遇到这样的一些问题:l 我想分析一下用户行为(pageviews),以便我能设计出更好的广告位l 我想对用... 阅读全文
posted @ 2014-09-23 14:41 度娘818 阅读(1401) 评论(0) 推荐(0) 编辑
摘要: 官方文档:http://www.w3resource.com/mysql/mysql-partition.php对于分区的类型,以及新建表时就写好分区的话,按照例子做就好了。这边文章主要是为了处理历史数据,也就是表里已经有海量的数据,比如两年的,一天的数据就是G+的,像这样的话,我们必须及早处理这些... 阅读全文
posted @ 2014-09-15 18:00 度娘818 阅读(830) 评论(0) 推荐(0) 编辑
摘要: MySQL Show命令总结MySQL中有很多的基本命令,show命令也是其中之一,在很多使用者中对show命令的使用还容易产生混淆,本文汇集了show命令的众多用法。a. show tables或show tables from database_name; — 显示当前数据库中所有表的名称。b. show tables like ‘my_%’; — 显示当前数据库中以my_开头的表。c. show databases; — 显示mysql中所有数据库的名称。d. show full columns from table_name from database_name; 或show [ful 阅读全文
posted @ 2014-02-14 14:11 度娘818 阅读(166) 评论(0) 推荐(0) 编辑
摘要: 看批处理文件时,常遇到%~dp0之类的东西,不知其意思。打开Windows XP自带的帮助系统,搜索“batch”关键字,能找到有关介绍批处理文件的帮助。通过帮助我终于明白了%~dp0是什么意思,总结如下: 我们知道,%*是用来指批处理文件传入的参数。例如%0表示命令本身,%1表示传入的第一个参数,以此类推。开发一个批处理命令,有时候需要知道这个命令的路径、传入参数的路径等这些与路径相关的信息。一般的编程语言会提供一些类库或者API来完成与路径相关的任务,例如.NET中提供了File类、Directory类和Path类来做这些事情。在批处理文件中,使用%~*来完成与路径相关的任务,语法规... 阅读全文
posted @ 2014-01-21 11:09 度娘818 阅读(665) 评论(0) 推荐(0) 编辑
摘要: hive优化之------控制hive任务中的map数和reduce数一、 控制hive任务中的map数:1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数 b) 假设input目录下有3个文件a,b,c,大小 阅读全文
posted @ 2013-11-26 13:42 度娘818 阅读(164) 评论(0) 推荐(0) 编辑
摘要: 十章 创建计算字段 计算字段 存储在表中的数据一般不是应用程序所需要的格式。我们需要直接从数据库中检索出转换、计算或格式化的数据。而不只是检索出数据,然后再到应用程序或报告程序中区格式化。 这就发挥了计算字段的作用了。与前面的字段不同,计算字段并不实际存在于数据库中。计算字段是运行时在SELECT 语句中创建的。 需要注意的是,只有SELECT语句知道那些列是实际列,哪些列不是,客户机的角度来看,计算字段和其他字段是一样的。拼接字段拼接:将值联结到一起构成单个值。 生成供应商 columnOne(columnTwo) 的格式 SELECT Concat(columnOne, '( 阅读全文
posted @ 2013-11-20 15:16 度娘818 阅读(195) 评论(0) 推荐(0) 编辑