摘要:
sqoop即SQL-to-Hadoop,是一个把数据从关系型数据库导入到Hadoop系统中的工具(HDFS,HIVE和HBase),也可以将数据从Hadoop导入到关系型数据库。本文以sqoop 1.99.6版本为例演示如何配置和使用sqoop。 1. 从Apache网上下载sqoop http:/ 阅读全文
摘要:
注:该文内容部分来源于ChinaHadoop.cn上的hadoop视频教程。 一. HDFS概述 HDFS即Hadoop Distributed File System, 源于Google发表于2003年的论文,是一种分布式的文件系统。 HDFS优点: 高容错性(数据自动保存多个副本) 适合批处理 阅读全文
摘要:
1. 统计一个目录下文件个数 2. 直接查看压缩文件内容 3. 将所有压缩文件内容输出到某一文件内 4. 查看磁盘空间 5. 查看某一文件夹空间 阅读全文
摘要:
摘要 我们设计实现了google文件系统,一个面向大规模分布式数据密集性应用的可扩展分布式文件系统。它运行在廉价的商品化硬件上提供容错功能,为大量的客户端提供高的整体性能。 尽管与现有的分布式文件系统具有很多相同的目标,我们的设计更多的来源于对于我们的具体应用的负载类型以及当前甚至未来技术环境的观察 阅读全文
摘要:
安装前的一些环境配置: 1. 给用户添加sudo权限,输入su - 进入root账号,然后输入visudo,进入编辑模式,找到这一行:"root ALL=(ALL) ALL"在下面添加"xxx ALL=(ALL) ALL"(这里的xxx是你的用户名),然后保存退出 2. 将JDK压缩包解压到某一目录 阅读全文
摘要:
1. 安装JDK,eclipse,下载hadoop源代码并解压到某一个目录。 2. 安装maven,将bin目录添加到PATH环境变量中。 3. 安装protobuf2.5.0,将protoc-2.5.0-win32中的protoc.exe拷贝到c:\windows\system32中,将proto 阅读全文
摘要:
uniqueidentifier类型可以配合T-SQL中的newid和newsequentialid来生成唯一标识符,具体区别如下(摘抄自微软官方文档)。Nonsequential GUIDs: You can generate nonsequential global unique identif... 阅读全文
摘要:
HttpClient是Apache开发的第三方Java库,可以用来进行网络爬虫的开发,相关API的可以在http://hc.apache.org/httpcomponents-client-ga/httpclient/apidocs/查看。import java.io.BufferedReader;... 阅读全文
摘要:
Given a non-negative integernum, repeatedly add all its digits until the result has only one digit.For example:Givennum = 38, the process is like:3 + ... 阅读全文
摘要:
题目:You are playing the following Nim Game with your friend: There is a heap of stones on the table, each time one of you take turns to remove 1 to 3 s... 阅读全文