随笔分类 -  hadoop

hive
摘要:然后在hdfs上查看, port 50070dfs -ls /user/wyq/hive; eclipse java(jar cvf demoudf.jar ///.java) cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 用 阅读全文

posted @ 2017-10-28 04:55 satyrs 阅读(318) 评论(0) 推荐(0)

notes for official-website(hadoop always to be continue..)
摘要:1 Other services (such as Web App Proxy Server and MapReduce Job History server) are usually run either on dedicated hardware or on shared infrastrucu 阅读全文

posted @ 2017-09-30 07:03 satyrs 阅读(137) 评论(0) 推荐(0)

big data science(course notes...)
摘要:1 大数据:batch,interactive query,streaming 2 集群环境有三大挑战:分别是并行化、单点失败处理、资源共享。采用以并行化的方式重写应用程序、对单点失败的处理方式、动态地进行计算资源的分配等解决方案 3 address of any protocol control 阅读全文

posted @ 2017-09-23 22:51 satyrs 阅读(122) 评论(0) 推荐(0)

MRUNIT- unittest(hadoop)
摘要:keyword: JUnit4.x Mock MRprogramming 为了使用MRUnit,我们需要将hadoop-version-mrunit.jar和Junit4.x使用的jar包:junit.jar都添加到我们开发Hadoop程序项目的classpath中。 1. 测试Map,我们可以使用 阅读全文

posted @ 2017-09-22 23:52 satyrs 阅读(120) 评论(0) 推荐(0)

log4j
摘要:concept;features;limits about logging Logging是一个调试程序最基本的方法。被当作一个审计工具。 1 Debugger在多线程和分布式的环境中并不总是可用的。2 Debugger的信息是临时的,而Logging记录下来的信息是永久的。 1 Logging会影 阅读全文

posted @ 2017-09-22 23:33 satyrs 阅读(128) 评论(0) 推荐(0)

recap basic command(hadoop always to be continue...)
摘要:主要还是为写scripts。Deployment Guide更重要。 file operations hdfs fs -ls hdfs fs -lsr 包括子目录文件 hdfs fs -rmr bin/hadoop fs -put path1 path2 上传hdfs 下path1 到本机 path 阅读全文

posted @ 2017-09-22 22:57 satyrs 阅读(127) 评论(0) 推荐(0)

add/delete node(hadoop)
摘要:safe mode when delete node: <property> <name>dfs.hosts.exclude</name> <value>conf/nn-excluded-list</value> </property> 阅读全文

posted @ 2017-09-22 22:40 satyrs 阅读(129) 评论(0) 推荐(0)

cluster management(hadoop always to be continue... )
摘要:installation: create user, mkdir, download, nano configuration file, nano system config, ssh masternode>all nodes, start-all 程序源文件存放 部署脚本 远程拷贝+本地配置(安装 阅读全文

posted @ 2017-09-22 21:22 satyrs 阅读(212) 评论(0) 推荐(0)

user permission (hadoop)
摘要:root: 创建各工具的各个账号,创/修密码 安装所有用户需要的语言包 管理各工具软件包,并对用户赋予权限 不同用户不同基础目录、临时目录及不同权限 无密码ssh 在开发和测试环境可以用一个帐号全部管理,省去很多麻烦。 hadoop配置 Hadoop权威指南 v3版:只需要Master到Slave单 阅读全文

posted @ 2017-09-22 21:06 satyrs 阅读(141) 评论(0) 推荐(0)

log (hadoop)
摘要:1application->container来管理。NameNode 的mapreduce log在userlogs。System.out 无法看到Mapper和Reducer的部分。 生成log方法: 2log4j 3apache common LogFactory 4MultipleOutpu 阅读全文

posted @ 2017-09-22 20:53 satyrs 阅读(699) 评论(0) 推荐(0)

导航