Hadoop 开发环境配置
搭建环境,目前网络上一个比较全面细致的文档是:
<a href="http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/">tutorial</a>
按照这个配置好了后,一般都能正常启动,简单的检查,就是在bash 执行jps命令,看datanode, namenode, jobtracker,tasktracker 以及secondarydatanode是否启动了。没有查看日志:{$hadoop.home}/logs。
Core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/app/hadoop/tmp</value>
<description>A base for other temporary directories.</description>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://10.240.12.52:54310</value>
</property>
</configuration>
Mapred-site.xml
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>10.240.12.52:54311</value>
</property>
</configuration>
Hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
注意:不管那种方式部署hadoop,如果你的操作系统为Windows, 都必须安装cygwin,同时加入到path中去。
不然会有很多错误,如chmod 没有找到之类。
以下为正确配置后,Eclipse 上运行word count程序的输出,hadoop 版本0.20.2, eclipse plugin version 0.20.*snap*.jar。
在插件配置过程中,需要注意的地方主要是dfs的路径,用户名,ssh一定要配置正确,出现问题主要看看日志,基本上你能碰到的问题,总会有其他人也碰到,如果看了日志还解决不了,找google,实在不行,看源代码。
话说我3个配置文件就是看了源代码自己摸索出来的。
11/09/19 16:41:08 INFO
jvm.JvmMetrics: Initializing JVM Metrics with processName=JobTracker,
sessionId=
11/09/19 16:41:08 INFO
input.FileInputFormat: Total input paths to process : 3
11/09/19 16:41:09 INFO
mapred.JobClient: Running job: job_local_0001
11/09/19 16:41:09 INFO
input.FileInputFormat: Total input paths to process : 3
11/09/19 16:41:09 INFO
mapred.MapTask: io.sort.mb = 100
11/09/19 16:41:09 INFO
mapred.MapTask: data buffer = 79691776/99614720
11/09/19 16:41:09 INFO
mapred.MapTask: record buffer = 262144/327680
11/09/19 16:41:09 INFO
mapred.MapTask: Starting flush of map output
11/09/19 16:41:09 INFO
mapred.MapTask: Finished spill 0
11/09/19 16:41:09 INFO
mapred.TaskRunner: Task:attempt_local_0001_m_000000_0 is done. And is in the
process of commiting
11/09/19 16:41:09 INFO
mapred.LocalJobRunner:
11/09/19 16:41:09 INFO
mapred.TaskRunner: Task 'attempt_local_0001_m_000000_0' done.
11/09/19 16:41:09 INFO
mapred.MapTask: io.sort.mb = 100
11/09/19 16:41:10 INFO
mapred.MapTask: data buffer = 79691776/99614720
11/09/19 16:41:10 INFO
mapred.MapTask: record buffer = 262144/327680
11/09/19 16:41:10 INFO
mapred.JobClient: map 100% reduce 0%
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· 展开说说关于C#中ORM框架的用法!
· SQL Server 2025 AI相关能力初探
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库