06 2016 档案
摘要:umask是chmod配套的,umask的值共有4位,分别代表:gid/uid,属主,组权,其它用户权限。一般用的是后3位。例如你用chmod 755 file(此时这文件的权限是属主读(4)+写(2)+执行(1),同组的和其它用户有读写权限)。1/在home文件夹下,查看umask,执行创建文件:umask设置的是权限“补码”:如上umask值为022,则对应目录权限为7-0=7,7-2=5,7...
阅读全文
摘要:vim /usr/local/spark/conf/spark-env.shexport SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)export SCALA_HOME=/usr/local/scalaexport JAVA_HOME=/opt/jdk1.8.0_65export SPARK_MASTER=localh...
阅读全文
摘要:cd sparkapp/ ls find . /usr/local/sbt/sbt packagepackage完成:hadoop@Athena:~/sparkapp$ lsproject simple.sbt src target打包位置:我们就可以将生成的 jar 包通过 spark-submit 提交到 Spark 中运行:/usr/local/spark/bin/spark-sub...
阅读全文
摘要:独立应用程序(Self-Contained Applications)现在基于一个简单的APP,通过 Spark API 编写一个独立应用程序。使用 Scala 编写的程序需要使用 sbt 进行编译打包,相应的,Java 程序使用 Maven 编译打包,而 Python 程序通过 spark-submit 直接提交。PS:好像spark2.0支持RDD以外的一种数据集(DataSets), 对py...
阅读全文
摘要:Spark StreamingSpark Streaming 使用 Spark API 进行流计算,这意味着在 Spark 上进行流处理与批处理的方式一样。因此,你可以复用批处理的代码,使用 Spark Streaming 构建强大的交互式应用程序,而不仅仅是用于分析数据。Spark Streaming 示例(基于流的单词统计)来演示一下 Spark Streaming:本地服务器通过 TCP 接...
阅读全文
摘要:缓存Spark 支持在集群范围内将数据集缓存至每一个节点的内存中,可避免数据传输,当数据需要重复访问时这个特征非常有用,例如查询体积小的“热”数据集,或是运行如 PageRank 的迭代算法。调用 cache(),就可以将数据集进行缓存:linesWithSpark.cache() Spark SQL 和 DataFramesSpark SQL 是 Spark 内嵌的模块,用于结构化数据。在 Sp...
阅读全文
摘要:进入交互界面./bin/spark-shell创建textFile,从本地文件,val textFile = sc.textFile("file:///usr/local/spark/README.md")从HDFS读取,scala> val textFile = sc.textFile("input/yarn-site.xml")scala> textFile.count() // RDD 中的...
阅读全文
摘要:伪分布式读取的则是 HDFS 上的数据。要使用 HDFS,首先需要在 HDFS 中创建用户目录:./bin/hdfs dfs -mkdir -p /user/hadoop接着将 ./etc/hadoop 中的 xml 文件作为输入文件复制到分布式文件系统中,即将 /usr/local/hadoop/etc/hadoop 复制到分布式文件系统中的 /user/hadoop/input 中。./bin...
阅读全文
摘要:运行 Hadoop 程序时,为了防止覆盖结果,程序指定的输出目录(如 output)不能存在,否则会提示错误,因此运行前需要先删除输出目录。在实际开发应用程序时,可考虑在程序中加上如下代码,能在每次运行时自动删除输出目录,避免繁琐的命令行操作:Configuration conf = new Configuration();Job job = new Job(conf); /* 删除输出目录 */...
阅读全文
摘要:新版的 Hadoop 使用了新的 MapReduce 框架(MapReduce V2,也称为 YARN,Yet Another Resource Negotiator)。YARN 是从 MapReduce 中分离出来的,负责资源管理与任务调度。YARN 运行于 MapReduce 之上,提供了高可用性、高扩展性。上述通过 ./sbin/start-dfs.sh 启动 Hadoop,仅仅是启动了 M...
阅读全文
摘要:1/增加hadoop 的用户;sudo useradd -m hadoop -s /bin/bash创建了可以登陆的 hadoop 用户,并使用 /bin/bash 作为 shell。设置密码:sudo passwd hadoop2/可为 hadoop 用户增加管理员权限 sudo adduser hadoop sudo更新源 2 sudo apt update3/安装ssh服务器,配置无密...
阅读全文
摘要:Hadoop 可以在单节点上以伪分布式的方式运行,Hadoop 进程以分离的 Java 进程来运行,节点既作为 NameNode 也作为 DataNode,同时,读取的是 HDFS 中的文件。Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件...
阅读全文
摘要:Hadoop 安装好之后,开始安装 Spark。环境:ubuntu16.04,hadoop 2.7.2选择spark1.6.1,基于hadoop2.6的预编译版本。官网:http://spark.apache.org/downloads.html检查:md5sum spark-1.6.1-bin-hadoop2.6.tgz下载后,执行如下命令进行安装:sudo tar -zxf ~/下载/spar...
阅读全文
摘要:ldconfig是一个动态链接库管理命令为了让动态链接库为系统所共享,还需运行动态链接库的管理命令--ldconfigldconfig 命令的用途,主要是在默认搜寻目录(/lib和/usr/lib)以及动态库配置文件/etc/ld.so.conf内所列的目录下,搜索出可共享的动态 链接库(格式如前介绍,lib*.so*),进而创建出动态装入程序(ld.so)所需的连接和缓存文件.缓存文件默认为 ...
阅读全文