2016 年 6月随笔档案 - iAthena

权限掩码umask详解

摘要：umask是chmod配套的，umask的值共有4位，分别代表：gid/uid，属主，组权，其它用户权限。一般用的是后3位。例如你用chmod 755 file（此时这文件的权限是属主读(4)+写(2)＋执行(1),同组的和其它用户有读写权限)。1/在home文件夹下，查看umask，执行创建文件：umask设置的是权限“补码”：如上umask值为022，则对应目录权限为7-0=7，7-2=5，7... 阅读全文

posted @ 2016-06-29 10:56 iAthena 阅读(3316) 评论(0) 推荐(0) 编辑

spark配置(7)--on yarn配置

摘要：vim /usr/local/spark/conf/spark-env.shexport SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)export SCALA_HOME=/usr/local/scalaexport JAVA_HOME=/opt/jdk1.8.0_65export SPARK_MASTER=localh... 阅读全文

posted @ 2016-06-26 02:16 iAthena 阅读(529) 评论(0) 推荐(0) 编辑

spark配置（6）-独立应用程序

摘要：cd sparkapp/ ls find . /usr/local/sbt/sbt packagepackage完成：hadoop@Athena:~/sparkapp$ lsproject simple.sbt src target打包位置：我们就可以将生成的 jar 包通过 spark-submit 提交到 Spark 中运行:/usr/local/spark/bin/spark-sub... 阅读全文

posted @ 2016-06-25 07:44 iAthena 阅读(318) 评论(0) 推荐(0) 编辑

spark配置(5)-独立应用程序

摘要：独立应用程序（Self-Contained Applications）现在基于一个简单的APP，通过 Spark API 编写一个独立应用程序。使用 Scala 编写的程序需要使用 sbt 进行编译打包，相应的，Java 程序使用 Maven 编译打包，而 Python 程序通过 spark-submit 直接提交。PS:好像spark2.0支持RDD以外的一种数据集（DataSets），对py... 阅读全文

posted @ 2016-06-25 07:42 iAthena 阅读(699) 评论(0) 推荐(0) 编辑

spark配置(4)-----Spark Streaming

摘要：Spark StreamingSpark Streaming 使用 Spark API 进行流计算，这意味着在 Spark 上进行流处理与批处理的方式一样。因此，你可以复用批处理的代码，使用 Spark Streaming 构建强大的交互式应用程序，而不仅仅是用于分析数据。Spark Streaming 示例（基于流的单词统计）来演示一下 Spark Streaming：本地服务器通过 TCP 接... 阅读全文

posted @ 2016-06-25 07:42 iAthena 阅读(301) 评论(0) 推荐(0) 编辑

spark配置（3）

摘要：缓存Spark 支持在集群范围内将数据集缓存至每一个节点的内存中，可避免数据传输，当数据需要重复访问时这个特征非常有用，例如查询体积小的“热”数据集，或是运行如 PageRank 的迭代算法。调用 cache()，就可以将数据集进行缓存：linesWithSpark.cache() Spark SQL 和 DataFramesSpark SQL 是 Spark 内嵌的模块，用于结构化数据。在 Sp... 阅读全文

posted @ 2016-06-25 07:41 iAthena 阅读(140) 评论(0) 推荐(0) 编辑

spark配置(2)

摘要：进入交互界面./bin/spark-shell创建textFile，从本地文件，val textFile = sc.textFile("file:///usr/local/spark/README.md")从HDFS读取，scala> val textFile = sc.textFile("input/yarn-site.xml")scala> textFile.count() // RDD 中的... 阅读全文

posted @ 2016-06-25 07:40 iAthena 阅读(187) 评论(0) 推荐(0) 编辑

Hadoop 配置（3）---使用 HDFS

摘要：伪分布式读取的则是 HDFS 上的数据。要使用 HDFS，首先需要在 HDFS 中创建用户目录：./bin/hdfs dfs -mkdir -p /user/hadoop接着将 ./etc/hadoop 中的 xml 文件作为输入文件复制到分布式文件系统中，即将 /usr/local/hadoop/etc/hadoop 复制到分布式文件系统中的 /user/hadoop/input 中。./bin... 阅读全文

posted @ 2016-06-25 07:39 iAthena 阅读(255) 评论(0) 推荐(0) 编辑

hadoop配置（4） --在每次运行时自动删除输出目录

摘要：运行 Hadoop 程序时，为了防止覆盖结果，程序指定的输出目录（如 output）不能存在，否则会提示错误，因此运行前需要先删除输出目录。在实际开发应用程序时，可考虑在程序中加上如下代码，能在每次运行时自动删除输出目录，避免繁琐的命令行操作：Configuration conf = new Configuration();Job job = new Job(conf); /* 删除输出目录 */... 阅读全文

posted @ 2016-06-25 07:39 iAthena 阅读(1728) 评论(0) 推荐(0) 编辑

hadoop配置（5） --启动YARN

摘要：新版的 Hadoop 使用了新的 MapReduce 框架（MapReduce V2，也称为 YARN，Yet Another Resource Negotiator）。YARN 是从 MapReduce 中分离出来的，负责资源管理与任务调度。YARN 运行于 MapReduce 之上，提供了高可用性、高扩展性。上述通过 ./sbin/start-dfs.sh 启动 Hadoop，仅仅是启动了 M... 阅读全文

posted @ 2016-06-25 07:39 iAthena 阅读(867) 评论(0) 推荐(0) 编辑

Hadoop 配置（1）

摘要：1/增加hadoop 的用户;sudo useradd -m hadoop -s /bin/bash创建了可以登陆的 hadoop 用户，并使用 /bin/bash 作为 shell。设置密码：sudo passwd hadoop2/可为 hadoop 用户增加管理员权限 sudo adduser hadoop sudo更新源 2 sudo apt update3/安装ssh服务器，配置无密... 阅读全文

posted @ 2016-06-25 07:37 iAthena 阅读(319) 评论(0) 推荐(0) 编辑

Hadoop 配置（2）-Hadoop伪分布式配置

摘要：Hadoop 可以在单节点上以伪分布式的方式运行，Hadoop 进程以分离的 Java 进程来运行，节点既作为 NameNode 也作为 DataNode，同时，读取的是 HDFS 中的文件。Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中，伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件... 阅读全文

posted @ 2016-06-25 07:36 iAthena 阅读(955) 评论(0) 推荐(0) 编辑

spark配置（1）

摘要：Hadoop 安装好之后，开始安装 Spark。环境：ubuntu16.04,hadoop 2.7.2选择spark1.6.1，基于hadoop2.6的预编译版本。官网：http://spark.apache.org/downloads.html检查：md5sum spark-1.6.1-bin-hadoop2.6.tgz下载后，执行如下命令进行安装：sudo tar -zxf ~/下载/spar... 阅读全文

posted @ 2016-06-23 15:35 iAthena 阅读(209) 评论(0) 推荐(0) 编辑

ldconfig命令的作用

摘要：ldconfig是一个动态链接库管理命令为了让动态链接库为系统所共享,还需运行动态链接库的管理命令--ldconfigldconfig 命令的用途,主要是在默认搜寻目录(/lib和/usr/lib)以及动态库配置文件/etc/ld.so.conf内所列的目录下,搜索出可共享的动态链接库(格式如前介绍,lib*.so*),进而创建出动态装入程序(ld.so)所需的连接和缓存文件.缓存文件默认为 ... 阅读全文

posted @ 2016-06-16 18:38 iAthena 阅读(1463) 评论(0) 推荐(0) 编辑

06 2016 档案

公告