05 2019 档案
摘要:参考: RDD programming guide http://spark.apache.org/docs/latest/rdd-programming-guide.html SQL programming guide http://spark.apache.org/docs/latest/sql
阅读全文
摘要:目的: 通过pycharm远程连接服务器,实现在pycharm上开发,代码同步到服务器(或者可以从服务器download到pycharm),利用服务器开发环境在pycharm上debug。 条件: pycharm专业版 远程部署: 1.如图打开Configuration 2. 3. 4.这是设置不需
阅读全文
摘要:在配置Hadoop之前,应该先做以下配置 1.更改主机名 首先更改主机名,目的是为了方便管理。 输入:hostname 查看本机的名称 使用 hostname 修改当前主机名。 hostname test1 然后输入:vim /etc/sysconfig/network 修改主机名称 将HOSTNA
阅读全文
摘要:RDD(Resilient Distributed Dataset) Spark源码:https://github.com/apache/spark abstract class RDD[T: ClassTag]( @transient private var _sc: SparkContext,
阅读全文