上一页 1 2 3 4 5 6 7 8 9 ··· 11 下一页
摘要: 键值对RDD是Spark中许多操作所需要的常见数据类型。 “分区”是用来让我们控制键值对RDD在各节点上分布情况的高级特性。使用可控的分区方式把常在一起被访问的数据放在同一个节点上,可以大大减少应用的通信开销,带来明显的性能提升。 4.1 动机 Spark为pair RDD提供了并行操作各个键或跨节 阅读全文
posted @ 2017-10-24 15:29 右介 阅读(474) 评论(0) 推荐(0) 编辑
摘要: 登陆连接centos系统,输入 ifconfig 可以查看到当前本机的IP地址信息 一 临时修改IP地址: 1.假如查询IP为1.118,输入 ifconfig eth0 (默认是第一个网卡) 后面接IP地址, 网络掩码和 网关,如果不设置,就使用默认的掩码 2.再次查看IP就已经变成1.118了 阅读全文
posted @ 2017-10-23 10:24 右介 阅读(649) 评论(0) 推荐(0) 编辑
摘要: Windows下升级了pandas,但是发现scipy包随后引用出错,后来确认需重新安装scipy, 在用pip安装scipy出现no lapack/blas resources found的错误。 后来找到一种简便的解决方案,只要在网站 Unofficial Windows Binaries fo 阅读全文
posted @ 2017-10-23 10:07 右介 阅读(381) 评论(0) 推荐(0) 编辑
摘要: ^M字符的来历和作用:在DOS/Windows里,文本文件的换行符为\r\n,而在*nix系统里则为\n,所以DOS/Windows里编辑过的文本文件到了*nix里,每一行都多了个^M。所以^M只是一个换行符号,没有实际的用处,我们可以将它保留,也可以将它删除。下面我们介绍如何在Linux中删掉^M 阅读全文
posted @ 2017-10-23 09:56 右介 阅读(516) 评论(0) 推荐(0) 编辑
摘要: 3.5 常见的转化操作和行动操作 3.5.1 基本RDD 1. 针对各个元素的转化操作 两个最常用的转化操作是map()和filter()。转化操作map()接受一个函数,把这个函数用于RDD中的每个元素,将函数的返回结果作为结果RDD中对应元素的值。而转化操作filter()则接收一个函数,并将R 阅读全文
posted @ 2017-10-20 11:47 右介 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 弹性分布式数据集(简称RDD)是Spark对数据的核心抽象。RDD其实就是分布式的元素集合。在Spark中,对数据的操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在这一切背后,Spark会自动将RDD中的数据分发到集群上,并将操作并行化执行。 3.1 RDD基础 Spark中的R 阅读全文
posted @ 2017-10-18 17:33 右介 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 本地Consumer和Producer无法使用远程Kafka服务器的解决方法: 分别修改各台服务器Kafka配置文件server.properties, 在#listeners=PLAINTEXT://:9092下添加如下一行: advertised.listeners=PLAINTEXT://x. 阅读全文
posted @ 2017-10-18 16:00 右介 阅读(7620) 评论(0) 推荐(0) 编辑
摘要: kafka 异常退出后重启时遇到的问题解决: 执行 netstat -lnp|grep 9092 在执行结果中找到进程号执行 kill -9 进程号再尝试启动Kafka 阅读全文
posted @ 2017-10-18 15:11 右介 阅读(4510) 评论(0) 推荐(0) 编辑
摘要: 生产者代码: 消费者代码: 阅读全文
posted @ 2017-10-18 14:59 右介 阅读(9571) 评论(1) 推荐(0) 编辑
摘要: Zookeeper集群搭建 1、软件环境 (3台服务器-测试环境) 192.168.56.9 192.168.56.6 192.168.56.7 1、Linux服务器一台、三台、五台、(2*n+1),Zookeeper集群的工作是超过半数才能对外提供服务,3台中超过两台超过半数,允许1台挂掉 ,是否 阅读全文
posted @ 2017-10-18 14:21 右介 阅读(469) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 11 下一页