右介 - 博客园

2017年10月24日

摘要：键值对RDD是Spark中许多操作所需要的常见数据类型。 “分区”是用来让我们控制键值对RDD在各节点上分布情况的高级特性。使用可控的分区方式把常在一起被访问的数据放在同一个节点上，可以大大减少应用的通信开销，带来明显的性能提升。 4.1 动机 Spark为pair RDD提供了并行操作各个键或跨节阅读全文

posted @ 2017-10-24 15:29 右介阅读(474) 评论(0) 推荐(0) 编辑

2017年10月23日

Linux（CentOS）修改IP地址

摘要：登陆连接centos系统，输入 ifconfig 可以查看到当前本机的IP地址信息一临时修改IP地址： 1.假如查询IP为1.118，输入 ifconfig eth0 （默认是第一个网卡）后面接IP地址，网络掩码和网关，如果不设置，就使用默认的掩码 2.再次查看IP就已经变成1.118了阅读全文

posted @ 2017-10-23 10:24 右介阅读(649) 评论(0) 推荐(0) 编辑

Windows下pip安装scipy报错no lapack/blas resources found

摘要： Windows下升级了pandas，但是发现scipy包随后引用出错，后来确认需重新安装scipy，在用pip安装scipy出现no lapack/blas resources found的错误。后来找到一种简便的解决方案，只要在网站 Unofficial Windows Binaries fo 阅读全文

posted @ 2017-10-23 10:07 右介阅读(381) 评论(0) 推荐(0) 编辑

vim删除文本文件中末行^M

摘要： ^M字符的来历和作用：在DOS/Windows里，文本文件的换行符为\r\n，而在*nix系统里则为\n，所以DOS/Windows里编辑过的文本文件到了*nix里，每一行都多了个^M。所以^M只是一个换行符号，没有实际的用处，我们可以将它保留，也可以将它删除。下面我们介绍如何在Linux中删掉^M 阅读全文

posted @ 2017-10-23 09:56 右介阅读(516) 评论(0) 推荐(0) 编辑

2017年10月20日

RDD编程下（Spark自学四）

摘要： 3.5 常见的转化操作和行动操作 3.5.1 基本RDD 1. 针对各个元素的转化操作两个最常用的转化操作是map()和filter()。转化操作map()接受一个函数，把这个函数用于RDD中的每个元素，将函数的返回结果作为结果RDD中对应元素的值。而转化操作filter()则接收一个函数，并将R 阅读全文

posted @ 2017-10-20 11:47 右介阅读(198) 评论(0) 推荐(0) 编辑

2017年10月18日

RDD编程上（Spark自学三）

摘要：弹性分布式数据集（简称RDD）是Spark对数据的核心抽象。RDD其实就是分布式的元素集合。在Spark中，对数据的操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在这一切背后，Spark会自动将RDD中的数据分发到集群上，并将操作并行化执行。 3.1 RDD基础 Spark中的R 阅读全文

posted @ 2017-10-18 17:33 右介阅读(271) 评论(0) 推荐(0) 编辑

外网无法连接Kafka集群（报错：NoBrokersAvailable）

摘要：本地Consumer和Producer无法使用远程Kafka服务器的解决方法：分别修改各台服务器Kafka配置文件server.properties，在#listeners=PLAINTEXT://:9092下添加如下一行： advertised.listeners=PLAINTEXT://x. 阅读全文

posted @ 2017-10-18 16:00 右介阅读(7620) 评论(0) 推荐(0) 编辑

kafka启动报错：kafka.common.KafkaException: Failed to acquire lock on file .lock

摘要： kafka 异常退出后重启时遇到的问题解决：执行 netstat -lnp|grep 9092 在执行结果中找到进程号执行 kill -9 进程号再尝试启动Kafka 阅读全文

posted @ 2017-10-18 15:11 右介阅读(4510) 评论(0) 推荐(0) 编辑

Python测试Kafka集群(kafka-python)

摘要：生产者代码：消费者代码：阅读全文

posted @ 2017-10-18 14:59 右介阅读(9571) 评论(1) 推荐(0) 编辑

Kafka 集群搭建（自用）

摘要： Zookeeper集群搭建 1、软件环境（3台服务器-测试环境） 192.168.56.9 192.168.56.6 192.168.56.7 1、Linux服务器一台、三台、五台、（2*n+1），Zookeeper集群的工作是超过半数才能对外提供服务，3台中超过两台超过半数，允许1台挂掉，是否阅读全文

posted @ 2017-10-18 14:21 右介阅读(469) 评论(0) 推荐(0) 编辑

右介

公告