cctext - 博客园

2018年7月19日

摘要：第一步：引入jar到pom.xml、第二步：demo代码示例以下代码实现了，连接ftp，遍历ftp服务器上的目录结构阅读全文

posted @ 2018-07-19 21:28 cctext 阅读(2674) 评论(0) 推荐(0)

2018年7月18日

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十八）ES6.2.2 增删改查基本操作

摘要： #文档元数据一个文档不仅仅包含它的数据，也包含元数据 —— 有关文档的信息。三个必须的元数据元素如下：## _index 文档在哪存放 ## _type 文档表示的对象类别 ## _id 文档唯一标识# 索引文档 #通过使用 index API ，文档可以被索引 —— 存储和使文档可被搜阅读全文

posted @ 2018-07-18 19:44 cctext 阅读(583) 评论(0) 推荐(0)

2018年7月17日

centos：时间同步

摘要：转自：https://blog.csdn.net/u011391839/article/details/62892020 Linux的时间分为System Clock（系统时间）和Real Time Clock （硬件时间，简称RTC）。系统时间：指当前Linux Kernel中的时间。硬件时间阅读全文

posted @ 2018-07-17 21:53 cctext 阅读(653) 评论(0) 推荐(0)

centos：添加用户

摘要：初步进入centos学习，配置用户 1，创建用户创建用户 hadoop 2，创建密码 3，用户授权创建账户必须授权，不然，个人用户的权限只可以在本home下有权限，其他的必须有授权，一般需要root的权限sudo的命令授权一般在sudoers里面找到sudoer文件位置看下文件的权限只读的文件阅读全文

posted @ 2018-07-17 20:03 cctext 阅读(6184) 评论(0) 推荐(0)

2018年7月15日

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十七）Elasticsearch-6.2.2集群安装，组件安装

摘要： 1.集群安装es ES内部索引原理：《时间序列数据库的秘密（1）—— 介绍》《时间序列数据库的秘密 (2)——索引》《时间序列数据库的秘密（3）——加载和分布式计算》 1.1 环境 1.2 三台机器都安装jdk最新版本 1.3 三台机器都统一用户为spark 1.4 使用spark用户，在三台阅读全文

posted @ 2018-07-15 23:34 cctext 阅读(637) 评论(0) 推荐(0)

2018年7月13日

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十六）Structured Streaming中ForeachSink的用法

摘要： Structured Streaming默认支持的sink类型有File sink，Foreach sink，Console sink，Memory sink。 ForeachWriter实现：以写入redis为例 package com.dx.streaming.producer; import 阅读全文

posted @ 2018-07-13 22:18 cctext 阅读(1169) 评论(0) 推荐(0)

2018年7月11日

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十五）Spark编写UDF、UDAF、Agg函数

摘要： Spark Sql提供了丰富的内置函数让开发者来使用，但实际开发业务场景可能很复杂，内置函数不能够满足业务需求，因此spark sql提供了可扩展的内置函数。 UDF：是普通函数，输入一个或多个参数，返回一个值。比如：len(),isnull() UDAF：是聚合函数，输入一组值，返回一个聚合结果。阅读全文

posted @ 2018-07-11 14:35 cctext 阅读(838) 评论(0) 推荐(0)

2018年7月9日

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十四）定义一个avro schema使用comsumer发送avro字符流，producer接受avro字符流并解析

摘要：参考《在Kafka中使用Avro编码消息：Consumer篇》、《在Kafka中使用Avro编码消息：Producter篇》在了解如何avro发送到kafka，再从kafka解析avro数据之前，我们可以先看下如何使用操作字符串： producer: package com.spark; impo 阅读全文

posted @ 2018-07-09 23:59 cctext 阅读(1791) 评论(0) 推荐(0)

2018年7月8日

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十三）kafka+spark streaming打包好的程序提交时提示虚拟内存不足（Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 G）

摘要：异常问题：Container is running beyond virtual memory limits. Current usage: 119.5 MB of 1 GB physical memory used; 2.2 GB of 2.1 GB virtual memory used. Ki 阅读全文

posted @ 2018-07-08 21:26 cctext 阅读(1589) 评论(2) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十二）VMW安装四台CentOS，并实现本机与它们能交互，虚拟机内部实现可以上网。

摘要： Centos7出现异常：Failed to start LSB: Bring up/down networking. 按照《Kafka：ZK+Kafka+Spark Streaming集群环境搭建（一）VMW安装四台CentOS，并实现本机与它们能交互，虚拟机内部实现可以上网。》配置好虚拟机，正在使阅读全文

posted @ 2018-07-08 16:54 cctext 阅读(472) 评论(0) 推荐(0)

2018年7月5日

Hadoop：安装ftp over hdfs

摘要： https://blog.csdn.net/sptoor/article/details/11484855 https://blog.csdn.net/tengxing007/article/details/53241169d账户名可以自己设置，也可以修改hadoop-core的版本 https:/ 阅读全文

posted @ 2018-07-05 00:06 cctext 阅读(1007) 评论(0) 推荐(0)

2018年7月3日

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十一）定制一个arvo格式文件发送到kafka的topic，通过Structured Streaming读取kafka的数据

摘要：将arvo格式数据发送到kafka的topic 第一步：定制avro schema: 定义一个avro的schema文件userlog.avsc，内容如上。该schema包含字段：ip:string,identity:string,userid:int,time:string,requestinf 阅读全文

posted @ 2018-07-03 23:32 cctext 阅读(1634) 评论(0) 推荐(1)

2018年7月2日

Hadoop：开发机运行spark程序，抛出异常：ERROR Shell: Failed to locate the winutils binary in the hadoop binary path

摘要：问题： windows开发机运行spark程序，抛出异常：ERROR Shell: Failed to locate the winutils binary in the hadoop binary path，但是可以正常执行，并不影响结果。这里所执行的程序是：解决方案： 1.下载winutil 阅读全文

posted @ 2018-07-02 19:57 cctext 阅读(2648) 评论(0) 推荐(0)

2018年7月1日

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十）安装hadoop2.9.0搭建HA

摘要：如何搭建配置centos虚拟机请参考《Kafka：ZK+Kafka+Spark Streaming集群环境搭建（一）VMW安装四台CentOS，并实现本机与它们能交互，虚拟机内部实现可以上网。》如何安装hadoop2.9.0请参考《Kafka：ZK+Kafka+Spark Streaming集群环阅读全文

posted @ 2018-07-01 17:19 cctext 阅读(1776) 评论(0) 推荐(0)

2018年6月30日

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（九）安装kafka_2.11-1.1.0

摘要：如何搭建配置centos虚拟机请参考《Kafka：ZK+Kafka+Spark Streaming集群环境搭建（一）VMW安装四台CentOS，并实现本机与它们能交互，虚拟机内部实现可以上网。》如何安装hadoop2.9.0请参考《Kafka：ZK+Kafka+Spark Streaming集群环阅读全文

posted @ 2018-06-30 22:22 cctext 阅读(4570) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（八）安装zookeeper-3.4.12

摘要：如何搭建配置centos虚拟机请参考《Kafka：ZK+Kafka+Spark Streaming集群环境搭建（一）VMW安装四台CentOS，并实现本机与它们能交互，虚拟机内部实现可以上网。》如何安装hadoop2.9.0请参考《Kafka：ZK+Kafka+Spark Streaming集群环阅读全文

posted @ 2018-06-30 20:51 cctext 阅读(1377) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（七）针对hadoop2.9.0启动DataManager失败问题

摘要： DataManager启动失败启动过程中发现一个问题：slave1,slave2,slave3都是只启动了DataNode，而DataManager并没有启动：这里一个错误原因可以从： slaves各自的nodemanager日志查看。查看slave1虚拟机的/opt/hadoop-2.9.0 阅读全文

posted @ 2018-06-30 16:31 cctext 阅读(989) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（六）针对spark2.2.1以yarn方式启动spark-shell抛出异常：ERROR cluster.YarnSchedulerBackend$YarnSchedulerEndpoint: Sending RequestExecutors(0,0,Map(),Set()) to AM was unsuccessful

摘要： Spark以yarn方式运行时抛出异常：解决方案：主要是给节点分配的内存少，yarn kill了spark application。给yarn-site.xml增加配置：重启hadoop。然后再重新执行./spark-shell --master yarn-client即可。问题解决过程记录阅读全文

posted @ 2018-06-30 16:07 cctext 阅读(5330) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（五）针对hadoop2.9.0启动之后发现slave上正常启动了DataNode,DataManager，但是过了几秒后发现DataNode被关闭

摘要：启动之后发现slave上正常启动了DataNode,DataManager，但是过了几秒后发现DataNode被关闭以slave1上错误日期为例查看错误信息：找到错误信息：解决方案错误问题原因：多次格式化导致的。 1）在master执行sbin/stop-all.sh，关闭hadoop: 2 阅读全文

posted @ 2018-06-30 16:01 cctext 阅读(1143) 评论(0) 推荐(0)

Kafka：ZK+Kafka+Spark Streaming集群环境搭建（四）针对hadoop2.9.0启动执行start-all.sh出现异常：failed to launch: nice -n 0 /bin/spark-class org.apache.spark.deploy.worker.Worker

摘要：启动问题：执行start-all.sh出现以下异常信息：解决方案： Just added export JAVA_HOME=/usr/java/default in /root/.bashrc 之后尝试重新启动hadoop。参考《https://blog.csdn.net/Abandon_Su 阅读全文

posted @ 2018-06-30 15:56 cctext 阅读(4628) 评论(1) 推荐(0)

yy

基础才是编程人员应该深入研究的问题，警告自己问题解决不了时，多从运行原理底层研究后再考虑方案。

公告