05 2020 档案
摘要:###概述 Structured Streaming 是 Spark 2.0 引入的功能,有以下特点 - 基于 Spark SQL engine - 可以直接使用 DataSet/DataFrame API,就像处理离线的批数据一样 - Spark SQL engine 持续地、增量地处理流数据 -
阅读全文
摘要:HDFS org.apache.hadoop.hdfs.server.datanode.DataNode org.apache.hadoop.hdfs.server.namenode.NameNode ## 非 HA 模式下才有 SecondaryNameNode,配置 HA 的话是两个 NameN
阅读全文
摘要:如果 SparkContext 或 SQLContext 被传到 Worker,哪怕实际上在 Worker 中没使用上,都会报下面的错误 Exception: It appears that you are attempting to reference SparkContext from a br
阅读全文
摘要:架构 Driver Program:每个 Spark 应用的主程序 Spark Context:在 Driver 里面构建,用于协调、调度在各个节点运行的进程 Cluster Manager:管理节点,分配资源(可以是 Spark standalone、Mesos、Yarn、K8S) Worker
阅读全文
摘要:```1. 创建 hadoop 用户 (1) 添加新用户 sudo useradd -m hadoop -s /bin/bash (2) 设置密码 sudo passwd hadoop (3) 增加管理员权限 sudo adduser hadoop sudo (4) 登录账户 su - hadoop (5) 更新...
阅读全文
摘要:Flink on Yarn 的两种模式 Yarn Session:启动一个长期运行的 Yarn 程序,这个 Yarn 程序在不同的 container 上启动 Job Manager 和 Task Manager,实现了 Flink 集群功能,然后每个 Flink app 都提交到这个由 Yarn
阅读全文
摘要:Standalone Cluster 就是独立的 Flink 集群,相对应的有基于 YARN 的 Flink 集群 要求 1. Java 1.8 和 JAVA_HOME 环境变量 2. 不同机器之间支持 SSH 免密码登陆 3. 不同机器都有相同的 Flink 目录结构 下载 Flink 包 ( "
阅读全文
摘要:Flink 提供一个基于 Docker 的 Playground 给用户了解学习 Flink "https://ci.apache.org/projects/flink/flink docs release 1.10/getting started/docker playgrounds/flink
阅读全文
摘要:安装 最好用国内的源,国外的源容易卡,容易安装失败 常用命令 下载镜像,如果不指定版本的话,默认用 latest 默认是到 docker 的官方 registry 下载镜像,有可能很慢,可以改变默认配置 创建或修改文件 /etc/docker/daemon.json,添加以下内容 重启服务 重新 p
阅读全文
摘要:###Web 服务器 用于完成和客户端建立链接,接受并解析请求,转发请求,调用 Web 框架处理业务并生成返回内容,组织并返回内容给客户端,关闭链接等工作,比如 Nginx,Gunicorn,uWSGI 等就是 Web 服务器 ###Web 框架 对 Web 服务的常用功能提取、组织、简化使用,令开
阅读全文