摘要:
hive是使用antlr来解析的 parser要做的事情,是从无结构的字符串里面,解码产生有结构的数据结构(a parser is a function accepting strings as input and returning some structure as output),参考 Par 阅读全文
摘要:
在索引模板里面,date类型的字段的format支持多种类型,在es中全部会转换成long类型进行存储,参考 一个索引模板范例 阅读全文
摘要:
参考 1.下载插件 2.安装 如果遇到 Exception in thread "main" java.lang.IllegalArgumentException: Unknown properties in plugin descriptor: [jvm, site] 解压zip文件,然后修改 p 阅读全文
摘要:
场景:两个用户同时读取了数据库中的一条记录,此时用户A对其中一个字段的值进行了修改操作并进行了提交,后来用户B也对这个字段进行了修改,用户B的提交将会覆盖用户A提交的值 乐观锁和悲观锁 悲观锁: 每次去取数据,很悲观,都觉得会被别人修改,所以在拿数据的时候都会上锁。 简言之,共享资源每次都只给一个线 阅读全文
摘要:
1.创建npm仓库 私服仓库npm-hosted 代理仓库npm-proxy npm-group 创建成功 在工程的根目录下创建文件 .npmrc 然后安装react 或者 仓库上将会下载这个npm包 阅读全文
摘要:
1.请求转发 比如说我要将127.0.0.1/topics上的所有请求转发到xxx:xxx/上 修改 sudo vim /etc/nginx/nginx.conf server { listen 80; server_name 127.0.0.1; location /topics { #root 阅读全文
摘要:
该图转自知乎 海棠依旧 1.先生成p12文件,生成的时候需要指定密码 openssl pkcs12 -export -in your_crt.crt -inkey your_key.key -out your_p12.p12 2.再生成keystore文件 keytool -importkeysto 阅读全文
摘要:
1.配置filebeat_nginx.yml filebeat.modules: - module: nginx access: enabled: true var.paths: ["/var/log/nginx/access.log*"] error: enabled: true var.path 阅读全文
摘要:
1.安装nginx,注意不要安装nginx-full sudo apt-get install nginx sudo apt-get install nginx-common sudo apt-get install nginx-extras 确认版本 apt list --installed | 阅读全文
摘要:
1.修改配置,在http{}中添加 log_format access_json '{"@timestamp":"$time_iso8601",' '"host":"$server_addr",' '"clientip":"$remote_addr",' '"size":$body_bytes_se 阅读全文
摘要:
1.编辑配置文件 在http {}中添加如下 2.重启nginx 3.访问,成功 4.访问日志 阅读全文
摘要:
1.安装 sudo apt-get install nginx 2.启动 systemctl start nginx.service 如果和apache2的80端口冲突了,修改一下apache2的port sudo vim /etc/apache2/ports.conf 冲突的话,日志/var/lo 阅读全文
摘要:
参考 1.首先创建pypi仓库 其中,PyPI类的服务,支持三种: proxy,提供代理服务 hosted,提供私有包的发布服务 group,组合以上两类的多个服务到一起,通过同一个URL对外提供 首先创建pypi-proxy,指定remote storage为阿里云 创建pypi-hosted 创 阅读全文
摘要:
Hive是如何解析SQL的呢,首先拿hive的建表语句来举例,比如下面的建表语句 create table test(id int,name string)row format delimited fields terminated by '\t'; 然后使用hive的show create tab 阅读全文
摘要:
安装 sudo apt-get install supervisor 启动,否则会报 unix:///tmp/supervisor.sock no such file service supervisor start 或者 supervisord -c /etc/supervisor/supervi 阅读全文
摘要:
Hive结构体系 https://blog.csdn.net/zhoudaxia/article/details/8855937 依赖 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artif 阅读全文
摘要:
Filebeat官方文档地址 https://www.elastic.co/guide/en/beats/filebeat/current/filebeat-installation.html 下载和安装 curl -L -O https://artifacts.elastic.co/downloa 阅读全文
摘要:
1.下载安装包 https://www.consul.io/downloads.html wget https://releases.hashicorp.com/consul/1.5.3/consul_1.5.3_linux_amd64.zip 2.解压 unzip consul_1.5.3_lin 阅读全文
摘要:
1.Kerberos介绍 Kerberos是一种计算机网络授权协议,用来在非安全网络中,对个人通信以安全的手段进行身份认证。这个词又指麻省理工学院为这个协议开发的一套计算机软件。软件设计上采用客户端/服务器结构,并且能够进行相互认证,即客户端和服务器端均可对对方进行身份认证。可以用于防止窃听、防止重 阅读全文
摘要:
在终端中执行即可 在终端无法复制问题 阅读全文
摘要:
1.安装impyla pip install impyla 2.在superset页面配置如下,此时impala是有kerberos认证的 impala://xxxx:xx/default?auth_mechanism=GSSAPI&kerberos_service_name=impala 如果遇到 阅读全文
摘要:
1.只执行单个任务 将downstream和recursive按钮的点击状态取消,然后点击clear,最后选择Ignore All Deps,然后点击run 2.从一个任务开始,执行它以及它的下游任务 将downstream和recursive按钮的点击状态取消,然后点击clear,最后选择Igno 阅读全文
摘要:
1.在uri中配置 hive://localhost:10000/default 2.查询 3.如果你的hive集群是带有kerberos认证的,hive数据源需要这样配置 hive://xxx:xxx/default?auth=KERBEROS&kerberos_service_name=hive 阅读全文
摘要:
1.添加mysql数据源 测试连接的时候遇到 安装mysqlclient 如果遇到 安装 添加mysql的url 测试ok 阅读全文
摘要:
Superset 是Airbnb 开源的大数据可视化平台 其支持的datasource https://superset.incubator.apache.org/index.html?highlight=datasource 类似的开源项目Zeppelin所支持的datasource https: 阅读全文
摘要:
1.查看hdfs文件的block信息 不正常的文件 hdfs fsck /logs/xxx/xxxx.gz.gz -files -blocks -locations Connecting to namenode via http://xxx-01:50070/fsck?ugi=xxx&files=1 阅读全文
摘要:
CDH安装官方参考文档: https://www.cloudera.com/documentation/enterprise/5-16-x/topics/configure_cm_repo.html 如果是在生产环境进行安装,建议查看cloudera官方提供的机型建议 https://docs.cl 阅读全文
摘要:
1.安装的docker版本 docker -v Docker version 17.03.2-ce 2.查看本地的镜像 docker images 3.拉取镜像 docker pull centos:7 4.编写Dockerfile FROM nginx RUN echo '<h1>Hello, D 阅读全文
摘要:
在编译thrift文件的时候发现报了如下的错误 后来查了一下,发现class是thrift的关键字之一,变量起名的时候不能和关键字重复 thrift的全部关键字可以查看thrift的源码 搜索keywords,下面这些都是thrift关键字,在起名的时候需要注意 以及 关键字 阅读全文
摘要:
parquet是列式存储格式,官方文档 https://parquet.apache.org/documentation/latest/ 一个Parquet文件是由一个header以及一个或多个block块组成,以一个footer结尾。 header中只包含一个4个字节的数字PAR1用来识别整个Pa 阅读全文
摘要:
ubuntu环境下安装thrift-0.10.0 1.解压 2.编译安装 ./configure -with-cpp -with-boost -without-python -without-csharp -with-java -without-erlang -without-perl -witho 阅读全文
摘要:
xxl-job是一个开源的分布式调度框架,其他类似的框架还有airflow,oozie等等,需要进行对比 1.首先git clone工程 打包工程,打包的过程中会下载所需要的jar包 2.在idea中打开工程 需要修改一下logback.xml和properties中日志路径,然后运行工程 3.初始 阅读全文
摘要:
1.创建索引,名字为index curl -XPUT http://localhost:9200/index 2.创建一个mapping curl -XPOST http://localhost:9200/index/fulltext/_mapping -H 'Content-Type:applic 阅读全文
摘要:
1.测试Elasticsearch的分词 Elasticsearch有多种分词器(参考:https://www.jianshu.com/p/d57935ba514b) Set the shape to semi-transparent by calling set_trans(5) (1)stand 阅读全文
摘要:
简介:antlr工具将语法文件转换成可以识别该语法文件所描述的语言的程序. 例如:给定一个识别json的语法,antlr工具将会根据该语法生成一个程序,该程序可以通过antlr运行库来识别输入的json. 1.下载jar包,antlr-4.7.1-complete.jar http://www.an 阅读全文
摘要:
使用flink来读写hudi有2种API,一个是Flink SQL API,另一个是DataStream API,参考 https://hudi.apache.org/cn/docs/flink-quick-start-guide 1.Flink SQL API 首先启动yarn session / 阅读全文
摘要:
elephant-bird是Twitter的开源项目,项目的地址为 https://github.com/twitter/elephant-bird 该项目是Twitter为LZO,thrift,protocol buffer相关的hadoop InputFormats, OutputFormats 阅读全文
摘要:
下面介绍几种go的包管理工具,推荐使用go mod 1.go mod 参考:go学习笔记——引入依赖 2.Glide 参考:golang 依赖管理 /etc/profile #Go export GOROOT=/home/lintong/software/go export PATH=$PATH:$ 阅读全文
摘要:
Ansible是一个批量部署的工具 参考:Ansible中文权威指南 1.安装 sudo apt-get install software-properties-common sudo apt-add-repository ppa:ansible/ansible sudo apt-get updat 阅读全文
摘要:
Logstash 是开源的服务器端数据处理管道,能够同时 从多个来源采集数据、转换数据,然后将数据发送到您最喜欢的 “存储库” 中。(我们的存储库当然是 Elasticsearch。) 作用:集中、转换和存储数据 官方网站: https://www.elastic.co/cn/products/lo 阅读全文