tneduts - 博客园

[置顶] scp无密码访问scp -i

摘要：网上搜索，可以发现大概有以下情况１.使用expect交互２.sshpass 但因为他们都需要安装第三方的软件，不适合我们这样的场景，我们很多时间是绝不允许安装其他软件在客户机上的．我的场景是在本地有一个程序专门用来处理其他机器传过来的日志文件，其他机器之前使用nfs服务挂载本地的目录到本地，然阅读全文

posted @ 2017-10-19 22:08 tneduts 阅读(1402) 评论(1) 推荐(0)

[置顶] Csharp--Read Csv file to DataTable

摘要：在网上找的资料都不怎么好使，许多代码一看就知道根本没有考虑全面。最后找到一个好用的，在codeproject上，这位老兄写成了一个framework,太重了。http://www.codeproject.com/Articles/9258/A-Fast-CSV-Reader确实挺好用的。我没耐下... 阅读全文

posted @ 2014-12-04 21:39 tneduts 阅读(1308) 评论(7) 推荐(1)

算法之大数相加Java版

摘要：一道面试题，就是用字符串表示两个数，求这两个数的加法。（不能使用内置类BigInteger) 我一开始想到的就是把字符串转成字符数组，然后使用mergesort的思路来处理。一开始使用的是Integer.parsetInt(String.valueOf(char))有些麻烦，后来改成了'9'-'0 阅读全文

posted @ 2021-07-03 11:35 tneduts 阅读(183) 评论(1) 推荐(0)

sparksql使用collect_list自定义排序的实现方式

摘要：原始数据如下：+ + + +|id |name |type|+ + + +|1 |name1|p ||2 |name2|p ||3 |name3|p ||1 |x1 |q ||2 |x2 |q ||3 |x3 |q |+ + + +目标数据如下：+ + +|type|value_list |+ + 阅读全文

posted @ 2021-05-21 11:03 tneduts 阅读(3663) 评论(0) 推荐(0)

SparkShell(sparkSql) on k8s

摘要： k8s上没有搭建zepplin,有时候想使用sparkshell/sparksql查一些数据不是很方便，尤其是数据量大的时候,下面描述一下在k8s上运行一个pod,然后在pod里面运行sparkshell/sparksql这样就可以方便查询数据。 (当然，如果你本机有固定的ip或可以使用花生壳之类的阅读全文

posted @ 2021-04-28 14:46 tneduts 阅读(689) 评论(0) 推荐(0)

初级排序Java版代码记录

摘要： package test.sort; import static io.snowfly.algorithms.sort.SortTest.exchange; import static io.snowfly.algorithms.sort.SortTest.printArray; public cl 阅读全文

posted @ 2020-11-16 09:29 tneduts 阅读(137) 评论(0) 推荐(0)

spark on k8s too old Resource issue

摘要：问题描述 spark作业使用airflow调度，运行在k8s集群上，如果作业运行时间长超过一小时（甚至更短）则会出现too old Resource问题，造成airflow的hook无法正确判断作业运行完成的状态，然后重试作业。 airflow 是根据返回的日志中exit number部分，numb 阅读全文

posted @ 2020-08-02 14:56 tneduts 阅读(494) 评论(0) 推荐(0)

hive3.12本地安装测试简记

摘要：前置条件：依赖jdk,请下载jdk8并解压依赖hadoop,请首先下载hadoop并解压 step1/hive metastore建议使用mysql进行存储，安装mysql这一步忽略，请自行安装，如果使用docker,可以使用一句docker run解决。创建hive用户密码和数据库。mysql 阅读全文

posted @ 2020-01-07 08:14 tneduts 阅读(848) 评论(1) 推荐(0)

本机使用sparkshell测试s3读写数据小记

摘要： //step1 下载spark,我官网下载的spark2.4.4 hadoop2.7.3预编译版本解压即可以使用//这里需要注意一点，我本机安装了最新的openjdk13，执行sparksql的时候报错，//解决方法修改spark-env.sh 更新JAVA_HOME=/PATH/TO/JDK8 阅读全文

posted @ 2020-01-05 19:48 tneduts 阅读(1523) 评论(0) 推荐(0)

spark write data to minio test

摘要：想在本机测试一下,spark read write to s3 cloud storeage. minio是一个不错的选择，轻量，兼容aws s3协议。可以使用docker来做。 #拉取镜像 docker pull minio/minio#启动容器docker run -p 9000:9000 - 阅读全文

posted @ 2020-01-05 14:05 tneduts 阅读(1671) 评论(0) 推荐(0)

sparksql 练习题两道

摘要：第一题：select '{"id":1,"name":{"url":"http://xxx/yyy/zz/test.js"}}'##1 获取 //xxx/yyy/zz/test.js中的 xxx和 js ##2 获取 ip地址中的第一组数字 #### method 1 select split(ge 阅读全文

posted @ 2019-12-26 21:59 tneduts 阅读(957) 评论(0) 推荐(0)

geoip ip2region2 with spark

摘要：上一篇文章中我使用 maxmind的免费库开发了一个waterdrop的插件，测试数据发现，国内的有些市级还是不准确，而且香港并不是显示中国，这就不友好了。找了一下，发下 ip2region 这个很不错。https://github.com/lionsoul2014/ip2region 我使用阅读全文

posted @ 2019-12-26 21:43 tneduts 阅读(726) 评论(0) 推荐(0)

最近常用的命令记录

摘要： 1。清除前导空格 %s/^\s\+//g 注意这里的加号也需要\ 2。找到目录下大于100m的文件 find . -type f -size +100M 3。找到目录下昨天的文件 find . -type f -mtime -1 4。找到十分钟前创建的文件 find / -newerct "10 m 阅读全文

posted @ 2019-12-23 23:13 tneduts 阅读(411) 评论(0) 推荐(0)

mac系统上访问docker容器中的ip配置

摘要：使用 mac系统，发现docker没有 docker0网桥，无法直接在宿主机上访问容器的ip，在测试的时候有这种需求，而不是通过-p的方式，可以参考下面的连接，主要就是修改 setting.json，加上socket代理端口，然后配置在网络高级中配置 sockets代理即可。具体可以参考如阅读全文

posted @ 2019-12-23 22:51 tneduts 阅读(5893) 评论(0) 推荐(0)

maxmind geoip2使用笔记

摘要：客户需求如下，nginx的访问日志中ip，匹配出对应的国家，省份和城市，然后给我了一个maxmind的连接参考。查找资料，有做成hive udf的使用方式，我们项目中一直使用 waterdrop 来做数据处理，所以决定开发一个 waterdrop的插件。关于这个功能,waterdrop本身提供阅读全文

posted @ 2019-12-23 22:23 tneduts 阅读(3252) 评论(0) 推荐(0)

获取active nn并替换hue.ini

摘要：当前使用hdp3.1,安装namenode ha,配置hue使用的时候需要安装httpfs,但这个版本的httpfs是空的包，安装后很多目录都没有，不能用，所以采用了上面的方法，配置一个crontab * * * * * /xxx.sh 一分钟检查一次，如果active nn和配置文件中的acti 阅读全文

posted @ 2019-07-21 11:36 tneduts 阅读(199) 评论(0) 推荐(0)

摘要： bin/kafka-producer-perf-test.sh --num-records 5000000 --record-size 5000 \ --topic kafkatopic2 \ --broker-list bin/kafka-run-class.sh org.apache.kafka.clients.tools.ProducerPerformance kafka... 阅读全文

posted @ 2019-07-19 23:36 tneduts 阅读(525) 评论(0) 推荐(0)

hive查询中文乱码问题

摘要：问题1. hue中中文字符乱码问题，重现步骤如下 create external table test_1_txt (id int, name varchar(100)) location '/tmp/test1' insert into test_1_txt values ( 1,'中国人') c 阅读全文

posted @ 2019-07-19 23:14 tneduts 阅读(1610) 评论(1) 推荐(0)

presto,dremio,spark-sql与ranger的整合记录

摘要： dremio,spark-sql,presto和ranger的整合当前，ranger没有现成的插件来管理dremio,spark-sql,presto。暂时使用的方法是新建一个用户，如presto可以创建一个presto用户，然后在ranger中对presto用户赋予hive,hdfs的访问权限阅读全文

posted @ 2019-07-19 22:52 tneduts 阅读(2120) 评论(0) 推荐(0)

git无密码push

摘要： git不用输入密码来push 阅读全文

posted @ 2019-05-11 12:07 tneduts 阅读(233) 评论(0) 推荐(0)

hdp3.1 hive 3.0的使用记录

摘要： spark-sql如何访问hive3.1中的内部表阅读全文

posted @ 2019-05-11 11:59 tneduts 阅读(3632) 评论(1) 推荐(1)

大数据相关的面试题（摘自网络）hbase,kafka,spark

摘要： 1.讲讲你做的过的项目, 项目里有哪些难点重点呢？ kafkaDirect ES /hive kafka producer 难点值得一提的有两点： 1.rdd中用到外部变量的时候如何处理 2.广播变量的更新 rdd处理kafka读过来的数据，这些数据引用外部的class来进行规则解析，规则的更新后怎阅读全文

posted @ 2019-01-18 09:26 tneduts 阅读(1132) 评论(0) 推荐(0)

记一次ZOOKEEPER集群超时问题分析

摘要： CDH安装的ZK，三个节点，基本都是默认配置，一直用得正常，今天出现问题，客户端连接超时6倍时长，默认最大会话超时时间是一分钟。原因分析：1.首先要确认网络正确。确认时钟同步。2.查看现有的配置，基本都是默认配置 JVM配置是1G 有 2g的，不一样3.查看dataDir目录，du -sh .发现已阅读全文

posted @ 2018-12-31 21:01 tneduts 阅读(2939) 评论(0) 推荐(0)

git 常用的撤销操作

摘要： git 开发时的使用流程，从同事那里学习的，第一步，先建立一个新的分支，可以在GITLAB或通过命令git checkout -b newbranch 或通过IDE插件第二步，让项目切换到该分支，然后在这个分支上进行开发第三个，提交，然后提交MERGE REQUEST，合并到DEVELOP分支阅读全文

posted @ 2018-12-29 17:29 tneduts 阅读(198) 评论(0) 推荐(0)

角色权限管理与数据权限管理

摘要：项目是基于jhipster生成的后端项目，使用spring boot相关的技术。我的做法：在JWT的FILTER里面，添加自己的一些业务逻辑，把数据和菜单权限信息获取到，并存到JWT中去。用到的两张表的设计如下：使用一个自定义的AOP拦截器，拦截特定的几个方法，这几个特定的方法都有一个业务字段阅读全文

posted @ 2018-12-25 21:48 tneduts 阅读(1263) 评论(0) 推荐(0)

spark examples 导入idea并测试

摘要：记录下自己使用idea导入spark examples项目的过程。 spark examples 项目可以给我们提供很多有益的参考，经常看看这些代码有助于提高我们写scala代码的水平。只导入spark-example项目，其他不管，这个项目使用maven管理依赖，导入的时候选择maven. 我并阅读全文

posted @ 2018-11-18 16:15 tneduts 阅读(1000) 评论(0) 推荐(0)

spark restful 作业提交

摘要： spark1.4起，在启动master进程时候，同时会有一个restful的服务器，可以接受RESTFUL的请求，以下是提交应用的示例示例spark-streaming程从kafka中读取数据并写入到elasticsearch,都是在容器中使用的，遇到如下问题：org.apache.spark. 阅读全文

posted @ 2018-11-13 20:04 tneduts 阅读(1335) 评论(0) 推荐(0)

Redhat 7.4更新为Centos7的yum并安装docker-ce

摘要： redhat 需要注册后才能使用yum,所以有以上的操作。阅读全文

posted @ 2018-11-13 19:57 tneduts 阅读(1313) 评论(0) 推荐(0)

提醒，处理字符串和文件的时候一定要注意编码

摘要： java.nio.charset.coderresult.throwexception（coderresult.java.281）把下面的代码 val lines = scala.io.Source.fromPath(fileName) 改为 val lines = scala.io.Source 阅读全文

posted @ 2018-11-08 12:04 tneduts 阅读(331) 评论(0) 推荐(0)

spark 作业提交

摘要： kafka-topics.sh --describe --zookeeper xxxxx:2181 --topic testkafka-run-class.sh kafka.tools.GetOffsetShell --topic test --broker-list xxxxxx:9092 --t 阅读全文

posted @ 2018-11-07 19:26 tneduts 阅读(288) 评论(0) 推荐(0)

centos7 离线安装docker-ce

摘要：测试的时候，在VM中安装了一个minimal安装的centos7.因为发现在已经安装好环境的系统中，执行下面，并不会下载依赖的rpm.#下载docker-ce和其需要的依赖rpm #发现这个包已经存，所以只用更新就可以 #案装其他包与docker-ce 可按下面的顺序安装　或者使用　rpm -ivh 阅读全文

posted @ 2018-11-06 11:07 tneduts 阅读(4250) 评论(2) 推荐(0)

cisco anyconnect linux

摘要： cisco anyconnect linux 官方的下载需要登录验证，比较麻烦，可以从这个地方直接下载使用。支持ubuntu,centos. cisco anyconnect vpn client我本机是centos7，验证成功。我原来使用的是iked,qikea这两个软件来上网，但是发现这个有个问阅读全文

posted @ 2018-11-06 08:46 tneduts 阅读(11137) 评论(0) 推荐(0)

docker for spark

摘要：项目需求，有一个spark-streaming的程序，读kafka的数据，需要构建一个不使用hadoop的spark 以下建立的镜像参考网络，可以稍加修改就可以使用不同的版本。可单独启动master,worker来构建一个standaline的集群。也可以默认启动，启动后，构建的是一个maste 阅读全文

posted @ 2018-11-05 15:18 tneduts 阅读(174) 评论(0) 推荐(0)

docker swarm overlay stack 服务部署记录

摘要：项目xxx(后端),xxx-ui前端（前后端分离的项目）依赖mysql,elasticsearch.分别制作了四个镜像来做这件事。希望可以制作跨主机的部署，使用了swarm，以下是学习记录。参考　https://www.cnblogs.com/xishuai/p/docker-swarm.htm 阅读全文

posted @ 2018-11-02 09:47 tneduts 阅读(719) 评论(0) 推荐(0)

Scala快速排序

摘要： Scala 快排 Scala 基本思想：经过一趟排序，把待排对象分成两个独立的部分，一部分的数据大（小）于另一部分，同理，对子对象进行如此处理，以达到所有数据都有序。下面是优化版的快排，可以接受更多的类型进行排序，而且返回值与传入值对应。阅读全文

posted @ 2018-10-19 11:06 tneduts 阅读(771) 评论(1) 推荐(0)

windows平台kettle连接hbase的问题

摘要：我本机安装的环境是centos7，并在本机上安装了zookeeper,hadoop,hbase,hive等组件，使用pdi7.1来连接hbase，把mysql表中的数据导出到hbase中去，没有问题。因为其他同事使用的是windows环境，在连接cdh vm的环境时，hbase一直连接可以，而执阅读全文

posted @ 2018-09-26 09:08 tneduts 阅读(2819) 评论(0) 推荐(0)

bash 获取时间段内的日志内容

摘要：需求，获取时段内的/var/log/messages文件内出现错误的消息，支持多行的消息，支持天，小时分钟，秒级的区间，可以修改监控的日志对象 #!/bin/bash if [ $# != 1 ] ; then echo "USAGE: $0 num[Y|D|H|M|S]" echo " e.g.: $0 12h" exit 1; fi interval=$1 unit=$(ech... 阅读全文

posted @ 2017-11-20 09:28 tneduts 阅读(509) 评论(0) 推荐(0)

rdesktop install notes

摘要：在centos7上安装rdesktop来访问windows桌面，需要安装ＥＰＥＬ源，另外还有需要安装专门的ＹＵＭ源。最后的命令是来解决默认的启动窗口过小的问题。阅读全文

posted @ 2017-10-26 20:07 tneduts 阅读(183) 评论(0) 推荐(0)

akka消息传递

摘要：消息传递　消息本身要求是什么？是否必须可以序列化？消息传递根据传递的要求严格程序依次分为三类，１.至多一次到达　至消息最多一次传递到目的端，消息可能会丢失，但不会重复２.至少一次到达　潜在可能存在多次尝试在传送一次消息的时候，这种情况下，消息不会丢失，至少一次３.有切只有一次到达　表述很明确，消息有阅读全文

posted @ 2017-10-26 19:09 tneduts 阅读(309) 评论(0) 推荐(0)

centos7 最小化安装后的配置优化

摘要： echo #CENTOS7echo #1.最小化安装之后需要做的事echo 2.配置echo 2.1 安装网络yum install net-tools -yecho 2.2 更新机器名echo hdp1.student >/etc/hostname echo 2.3.配置防火墙 echo #关闭防阅读全文

posted @ 2017-09-17 21:11 tneduts 阅读(646) 评论(2) 推荐(0)

spark-streaming读kafka数据到hive遇到的问题

摘要：在项目中使用spark-stream读取kafka数据源的数据,然后转成dataframe,再后通过sql方式来进行处理,然后放到hive表中, 遇到问题如下,hive-metastor在没有做高可用的情况下,有时候会出现退出,这个时候,spark streaminG的微批作业就会失败, 然后再启重阅读全文

posted @ 2017-09-16 20:38 tneduts 阅读(6597) 评论(1) 推荐(0)

导航

公告