2018 年 3月随笔档案 - 张叫兽的技术研究院

搭建一个IntelliJ的Spark项目

摘要：之前发现创建一个新项目之后，无法添加scala class 创建新项目选择maven项目，然后选择simple或者quickstart；进入项目后，在Project Structure里面，在global libraries面板中，删除已有的scala-sdk，然后再添加；然后再工程中添加sc 阅读全文

posted @ 2018-03-25 20:58 张叫兽的技术研究院阅读(282) 评论(0) 推荐(0) 编辑

Spark开发

摘要：scala中的main函数 java.lang.NoSuchMethodError: scala.tools.nsc.interpreter.ILoop.main 在Object对象中，需要添加main函数才能够右键，run CacheLoader 添加了spark-network-common依赖阅读全文

posted @ 2018-03-25 20:32 张叫兽的技术研究院阅读(783) 评论(0) 推荐(0) 编辑

什么是spark（一）分区以及和MR的区别

摘要：什么是spark,是一个分布式计算平台，或者说是分布式计算引擎，他的职责就是将指定的数据读入到各个node的内存中，然后计算。所以spark是具有泛化性质的，只要数据源是可读入的，读到内存里面之后，处理就和数据源没有关系了，你是HBASE，kudu,还是parquet都无所谓了。什么是RDD，弹性阅读全文

posted @ 2018-03-25 20:17 张叫兽的技术研究院阅读(1164) 评论(0) 推荐(0) 编辑

什么是spark（二） RDD

摘要：其实你会发现很多概念都是基于RDD提出来的，比如分区，缓存这些操作的对象其实都是RDD；所以不要讲spark的分区，这其实很不专业，分区其实是属于RDD的概念（只有pair RDD才有分区概念） RDD在（一）已经介绍了RDD，本质上是数据的描述（检索条件）以及处理描述（算法）；等待着Action调阅读全文

posted @ 2018-03-25 20:09 张叫兽的技术研究院阅读(203) 评论(0) 推荐(0) 编辑

什么是Spark（三）数据的加载和保存

摘要：Spark内置了一些常见的文件格式的处理，包括text/json，csv，sequence等；Spark对于文件处理保持了开放性，还提供了可以通过InputFormat，OutputFormat来进行文件处理；这样只要是Hdfs支持文件格式，一定有对应的Format，只要有Input/OutputF 阅读全文

posted @ 2018-03-25 19:54 张叫兽的技术研究院阅读(315) 评论(0) 推荐(0) 编辑

YARN的Fair Scheduler和Capacity Scheduler

摘要：关于Scheduler YARN有四种调度机制：Fair Schedule，Capacity Schedule，FIFO以及Priority；其中Fair Scheduler是资源池机制，进入到里面的应用是共享pool里面的资源；只有当资源配比发生紧张的时候，才会根据权重来进行调整； Capaci 阅读全文

posted @ 2018-03-24 22:24 张叫兽的技术研究院阅读(1879) 评论(0) 推荐(0) 编辑

什么是Spark（四）集群

摘要：Driver，主要的职责是生成DAG以及生成物理执行计划（Physical Execution Plan）；Application，Job以及Stage都是在这个组建中生成的； ClusterMaster，包括五类： 1）Apache YARN，Hadoop原生资源调度框架 2）Apache Mes 阅读全文

posted @ 2018-03-24 22:20 张叫兽的技术研究院阅读(289) 评论(0) 推荐(0) 编辑

什么是spark（五）Spark SQL

摘要：Spark SQL Spark SQL主要分为两部分，一部分是Spark Sql在scala中直接，使用作为执行层面上的应用，本质上就是生成DAG的另外一种形式；其发生试下Driver中生成；另外一部分是spark SQL作为查询引擎，供client端通过jdbc来进行调用； SparkConte 阅读全文

posted @ 2018-03-24 22:10 张叫兽的技术研究院阅读(267) 评论(0) 推荐(0) 编辑

什么是spark（六）Spark中的对象

摘要：Spark中的对象 Spark的Conf，极简化的场景，可以设置一个空conf给sparkContext，在执行spark-submit的时候，系统会默认给sparkContext赋一个SparkConf； Application是顶级的，每个spark-submit就是一个application；阅读全文

posted @ 2018-03-24 22:05 张叫兽的技术研究院阅读(611) 评论(0) 推荐(0) 编辑

一次解决spark history server日志不见

摘要：通过cloudera的旧版VM（centos6版本）跑spark，之后，想看一下日志研究一下job，stage以及task，压力很大的发现完全没有日志，180088页面打开后： Event log directory: hdfs://quickstart.cloudera:8020/user/spa 阅读全文

posted @ 2018-03-24 15:36 张叫兽的技术研究院阅读(6306) 评论(0) 推荐(0) 编辑

Spark的CombineByKey

摘要：combineBykey关键是要明白里面的三个函数： 1. 当某个key第一次出现的时候，走的是第一个函数（createCombin）；A function that creates a combiner. In the aggregateByKey function the first argum 阅读全文

posted @ 2018-03-24 15:19 张叫兽的技术研究院阅读(294) 评论(0) 推荐(0) 编辑

XaaS简介（关于IssS，PaaS以及SaaS）

摘要：IaaS，比较容易理解，提供了一个操作系统以及操作系统的硬件支撑；阿里云； PaaS，提供了一个平台，或者说，使用PaaS是希望能够在上面建立自己的服务/应用，同时平台会提供一些API或者工具，能够降低你从头构建（比如基于IaaS)的成本；比如微软的Azure，Ali的阿里云MySql，Redis等阅读全文

posted @ 2018-03-18 21:32 张叫兽的技术研究院阅读(818) 评论(0) 推荐(0) 编辑

互联网的keyvalue处理

摘要：今天在和许伟讨论系统配置页面得时候，许伟提到了“打通页面”的概念，当时我没太明白，后来才知道是指类似于cloudera里面的配置页面那种，不是列表页，而是展示+编辑在一个页面。刚才想了一下，其实对于这种keyvalue的模式处理，这种list风格其实是比较合适，否则表格形式，就三列，显得很空洞。阅读全文

posted @ 2018-03-18 21:17 张叫兽的技术研究院阅读(140) 评论(0) 推荐(0) 编辑

jQuery的页面初始化操作写法

摘要：之所有有

， 有 j Q u e r y ， 是 因 为

$，有jQuery，是因为$ 在某些脚本库中可能会有冲突，于是jquery还支持jQuery来封装对象。或者可以通过下面的声明，来指定$的替换符号: var j = jQuery.noConflict(); 阅读全文

posted @ 2018-03-18 21:15 张叫兽的技术研究院阅读(257) 评论(0) 推荐(0) 编辑

RESTful的一个样例

摘要：后台代码：前台处理：即使后台返回的是一个list，前台处理的也是一个Map，key是0,1,2..，value才是List里面的对象；异常信息页面不存在（503）：请求controller（资源）的路径是没问题，但是controller返回的路径是有问题的。路径不存在（403)：Forbi 阅读全文

posted @ 2018-03-18 21:12 张叫兽的技术研究院阅读(1022) 评论(0) 推荐(0) 编辑

Falcon

摘要：1. JE falcon还需要安装je用来处理jdbc，否则打不开falcon的页面，爆内部错误503，然后看异常信息：Caused by: org.apache.falcon.FalconException: java.lang.RuntimeException: GraphFactory cou 阅读全文

posted @ 2018-03-18 20:58 张叫兽的技术研究院阅读(723) 评论(0) 推荐(0) 编辑

Hive分区

摘要：Hive分区，分区字段不会再SQL建表语句字段域中出现，而是定义在分区域；分区域字段将不会出现在数据文件中，而是作为文件夹的名称，分区的目的是加速检索、遍历的速度；分区出现的场景是传统的日志处理。日志将会按照一定的维度比如年月日，重要级别进行归类整理，这样分类的目的就是便于查找日志文件；将这种结构阅读全文

posted @ 2018-03-18 19:41 张叫兽的技术研究院阅读(118) 评论(0) 推荐(0) 编辑

UI异常

摘要：为什么chaneTab调用后，这个Tab都消失了？因为li和table都用同一个ID所以，其中有一个步骤是清空表；$("#XXid").remove，连带着把那个li（tab）也一并给删除了。阅读全文

posted @ 2018-03-18 19:39 张叫兽的技术研究院阅读(94) 评论(0) 推荐(0) 编辑

kubernetes YAML

摘要：yaml语法error: yaml: line 2: mapping values are not allowed in this contextkey: value，注意在value和“:"之间要有一个空格；error: yaml: line 3: found character that can 阅读全文

posted @ 2018-03-18 13:46 张叫兽的技术研究院阅读(1982) 评论(0) 推荐(0) 编辑

kubernetes简单示例

摘要：1. 安装 yum install -y etcd kubernetes 2. 启动 systemctl start etcd systemctl start docker systemctl start kube-apiserver systemctl start kube-controller- 阅读全文

posted @ 2018-03-18 11:39 张叫兽的技术研究院阅读(191) 评论(0) 推荐(0) 编辑

tar 打包处理文件

摘要：基本格式：tar [Options] file_archive //注意tar的第一参数必须为命令选项，即不能直接接待处理文件 Option是由三部分组成，分别是操作类型（创建，查看，解压），压缩处理方式（压缩、解压缩），最后一个是处理文件，紧跟着的一个tar/gz格式的文件（代表压缩文件）；后面的阅读全文

posted @ 2018-03-16 19:13 张叫兽的技术研究院阅读(293) 评论(0) 推荐(0) 编辑

Spring RESTful之@ModelAttribute

摘要：@ModelAttribute有俩个位置，一个是在方法体中，下面这个demo的用意就是每次controller@RequestMapping方法被调用之前都会走这个方法，并向Model中（@RequestMapping函数参数的Model）中添加这个返回值，key的值是返回类的首字母小写，比如这个就阅读全文

posted @ 2018-03-11 22:24 张叫兽的技术研究院阅读(259) 评论(0) 推荐(0) 编辑

记一次RESTful调试过程

摘要：1. 为什么前台怎么调用后台，都是跳到页面不存在。因为已经改为RESTful，保存按钮的type还是submit； 2. 改成buttong之后，设置onclick="update()“，发现还是不走update()函数因为function定义在了别的函数体里面的，外面当然访问不到了。 3. 莫阅读全文

posted @ 2018-03-11 22:22 张叫兽的技术研究院阅读(139) 评论(0) 推荐(0) 编辑

Falcon

摘要：DataSource：对于关系型数据库，创建DataSource； Cluster 是指一个大数据的平台，需要指定Hive的接口（hiveServer）以及hdfs接口； Feed 其实对于数据源的消费，如果是mysql到hive（需要有cluster做数据源），直接通过一个feed即可完成数据的转阅读全文

posted @ 2018-03-11 20:07 张叫兽的技术研究院阅读(288) 评论(0) 推荐(0) 编辑

PDF通过剪裁来实现打印字体变大

摘要：之前打印论文，很多都是一页两版，这个时候字体会非常小；打印缩放放大后，字又容易出了打印边界。这种情况可以采用Adobe IX Pro（只要是pro应该都可以）进行边缘裁剪来实现字体放大。只需要剪裁（corp）左右边缘即可，然后在打印的时候选择缩放，比如120%，这是因为边缘被剪裁了，即使放大到比较阅读全文

posted @ 2018-03-07 16:25 张叫兽的技术研究院阅读(1883) 评论(0) 推荐(0) 编辑

考虑改动影响，为空判断以及高价值事情

摘要：1. map和mapRet搞混了；导致最后在处理返回值的时候，返回的类型怎么都不对； 2. cs应该在第一次实例化的时候，放入到Map以及List里面； 3. 修改思路，将cs初始化实例的时候同时放入到mapRet和list里面；但是之前的腐败的代码：最后遍历mapRet中的对象放入到ret里面，并阅读全文

posted @ 2018-03-04 18:09 张叫兽的技术研究院阅读(148) 评论(0) 推荐(0) 编辑

Ambari和YARN的Capacity调度器，安装过程

摘要：用Spark测试YARN的资源池，测试过程中发现很多时候爆资源不够；于是添加机器，专门用于跑spark；首先是ssh不通，原来错把71的id_psa.put文件拷贝到64上面；后来ssh通了，ambaria安装成功了，但是在安装HDP的时候发现一个有一个组件找不到，rpclib-devel找不到，阅读全文

posted @ 2018-03-04 17:15 张叫兽的技术研究院阅读(1158) 评论(0) 推荐(0) 编辑

开发沉思录 - 记大数据平台的一次 BUG井喷

摘要：研究REST提交重启；终于提交成功了，首先一个错误：地址IP地址的http://hdp0:8080/api/v1/clusters/HDP/requests ，被我错误写成了request，当误了大量的时间。,这个问题是我在用fiddler跟踪，看到了一个404；第二个坑爹的问题是body没有装入阅读全文

posted @ 2018-03-04 15:46 张叫兽的技术研究院阅读(134) 评论(0) 推荐(0) 编辑

Fiddler的Java抓包

摘要：代码处理 JVM参数配置（两者配置一个即可） -DproxySet=true -DproxyHost=127.0.0.1 -DproxyPort=8888 如果是Https访问，还添加上 -Djavax.net.ssl.trustStore=FiddlerKeystore -Djavax.net.s 阅读全文

posted @ 2018-03-04 15:45 张叫兽的技术研究院阅读(611) 评论(0) 推荐(0) 编辑

分别心

摘要：select count(*) from (select * from HBASE_TEST) 第一遍（刷页面）有值第二遍（点击Next Page）没有值？因为在计算select count的时候，pageNo和pageSize不能在从函数参数里面取，而是写死的：所以最重要的是“分别心”，你到阅读全文

posted @ 2018-03-04 15:22 张叫兽的技术研究院阅读(89) 评论(0) 推荐(0) 编辑

关于bonecp和QuerRunner

摘要：之前一直以为boneCP和QueryRunner是绑定的，但是其实不是，后者来自于commons-dbUtils，BoneCP就是负责连接池。 while preparing SQL: UPSERT INTO.... Parameters[] 如果采用QuerRunner的exuecute，不可避免阅读全文

posted @ 2018-03-04 15:19 张叫兽的技术研究院阅读(165) 评论(0) 推荐(0) 编辑

关于AutoCommit

摘要：AutoCommit设置为true（大多数JDBCdrive的默认配置），则每次执行的SQL语句执行完成后都会落实到数据库中；如果想要在跨语句事务，则需要添加Begin Transiction，Commit/RollBack；如果设置为false，执行的SQL语句，当前仅当COMMIT的时候才会执阅读全文

posted @ 2018-03-04 15:17 张叫兽的技术研究院阅读(201) 评论(0) 推荐(0) 编辑

一个detect问题引发的一系列思考

摘要：在用BoneCP的时候，发现一个JVM日志中报了一个异常，大意是“探测（detect）到有数据库链接没有关闭”（不得不说JVM的强大），但是我用的是连接池里面的链接啊，怎么会需要关闭呢？有问题首先找官网。于是我上官网又看了一遍Demo，但是只是一个简单的Demo，历史的BoneCP的sample 阅读全文

posted @ 2018-03-04 14:02 张叫兽的技术研究院阅读(183) 评论(0) 推荐(0) 编辑

迭代删除的处理机制

摘要：直接在for下面remove/delete都会引发异常：ConcurrentModificationException下面是解决方案：利用迭代器进行删除；收集删除项，最后一并删除阅读全文

posted @ 2018-03-04 12:34 张叫兽的技术研究院阅读(144) 评论(0) 推荐(0) 编辑

03 2018 档案

导航

公告

搜索

常用链接

随笔档案

相册