03 2018 档案

搭建一个IntelliJ的Spark项目
摘要:之前发现创建一个新项目之后,无法添加scala class 创建新项目 选择maven项目,然后选择simple或者quickstart; 进入项目后,在Project Structure里面,在global libraries面板中,删除已有的scala-sdk,然后再添加; 然后再工程中添加sc 阅读全文

posted @ 2018-03-25 20:58 张叫兽的技术研究院 阅读(282) 评论(0) 推荐(0) 编辑

Spark开发
摘要:scala中的main函数 java.lang.NoSuchMethodError: scala.tools.nsc.interpreter.ILoop.main 在Object对象中,需要添加main函数才能够右键,run CacheLoader 添加了spark-network-common依赖 阅读全文

posted @ 2018-03-25 20:32 张叫兽的技术研究院 阅读(783) 评论(0) 推荐(0) 编辑

什么是spark(一) 分区以及和MR的区别
摘要:什么是spark,是一个分布式计算平台,或者说是分布式计算引擎,他的职责就是将指定的数据读入到各个node的内存中,然后计算。所以spark是具有泛化性质的,只要数据源是可读入的,读到内存里面之后,处理就和数据源没有关系了,你是HBASE,kudu,还是parquet都无所谓了。 什么是RDD,弹性 阅读全文

posted @ 2018-03-25 20:17 张叫兽的技术研究院 阅读(1164) 评论(0) 推荐(0) 编辑

什么是spark(二) RDD
摘要:其实你会发现很多概念都是基于RDD提出来的,比如分区,缓存这些操作的对象其实都是RDD;所以不要讲spark的分区,这其实很不专业,分区其实是属于RDD的概念(只有pair RDD才有分区概念) RDD在(一)已经介绍了RDD,本质上是数据的描述(检索条件)以及处理描述(算法);等待着Action调 阅读全文

posted @ 2018-03-25 20:09 张叫兽的技术研究院 阅读(203) 评论(0) 推荐(0) 编辑

什么是Spark(三)数据的加载和保存
摘要:Spark内置了一些常见的文件格式的处理,包括text/json,csv,sequence等;Spark对于文件处理保持了开放性,还提供了可以通过InputFormat,OutputFormat来进行文件处理;这样只要是Hdfs支持文件格式,一定有对应的Format,只要有Input/OutputF 阅读全文

posted @ 2018-03-25 19:54 张叫兽的技术研究院 阅读(315) 评论(0) 推荐(0) 编辑

YARN的Fair Scheduler和Capacity Scheduler
摘要:关于Scheduler YARN有四种调度机制:Fair Schedule,Capacity Schedule,FIFO以及Priority; 其中Fair Scheduler是资源池机制,进入到里面的应用是共享pool里面的资源;只有当资源配比发生紧张的时候,才会根据权重来进行调整; Capaci 阅读全文

posted @ 2018-03-24 22:24 张叫兽的技术研究院 阅读(1879) 评论(0) 推荐(0) 编辑

什么是Spark(四)集群
摘要:Driver,主要的职责是生成DAG以及生成物理执行计划(Physical Execution Plan);Application,Job以及Stage都是在这个组建中生成的; ClusterMaster,包括五类: 1)Apache YARN,Hadoop原生资源调度框架 2)Apache Mes 阅读全文

posted @ 2018-03-24 22:20 张叫兽的技术研究院 阅读(289) 评论(0) 推荐(0) 编辑

什么是spark(五)Spark SQL
摘要:Spark SQL Spark SQL主要分为两部分,一部分是Spark Sql在scala中直接,使用作为执行层面上的应用,本质上就是生成DAG的另外一种形式;其发生试下Driver中生成; 另外一部分是spark SQL作为查询引擎,供client端通过jdbc来进行调用; SparkConte 阅读全文

posted @ 2018-03-24 22:10 张叫兽的技术研究院 阅读(267) 评论(0) 推荐(0) 编辑

什么是spark(六)Spark中的对象
摘要:Spark中的对象 Spark的Conf,极简化的场景,可以设置一个空conf给sparkContext,在执行spark-submit的时候,系统会默认给sparkContext赋一个SparkConf; Application是顶级的,每个spark-submit就是一个application; 阅读全文

posted @ 2018-03-24 22:05 张叫兽的技术研究院 阅读(611) 评论(0) 推荐(0) 编辑

一次解决spark history server日志不见
摘要:通过cloudera的旧版VM(centos6版本)跑spark,之后,想看一下日志研究一下job,stage以及task,压力很大的发现完全没有日志,180088页面打开后: Event log directory: hdfs://quickstart.cloudera:8020/user/spa 阅读全文

posted @ 2018-03-24 15:36 张叫兽的技术研究院 阅读(6306) 评论(0) 推荐(0) 编辑

Spark的CombineByKey
摘要:combineBykey关键是要明白里面的三个函数: 1. 当某个key第一次出现的时候,走的是第一个函数(createCombin);A function that creates a combiner. In the aggregateByKey function the first argum 阅读全文

posted @ 2018-03-24 15:19 张叫兽的技术研究院 阅读(294) 评论(0) 推荐(0) 编辑

XaaS简介(关于IssS,PaaS以及SaaS)
摘要:IaaS,比较容易理解,提供了一个操作系统以及操作系统的硬件支撑;阿里云; PaaS,提供了一个平台,或者说,使用PaaS是希望能够在上面建立自己的服务/应用,同时平台会提供一些API或者工具,能够降低你从头构建(比如基于IaaS)的成本;比如微软的Azure,Ali的阿里云MySql,Redis等 阅读全文

posted @ 2018-03-18 21:32 张叫兽的技术研究院 阅读(818) 评论(0) 推荐(0) 编辑

互联网的keyvalue处理
摘要:今天在和许伟讨论系统配置页面得时候,许伟提到了“打通页面”的概念,当时我没太明白,后来才知道是指类似于cloudera里面的配置页面那种,不是列表页,而是展示+编辑在一个页面。刚才想了一下,其实对于这种keyvalue的模式处理,这种list风格其实是比较合适,否则表格形式,就三列,显得很空洞。 阅读全文

posted @ 2018-03-18 21:17 张叫兽的技术研究院 阅读(140) 评论(0) 推荐(0) 编辑

jQuery的页面初始化操作写法
摘要:之所有有jQuery在某些脚本库中可能会有冲突,于是jquery还支持jQuery来封装对象。 或者可以通过下面的声明,来指定$的替换符号: var j = jQuery.noConflict(); 阅读全文

posted @ 2018-03-18 21:15 张叫兽的技术研究院 阅读(257) 评论(0) 推荐(0) 编辑

RESTful的一个样例
摘要:后台代码: 前台处理: 即使后台返回的是一个list,前台处理的也是一个Map,key是0,1,2..,value才是List里面的对象; 异常信息 页面不存在(503):请求controller(资源)的路径是没问题,但是controller返回的路径是有问题的。 路径不存在(403):Forbi 阅读全文

posted @ 2018-03-18 21:12 张叫兽的技术研究院 阅读(1022) 评论(0) 推荐(0) 编辑

Falcon
摘要:1. JE falcon还需要安装je用来处理jdbc,否则打不开falcon的页面,爆内部错误503,然后看异常信息:Caused by: org.apache.falcon.FalconException: java.lang.RuntimeException: GraphFactory cou 阅读全文

posted @ 2018-03-18 20:58 张叫兽的技术研究院 阅读(723) 评论(0) 推荐(0) 编辑

Hive分区
摘要:Hive分区,分区字段不会再SQL建表语句字段域中出现,而是定义在分区域;分区域字段将不会出现在数据文件中,而是作为文件夹的名称,分区的目的是加速检索、遍历的速度; 分区出现的场景是传统的日志处理。日志将会按照一定的维度比如年月日,重要级别进行归类整理,这样分类的目的就是便于查找日志文件;将这种结构 阅读全文

posted @ 2018-03-18 19:41 张叫兽的技术研究院 阅读(118) 评论(0) 推荐(0) 编辑

UI异常
摘要:为什么chaneTab调用后,这个Tab都消失了? 因为li和table都用同一个ID所以,其中有一个步骤是清空表;$("#XXid").remove,连带着把那个li(tab)也一并给删除了。 阅读全文

posted @ 2018-03-18 19:39 张叫兽的技术研究院 阅读(94) 评论(0) 推荐(0) 编辑

kubernetes YAML
摘要:yaml语法error: yaml: line 2: mapping values are not allowed in this contextkey: value,注意在value和“:"之间要有一个空格;error: yaml: line 3: found character that can 阅读全文

posted @ 2018-03-18 13:46 张叫兽的技术研究院 阅读(1982) 评论(0) 推荐(0) 编辑

kubernetes简单示例
摘要:1. 安装 yum install -y etcd kubernetes 2. 启动 systemctl start etcd systemctl start docker systemctl start kube-apiserver systemctl start kube-controller- 阅读全文

posted @ 2018-03-18 11:39 张叫兽的技术研究院 阅读(191) 评论(0) 推荐(0) 编辑

tar 打包处理文件
摘要:基本格式:tar [Options] file_archive //注意tar的第一参数必须为命令选项,即不能直接接待处理文件 Option是由三部分组成,分别是操作类型(创建,查看,解压),压缩处理方式(压缩、解压缩),最后一个是处理文件,紧跟着的一个tar/gz格式的文件(代表压缩文件);后面的 阅读全文

posted @ 2018-03-16 19:13 张叫兽的技术研究院 阅读(293) 评论(0) 推荐(0) 编辑

Spring RESTful之@ModelAttribute
摘要:@ModelAttribute有俩个位置,一个是在方法体中,下面这个demo的用意就是每次controller@RequestMapping方法被调用之前都会走这个方法,并向Model中(@RequestMapping函数参数的Model)中添加这个返回值,key的值是返回类的首字母小写,比如这个就 阅读全文

posted @ 2018-03-11 22:24 张叫兽的技术研究院 阅读(259) 评论(0) 推荐(0) 编辑

记一次RESTful调试过程
摘要:1. 为什么前台怎么调用后台,都是跳到页面不存在。 因为已经改为RESTful,保存按钮的type还是submit; 2. 改成buttong之后,设置onclick="update()“,发现还是不走update()函数 因为function定义在了别的函数体里面的,外面当然访问不到了。 3. 莫 阅读全文

posted @ 2018-03-11 22:22 张叫兽的技术研究院 阅读(139) 评论(0) 推荐(0) 编辑

Falcon
摘要:DataSource:对于关系型数据库,创建DataSource; Cluster 是指一个大数据的平台,需要指定Hive的接口(hiveServer)以及hdfs接口; Feed 其实对于数据源的消费,如果是mysql到hive(需要有cluster做数据源),直接通过一个feed即可完成数据的转 阅读全文

posted @ 2018-03-11 20:07 张叫兽的技术研究院 阅读(288) 评论(0) 推荐(0) 编辑

PDF通过剪裁来实现打印字体变大
摘要:之前打印论文,很多都是一页两版,这个时候字体会非常小;打印缩放放大后,字又容易出了打印边界。 这种情况可以采用Adobe IX Pro(只要是pro应该都可以)进行边缘裁剪来实现字体放大。只需要剪裁(corp)左右边缘即可,然后在打印的时候选择缩放,比如120%,这是因为边缘被剪裁了,即使放大到比较 阅读全文

posted @ 2018-03-07 16:25 张叫兽的技术研究院 阅读(1883) 评论(0) 推荐(0) 编辑

考虑改动影响,为空判断以及高价值事情
摘要:1. map和mapRet搞混了;导致最后在处理返回值的时候,返回的类型怎么都不对; 2. cs应该在第一次实例化的时候,放入到Map以及List里面; 3. 修改思路,将cs初始化实例的时候同时放入到mapRet和list里面;但是之前的腐败的代码:最后遍历mapRet中的对象放入到ret里面,并 阅读全文

posted @ 2018-03-04 18:09 张叫兽的技术研究院 阅读(148) 评论(0) 推荐(0) 编辑

Ambari和YARN的Capacity调度器,安装过程
摘要:用Spark测试YARN的资源池,测试过程中发现很多时候爆资源不够; 于是添加机器,专门用于跑spark;首先是ssh不通,原来错把71的id_psa.put文件拷贝到64上面;后来ssh通了,ambaria安装成功了,但是在安装HDP的时候发现一个有一个组件找不到,rpclib-devel找不到, 阅读全文

posted @ 2018-03-04 17:15 张叫兽的技术研究院 阅读(1158) 评论(0) 推荐(0) 编辑

开发沉思录 - 记大数据平台的一次 BUG井喷
摘要:研究REST提交重启;终于提交成功了,首先一个错误:地址IP地址的http://hdp0:8080/api/v1/clusters/HDP/requests ,被我错误写成了request,当误了大量的时间。,这个问题是我在用fiddler跟踪,看到了一个404; 第二个坑爹的问题是body没有装入 阅读全文

posted @ 2018-03-04 15:46 张叫兽的技术研究院 阅读(134) 评论(0) 推荐(0) 编辑

Fiddler的Java抓包
摘要:代码处理 JVM参数配置(两者配置一个即可) -DproxySet=true -DproxyHost=127.0.0.1 -DproxyPort=8888 如果是Https访问,还添加上 -Djavax.net.ssl.trustStore=FiddlerKeystore -Djavax.net.s 阅读全文

posted @ 2018-03-04 15:45 张叫兽的技术研究院 阅读(611) 评论(0) 推荐(0) 编辑

分别心
摘要:select count(*) from (select * from HBASE_TEST) 第一遍(刷页面)有值 第二遍(点击Next Page)没有值? 因为在计算select count的时候,pageNo和pageSize不能在从函数参数里面取,而是写死的: 所以最重要的是“分别心”,你到 阅读全文

posted @ 2018-03-04 15:22 张叫兽的技术研究院 阅读(89) 评论(0) 推荐(0) 编辑

关于bonecp和QuerRunner
摘要:之前一直以为boneCP和QueryRunner是绑定的,但是其实不是,后者来自于commons-dbUtils,BoneCP就是负责连接池。 while preparing SQL: UPSERT INTO.... Parameters[] 如果采用QuerRunner的exuecute,不可避免 阅读全文

posted @ 2018-03-04 15:19 张叫兽的技术研究院 阅读(165) 评论(0) 推荐(0) 编辑

关于AutoCommit
摘要:AutoCommit设置为true(大多数JDBCdrive的默认配置),则每次执行的SQL语句执行完成后都会落实到数据库中;如果想要在跨语句事务,则需要添加Begin Transiction,Commit/RollBack; 如果设置为false,执行的SQL语句,当前仅当COMMIT的时候才会执 阅读全文

posted @ 2018-03-04 15:17 张叫兽的技术研究院 阅读(201) 评论(0) 推荐(0) 编辑

一个detect问题引发的一系列思考
摘要:在用BoneCP的时候,发现一个JVM日志中报了一个异常,大意是“探测(detect)到有数据库链接没有关闭”(不得不说JVM的强大),但是我用的是连接池里面的链接啊,怎么会需要关闭呢? 有问题首先找官网。 于是我上官网又看了一遍Demo,但是只是一个简单的Demo,历史的BoneCP的sample 阅读全文

posted @ 2018-03-04 14:02 张叫兽的技术研究院 阅读(183) 评论(0) 推荐(0) 编辑

迭代删除的处理机制
摘要:直接在for下面remove/delete都会引发异常:ConcurrentModificationException下面是解决方案:利用迭代器进行删除; 收集删除项,最后一并删除 阅读全文

posted @ 2018-03-04 12:34 张叫兽的技术研究院 阅读(144) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示