08 2017 档案
摘要:如果您的工作要求您在一天之中连接许多不同的数据库 (oracle、DB2、mysql、postgresql、Sql Server等等),或者你经常需要在多个不同种类的数据库之间进行数导入导出。那么SQuirreL SQL Client 将会是比较理想的数据库客户端链接工具。 SQuirrel SQL
阅读全文
摘要:有一些大的文件,需要存入HBase中,其思想是先把文件传到HDFS上,利用map阶段读取<key,value>对,可在reduce把这些键值对上传到HBase中。 HbaseMapper: HbaseReducer job 系列来自尚学堂视频
阅读全文
摘要:因为rowkey一般有业务逻辑, 所以不可以直接使用rowkey进行分页, startkey, endkey 想要使用SQL语句对Hbase进行查询,需要使用Apache的开源框架Phoenix。 安装 1, 下载phonenix http://mirrors.cnnic.cn/apache/pho
阅读全文
摘要:logstash logstash是什么呢, 他是一个数据管道, JRuby编写的运行在java虚拟机的具有收集, 分析和转发数据流功能的工具 特性: 安装 1), wget下载 2), 解压即安装 3), 测试下: 然后可以输入hello, 回车后给你返回 要等一会, 刚开始还以为没启动呢 然后输
阅读全文
摘要:hbase的完全分布式建立起来了, 可以试下好使不 1, 导包, {HBASE_HOME}/lib 下所有的jar包, 导入 2, 使用junit测试, 会报错, 因为缺少一个jar 3, 获取链接, 只需要提供zookeeper的地址即可 4, 新建表 5, 插入模拟数据 生成模拟rowkey的方
阅读全文
摘要:hbase的安装分为单机模式和完全分布式 单机模式 单机模式的安装很简单, 需要注意hbase自己内置一个zookeeper, 如果使用单机模式, 那么该机器的zookeepr不可以启动 1, 添加java的环境变量 vim {HBASE_HOME}/conf/hbase-env.sh 2, 修改配
阅读全文
摘要:配置语法: Logstash必须有一个 input 和一个 output 1, 处理输入的input 1), 从文件录入 logstash使用一个名为 filewatch的 ruby gem库来监听文件变化, 这个库记录一个 .sincedb的数据文件跟踪监听日志文件的当前位置 其他配置 2) 标准
阅读全文
摘要:filebeat 直接到logstash, 由于logstash的设计问题, 可能会出现阻塞问题, 因为中间使用消息队列分开 可以使用redis, 或者kafka, 这儿使用的是kafka 1, 安装 kafka的安装, 解压可用, 但需要zookeeper, 内置了一个zookeeper, 直接使
阅读全文
摘要:之前测试 filebeat和logstash的时候, 使用的是stdout标准输出, 现在我们想把数据输出到es中去, 1, 首先需要一个es: 修改配置文件 后台启动 2, 修改logstash的输出 并重启: 3, 数据查看借助kibana 修改配置 启动 浏览器访问 www.wenbronk.
阅读全文
摘要:类似flume, 但功能更为强大 Filebeat是一个日志文件托运工具,在你的服务器上安装客户端后,filebeat会监控日志目录或者指定的日志文件,追踪读取这些文件(追踪文件的变化,不停的读),并且转发这些信息到elasticsearch或者logstarsh中存放。 当你开启filebeat程
阅读全文
摘要:hadoop的生态系统 1, hbase简介 高可用; 多备份, 分布式 高性能: 比mapreduce的性能高出许多 面向列: 存储模式是列族和列的存储模型 可伸缩: 集群可伸缩性 实时读写: 可毫秒级的响应, 可做在线数据库使用 半结构化: 通过flume导入的都是半结构化的数据 2, hbas
阅读全文
摘要:内置函数: 函数分类: 内置函数查看: 查看函数描述: 具体见: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1, 简单函数( 函数的计算粒度为单条记录) 关系运算 数学运算 逻辑运算 数值计算 类型转换 日
阅读全文
摘要:1, 首先去官网看下地址是否变化了 2, 然后输入以下命令即可 3, 要是仍然嫌麻烦, 就用yum -y install 安装, 但仍然需要配置环境变量
阅读全文
摘要:hive 可以 类似jdbc链接, 但启动的必须是hiveserver2, 才可以使用 hiveserver2 默认监听 10000 端口 1, 启动: 重定向输出, 不干扰shell界面 nohup 用户退出, 也可以继续执行 或者 2, 使用 Beeline 进行连接 使用beeline链接,
阅读全文
摘要:上个博客: http://www.cnblogs.com/wenbronk/p/7381252.html中, 实现了经典5表对用户进行权限的控制, 但太过于繁琐了, 官方推荐的方式是将用户和角色存储数据库, 权限直接在要访问的接口上进行控制 (我感觉更麻烦...每个接口都需要指定) 本篇基于第一个,
阅读全文
摘要:本博客基于上一个 http://www.cnblogs.com/wenbronk/p/7379865.html 增加了角色的权限表, 可以进行权限校验 一, 数据准备 1, 数据表建立 2, 导入数据 3, mybatis实体, 其余2个和上一篇博客一样 SysPermission.groovy 4
阅读全文
摘要:spring security 使用众多的拦截器实现权限控制的, 其核心有2个重要的概念: 认证(Authentication) 和授权 (Authorization)), 认证就是确认用户可以访问当前系统, 授权即确定用户有相应的权限, 现在先大概过一遍整个流程,用户登陆,会被Authentica
阅读全文
摘要:原生jdbc链接一般分为7步, 来获取链接并执行sql语句 1, 准备4大参数 2, 注册驱动 3, 获取链接 4, 执行sql语句 5, 获取结果集 6, 结果集处理 7, 关闭连接
阅读全文
摘要:跟mysql类似, hive也有 DDL, 和 DML操作 数据类型: https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL primitive_type为基本类型, 包括: DDL: 基本语法: 1, 使用简单数据类
阅读全文
摘要:mysql的安装可见: http://www.cnblogs.com/wenbronk/p/6840484.html 很久不用mysql, 今天建表都不会了, , , 慢慢补充 sql语言分为3种: DDL, DML, DCL DDL ddl的操作主要是针对数据库和数据表的 1, 对数据库的操作 1
阅读全文
摘要:sprinboot整合mybatis, 有2种方式, 第一种完全使用注解的方式, 还有一种就是使用xml文件的方式 项目使用gradle + idea, 数据源使用druid, 多使用groovy编写 环境配置 1, 依赖 2, user-schame.sql 在springboot的配置文件中,
阅读全文
摘要:1, hive简介 hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduc
阅读全文
摘要:1, tf-idf 计算每个人的词条中的重要度 需要3个mapreduce 的 job执行, 第一个计算 TF 和 n, 第二个计算 DF, 第三个代入公式计算结果值 1, 第一个job reduce partition mainJob 2, 第二个 reduce mainjob 3, 第三个Job
阅读全文
摘要:1, 认识stream(声明式编程) Stream 不是集合元素,它不是数据结构并不保存数据,它是有关算法和计算的,它更像一个高级版本的 Iterator, 原始版本的Iterator,用户只能一个一个的遍历元素并对其执行某些操作;高级版本的Stream,用户只要给出需要对其包含的元素执行什么操作,
阅读全文
摘要:好友推荐的案例, 需要两个job, 第一个进行好友关系度计算, 第二个job将计算的关系进行推荐 1, fof关系类 2, user类 3, sort 4, group 5, job 初始文档 系列来自尚学堂视频
阅读全文
摘要:weather案例, 简单分析每年的前三个月的最高温即可, 使用自定义的分组和排序 设计分析 设定多个reduce 每年的数据都很多,如果按照默认情况处理,统计性能是非常慢(因为默认只有一个reduce),所以我们需要重新分配reduceTask,将一年的数据交给一个reduceTask处理, 分区
阅读全文
摘要:经纬度计算, 本质上是球面三角函数的应用, 将数学公式转换为代码的过程, 站在前人的肩膀上, 自己又补充了一点:
阅读全文
摘要:1, 遍历list集合 List<Integer> list = new ArrayList<>(); list.add(1); list.add(2); list.add(3); // 直接打印 list.forEach(System.out::println); // 取值分别操作 list.f
阅读全文
摘要:转: http://www.cnblogs.com/rubinorth/p/5799848.html 参考尚学堂视频 1, 概念( 来自百度百科) PageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。它由Larry Page 和 Sergey Br
阅读全文