01 2020 档案
摘要:Markdown标准用法 一.Markdown 教程 Markdown 是一种轻量级标记语言,它允许人们使用易读易写的纯文本格式编写文档。 Markdown 语言在 2004 由约翰·格鲁伯(英语:John Gruber)创建。 Markdown 编写的文档可以导出 HTML 、Word、图像、PD
阅读全文
摘要:详细的shell教程 一.Shell 教程 Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。 Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。 Ken Thompson
阅读全文
摘要:maven仓库搭建 一.Maven 环境配置 Maven 是一个基于 Java 的工具,所以要做的第一件事情就是安装 JDK。 如果你还未安装 JDK,可以参考我们的 Java 开发环境配置。 1.系统要求 项目要求 JDK Maven 3.3 要求 JDK 1.7 或以上 Maven 3.2 要求
阅读全文
摘要:Git学习 一.简介 1.Git 教程 Git 是一个开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目。 Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。 Git 与常用的版本控制工具 CVS, Subversion 等不
阅读全文
摘要:一.SVN基础知识 1.SVN 简介 Subversion(SVN) 是一个开源的版本控制系統, 也就是说 Subversion 管理着随时间改变的数据。 这些数据放置在一个中央资料档案库(repository) 中。 这个档案库很像一个普通的文件服务器, 不过它会记住每一次文件的变动。 这样你就可
阅读全文
摘要:一.关于大数据 1. 什么是大数据?? 答:大数据讲的是无法在一定时间内用常规软件工具进行捕捉,管理和处理的数据集合.是需要新的处理模式才能具有更强的决策力,洞察力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产;主要解决-->海量的数据存储的分析和计算问题. 大数据的特性: 数据量庞大
阅读全文
摘要:1、什么storm?? Storm是一个实时的、分布式、高可靠性、可维护性以及具备高容错的异步流式计算框架;它是逐条处理数据的;它的架构主要有Nimbus,Supervisor,worker;编程模型:DAG、spout、Bolt;高可靠性体现在异常处理和消息的可靠性保障机制;可维护性体现在:提供U
阅读全文
摘要:1、什么是kafka?? Kafka是一个高吞吐量、低延迟、分布式的消息队列系统,每秒可以处理几十万条消息,它的延迟最低只有几毫秒; Kafka提供了一个生产者、缓冲区、消费者的模型;kafka是由多个broker服务器组成,用于存储数据;不同的数据被分为不同的topic;producer往topi
阅读全文
摘要:MQ消息队列 一. 消息队列的简介 1.简介 在计算机科学中,消息队列(英语:Message queue)是一种进程间通信或同一进程的不同线程间的通信方式,软件的贮列用来处理一系列的输入,通常是来自用户。消息队列提供了异步的通信协议,每一个贮列中的纪录包含详细说明的数据,包含发生的时间,输入设 备的
阅读全文
摘要:机器学习 一、线性回归 1.理解回归 主要关注确定一个唯一的因变量和一个或多个数值型的自变量 广义线性回归:逻辑回归、泊松回归 简单的线性回归:形如y=ax+b 2.梯度下降算法 先确定向下一步的步伐大小,称之learning rate 任意给定一个初始值 确定一个向下的方向,并向下走预先规定的步伐
阅读全文
摘要:oushuDB应用 一.简介 OushuDB是由Apache HAWQ创始团队基于HAWQ打造的新一代数据仓库(New Data Warehouse)。该产品采用了存储与计算分离技术架构,具有MPP的所有优点,还具有弹性,支持混合工作负载和高扩展性等优点。作为HAWQ的增强版,OushuDB遵循AN
阅读全文
摘要:1.基本操作 创建数据库 createdb [option...] [dbname [description]] 参数说明 dbname:要创建的数据库名。 description:关于新创建的数据库相关的说明 options:参数可选项,可以是以下值:-D tablespace 指定数据库默认表空
阅读全文
摘要:下载安装包 一定要分清楚是32位逇还是64位,这里用的64位的 postgresql-10.11-3-linux-x64-binaries.tar.gz 上传安装包至Linux系统 解压到指定目录 tar -zxvf postgresql-10.11-3-linux-x64-binaries.tar
阅读全文
摘要:一.HAWQ的历史与现状 想法和原型系统(2011):GOH阶段(Greenplum Database On HDFS)。 HAWQ 1.0 Alpha(2012):多个国外大型客户试用,当时客户性能测试是Hive的数百倍。促进了HAWQ 1.0作为正式产品发布。 HAWQ 1.0 GA(2013年
阅读全文
摘要:shell脚本练习示例 1.计算1到100的和 #!/bin/bashsum=0for i in `seq 1 100`;do sum=$[$i+$sum]doneecho $sum 2.输入一个数N,计算前n个数的和 #!/bin/bashsum=0for i in `seq 1 100`;do
阅读全文
摘要:机器学习 一、线性回归 1.理解回归 主要关注确定一个唯一的因变量和一个或多个数值型的自变量 广义线性回归:逻辑回归、泊松回归 简单的线性回归:形如y=ax+b 2.梯度下降算法 先确定向下一步的步伐大小,称之learning rate 任意给定一个初始值 确定一个向下的方向,并向下走预先规定的步伐
阅读全文
摘要:初识flink 一、认识flink 1、flink简介 flink是一个低延迟、高吞吐、统一的大数据计算引擎。 flink的计算平台可以实现毫秒级的延迟情况下,每秒钟处理上亿次的消息或者事件。 提供一个Exactly-once的一致性语义,保证了数据的正确性;使得flink大数据引擎可以提供金融级的
阅读全文
摘要:kylin的认识 一、cubo和cudoid 1.维度和度量 数据分析领域中两个常用的概念。 维度 观察数据的角度,也就是数据记录的一个属性。 度量 基于数据所计算出来的考量值,通常是一个数据,例如销售额、不同的用户数量。 我们就是从不同的维度来审查度量值,以便我们分析找出其中的变化规律。 对于我们
阅读全文
摘要:1.资源优化 部署spark集群中指定资源分配的默认参数 SPARK_WORKER_CORES 核数 SPARK_WORKER_MEMORY 内存大小 SPARK_WORKER_INSTANCES 每台机器启动worker数 在提交application时给当前的application分配更多的资源
阅读全文
摘要:SparkStreaming 一.简介 1.sparkstreaming简介 sparkstreaming是流式处理框架,是sparkAPI的扩展,支持可扩展,高吞吐量.容错的准实时数据流处理 数据来源可以是:kafka,flume,Twitter,ZeroMQ或者TCP sockets,并且可以使
阅读全文
摘要:数据仓库 一、什么是数据仓库 数据仓库,英文名称之为DataWarehouse,可以简写成DW或者DWH。 是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。 它处于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进,监视时间、成本、质量以及控制。 二、数据仓
阅读全文
摘要:正则表达式和插件 一.正则表达式 1.定义:正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为"元字符")。 正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。 正则表达式是繁琐的,但它是强大的,学会之后的
阅读全文
摘要:HADOOP简介 一.大数据思维 1.什么是大数据思维 分而治之:把一个复杂的问题按一定的“分解”方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的中间结果,把各部分的中间结果组成整个问题的最终结果。 并行:提升速度的关键 分布式运行 计算与数据在一起 计算向数据移动 二.Hadoop
阅读全文
摘要:一.设置虚拟机 1.克隆三台虚拟机 设置IP地址和主机名称 2.设置免密钥登录 三台虚拟机各自生成密钥 ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa 设置映射名称 vim hosts (etc 目录下) 将密钥互相拷贝给对方 ssh-copy-id root@no
阅读全文
摘要:1.天气案列 1.1原始数据 1949-10-01 14:21:02 34c 1949-10-01 19:21:02 38c 1949-10-02 14:01:02 32c 1950-01-01 11:21:02 32c 1950-10-01 12:21:02 37c 1951-12-01 12:2
阅读全文
摘要:MapReduce流程讲解 一.简介 对于用户来说只需要书写map操作和reduce操作 mapreduce计算数据的时间较长 整个过程分为map和reduce,map负责处理原始数据,reduce负责处理map数据 二.原理分析 1.map过程 block:块-->物理上的概念,默认是128M s
阅读全文
摘要:一,简介 JSP:Java Server Page SUN 公司提供的 动态网页编程技术,是 Java Web 服务器端的 动态资源。它相比 html 而言,html 只能为用户提供静态数据,而 Jsp 技术允许在页面中嵌套 java 代码,为用户提供动态数据。相比 servlet 而言,servl
阅读全文
摘要:过滤器和监听器 一.过滤器 1.简介 Filter 即为过滤,用于在 Servlet 之外对 Request 或者 Response 进行修改。它主要用于对用户请求进行预处理,也可以对 HttpServletResponse 进行后处理。使用 Filter 的完整流程: Filter 对用户请求进行
阅读全文
摘要:初识服务器 一.XML简介 1. 标记语言 标记语言,是一种将文本(Text)以及文本相关的其他信息结合起来,展现出关于文档结构和数据处理细节的电脑文字编码。当今广泛使用的标记语言是超文本标记语言(HyperText Markup Language,HTML)和可扩展标记语言(Extensible
阅读全文
摘要:jQuery jQuery 是一套兼容多浏览器的 javascript 脚本库. 核心理念是写得更少,做得更多, 使用 jQuery 将极大的提高编写 javascript 代码的效率,帮助开发者节省了大量的工作,让 写出来的代码更加优雅, 更加健壮,“如虎添翼”. 同时网络上丰富的 jQuery
阅读全文
摘要:JS — 事件和 BOM 一.事件 事件(Event)是 JavaScript 应用跳动的心脏 ,进行交互,使网页动起来。当我们与浏览器 中 Web 页面进行某些类型的交互时,事件就发生了。事件可能是用户在某些内容上的点击、 鼠标经过某个特定元素或按下键盘上的某些按键。事件还可能是 Web 浏览器中
阅读全文
摘要:一.JS的使用方式: 1、行内JS:写在html标签中的js代码 2、内部JS:写在<script type="text/javascript"></script>标签之间可以放在html中的任意位置,一般放在<head>标签中或<body>标签中或<body>标签后 3、外部JS:引入外部的js文
阅读全文
摘要:一.简介 CSS(Cascade Style Sheets)层叠样式表, 是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言。 CSS目前最新版本为CSS3,是能够真正做到网页表现与内容分离的一种样式设计语言。相对于传统HTML的表现而言
阅读全文
摘要:一.MyBatis介绍 1.简介 MyBatis 是一个支持普通SQL查询,存储过程和高级映射的优秀持久层框架。MyBatis消除了几乎所有的JDBC代码和参数的手工设置以及对结果集的检索封装。MyBatis 可以使用简单的XML或注解用于配置和原始映射,将接口和Java的POJO(n Plain
阅读全文
摘要:一、MVC思想 MVC: 几乎所有的 B/S 的架构都采用了 MVC框架模式 M: Model 数据模型(User.java) 模型代表着一种企业规范,就是业务流程/状态的处理以及业务规则的规定。业务流程的处理过程对其他层来说是不透明的,模型接受视图数据的请求,并返回最终的处理结果。业务模型的设计可
阅读全文
摘要:一.注解的定义 1.官方定义: 定义: (1)Java 注解用于为 Java 代码提供元数据。作为元数据,注解不直接影响你的代码执行,但也有一些类型的注解实际上可以用于这一目的。Java 注解是从 Java5 开始添加到 Java 的。 (2)用一个词就可以描述注解,那就是元数据,即一种描述数据的数
阅读全文
摘要:一. 注册蚂蚁金服账号 登录账号:https://open.alipay.com/platform/home.html 入驻商户 生成RSA密钥,需要下载密钥生成工具,这里就不详细介绍了,详情请查看在下线API 二. 沙箱应用 1.1. 生成密钥 1.2. 下载SDK 测试 2.1添加依赖 <!--
阅读全文
摘要:一 什么是Hibernate 1. hibernate的简介 Hibernate是一款优秀的持久化ORM框架;解决持久化操作,使得程序员可以从编写繁复的JDBC工作中解放出来,专注于业务,提高程序员开发效率;并且具有可靠的移植性,降低了系统耦合度; 2. 什么是持久化和ORM 2.1 持久(Pers
阅读全文
摘要:MongoDB大神学习之路 一. 什么是MongoDB MongoDB是由C++语言编写的,是一个基于分布式存储的数据库。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。MongoDB
阅读全文
摘要:一. 消息队列的简介 1.简介 在计算机科学中,消息队列(英语:Message queue)是一种进程间通信或同一进程的不同线程间的通信方式,软件的贮列用来处理一系列的输入,通常是来自用户。消息队列提供了异步的通信协议,每一个贮列中的纪录包含详细说明的数据,包含发生的时间,输入设 备的种类,以及特定
阅读全文
摘要:1.关于库/表操作 建库 create database mydb; create database if no exists mydb; create database if no exists mydb location “/aa/bb”; 查询数据库 查询库列表:show databases;
阅读全文
摘要:一. 简介 是个实时的,分布式以及具备高容错的计算框架 storm进程常驻内存 storm数据不经过磁盘,在内存中处理 是Twitter开源的实时的大数据处理框架,最早开源与GitHub 架构 nimbus supervisor worker 编程模型 DAG(topology) spout bol
阅读全文