该文被密码保护。 阅读全文
posted @ 2023-02-06 09:23 ahu-lichang 阅读(2) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2023-01-28 15:49 ahu-lichang 阅读(0) 评论(0) 推荐(0) 编辑
摘要: HDP: (1) 介绍: HDP全称叫做Hortonworks Data Platform。 Hortonworks数据平台是一款基于Apache Hadoop的是开源数据平台,提供大数据云存储,大数据处理和分析等服务。该平台是专门用来应对多来源和多格式的数据,并使其处理起来能变成简单、更有成本效益 阅读全文
posted @ 2022-02-28 17:01 ahu-lichang 阅读(3848) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2021-12-22 11:13 ahu-lichang 阅读(124) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2021-12-10 21:05 ahu-lichang 阅读(1) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2021-12-10 21:04 ahu-lichang 阅读(1) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2021-12-10 21:03 ahu-lichang 阅读(1) 评论(0) 推荐(0) 编辑
摘要: pom.xml <?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 阅读全文
posted @ 2019-10-20 21:37 ahu-lichang 阅读(405) 评论(0) 推荐(0) 编辑
摘要: ES Hadoop spark的区别存(可扩展) hdfs存(可扩展) 不存支持实时查询 hbase支持实时查询 sparkSQL交互式查询支持全文检索 不支持 不支持 帽子和服装 帽子和服服装 数据库:select * from t_a where title like '%大%'全文检索:将存入 阅读全文
posted @ 2019-10-20 21:34 ahu-lichang 阅读(859) 评论(0) 推荐(0) 编辑
摘要: #查看服务状态systemctl status NetworkManager / network#停止服务systemctl stop NetworkManager#启动服务systemctl start NetworkManager#禁止服务开机启动systemctl disable Networ 阅读全文
posted @ 2019-10-20 21:34 ahu-lichang 阅读(361) 评论(0) 推荐(0) 编辑
摘要: 1.安装JDK(1.8)2.上传解压Elasticsearch-5.4.33.创建一个普通用户,然后将对于的目录修改为普通用户的所属用户和所属组4.修改配置文件config/elasticsearch.yml network.host: 192.168.100.2115.启动ES,发现报错 bin/ 阅读全文
posted @ 2019-10-20 21:33 ahu-lichang 阅读(1413) 评论(0) 推荐(0) 编辑
摘要: http://www.elastic.co/guide/en/elasticsearch/reference/current/setup-configuration.htmlhttps://github.com/elastic/elasticsearch###【在多台机器上执行下面的命令】####e 阅读全文
posted @ 2019-10-20 21:32 ahu-lichang 阅读(348) 评论(0) 推荐(0) 编辑
摘要: 数据库三大范式(1NF,2NF,3NF)及ER图 百度官方解释: 设计关系数据库时,遵从不同的规范要求,设计出合理的关系型数据库,这些不同的规范要求被称为不同的范式,各种范式呈递次规范,越高的范式数据库冗余越小。 目前关系数据库有六种范式:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、 阅读全文
posted @ 2019-05-21 14:44 ahu-lichang 阅读(46460) 评论(0) 推荐(5) 编辑
摘要: win10下Spark的环境搭建 2018-08-19 18:36:45 一、jdk 1.8.0 安装与配置 二、scala 2.11.8 安装与配置http://www.scala-lang.org/download/2.11.8.html 上面两步见《win10下安装scala》 三、spark 阅读全文
posted @ 2018-08-19 19:13 ahu-lichang 阅读(3677) 评论(0) 推荐(1) 编辑
摘要: MySQL安装详细图解 2018-08-19 08:32:33 一、MYSQL的安装 1、打开下载的mysql安装文件mysql-5.0.27-win64.zip,双击解压缩,运行“setup.exe”。 2、选择安装类型,有“Typical(默认)”、“Complete(完全)”、“Custom( 阅读全文
posted @ 2018-08-19 09:07 ahu-lichang 阅读(695) 评论(0) 推荐(0) 编辑
摘要: format()函数 format()函数:将数据内容格式化的,可以将数据格式化为整数或者带几位小数的浮点数(四舍五入)。 阅读全文
posted @ 2018-08-17 19:13 ahu-lichang 阅读(11821) 评论(0) 推荐(0) 编辑
摘要: substr()函数 1、substr(str,pos); 2、substr(str from pos); 3、substr(str,pos,len);//str:字符串,pos:起始位置,len:截断长度 4、substr(str from pos len); 阅读全文
posted @ 2018-08-17 18:56 ahu-lichang 阅读(51730) 评论(0) 推荐(1) 编辑
摘要: floor()函数 和round()函数的区别 2018-08-17 09:40:00 1、floor()函数:取整,保留整数部分,舍弃小数部分。 2、round()函数:四舍五入。round(x,d):x是要处理的数,d是保留的小数位数。round(x):相当于round(x,0)。 阅读全文
posted @ 2018-08-17 09:46 ahu-lichang 阅读(4653) 评论(0) 推荐(0) 编辑
摘要: join连接 table1: table2: 笛卡尔积: 就是一个表里的记录要分别和另外一个表的记录匹配为一条记录,即如果表A有2条记录,表B也有2条记录,经过笛卡尔运算之后就应该有2*2即4条记录。 JOIN:基于表之间的共同字段,将多个表的行结合起来。 有五种连接:自然连接(natural jo 阅读全文
posted @ 2018-08-16 15:04 ahu-lichang 阅读(292) 评论(0) 推荐(0) 编辑
摘要: MySQL UNION操作符 union操作符合并两个或多个 SELECT 语句的结果集。 union:去重 union all:不去重 UNION 结果集中的列名总是等于 UNION 中第一个 SELECT 语句中的列名。 UNION 内部的每个 SELECT 语句必须拥有相同数量的列。列也必须拥 阅读全文
posted @ 2018-08-16 11:37 ahu-lichang 阅读(197) 评论(0) 推荐(0) 编辑
摘要: MySQL存储过程 2018-08-15 23:00:06 1、存储过程介绍 (1) 定义:存储过程是存储在数据库目录中的一段声明性SQL语句。 触发器,其他存储过程以及java,python,php等应用程序可以调用存储过程。 递归存储过程:自身的存储过程。大多数数据库管理系统支持递归存储过程。 阅读全文
posted @ 2018-08-15 14:32 ahu-lichang 阅读(483) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2018-08-13 23:46 ahu-lichang 阅读(10) 评论(0) 推荐(0) 编辑
摘要: kettle学习之Spoon使用 2018-08-04 10:40:01 首先介绍两个博客入门: https://blog.csdn.net/zzq900503/article/details/78543778 https://blog.csdn.net/Install_/article/detai 阅读全文
posted @ 2018-08-01 22:46 ahu-lichang 阅读(8962) 评论(0) 推荐(0) 编辑
摘要: Spark 是一种“One Stack to rule them all”通用的大数据计算框架,期望使用一个技术栈就完美地 解决大数据领域的各种计算任务。 Spark特点:速度快、容易上手开发、超强的通用性、集成Hadoop、极高的活跃度。 Spark的速度比MapReduce快:MR计算模型太死板 阅读全文
posted @ 2017-12-21 17:22 ahu-lichang 阅读(1143) 评论(0) 推荐(0) 编辑
摘要: Pig Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。 Hive Hive在Hadoop中扮演数据仓库的角色。Hiv 阅读全文
posted @ 2017-08-19 23:14 ahu-lichang 阅读(2389) 评论(0) 推荐(0) 编辑
摘要: Redis介绍 Redis(REmote DIctionary Server)是一个开源的使用ANSI C语言编写、遵守BSD协议、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库, 并提供多种语言的API。 它通常被称为数据结构服务器,因为值(value)可以是 字符串(Strin 阅读全文
posted @ 2017-08-19 17:50 ahu-lichang 阅读(431) 评论(0) 推荐(0) 编辑
摘要: 随机森林(可用于分类和回归) 随机森林主要应用于回归和分类。 随机森林在运算量没有显著提高的前提下提高了预测精度。 1、简介 随机森林由多棵决策树构成,且森林中的每一棵决策树之间没有关联,模型的最终输出由森林中的每一棵决策树共同决定。 处理分类问题时,对于测试样本,森林中每棵决策树会给出最终类别,最 阅读全文
posted @ 2017-08-18 22:54 ahu-lichang 阅读(29955) 评论(0) 推荐(0) 编辑
摘要: java程序员面试笔试宝典P260勘误!!! bug:当数组中只有最后一个元素时,怎么处理? 当程序中除第一个元素后,剩下的的元素时偶数个的话,就不用考虑剩下最后一个了。 但是如果是奇数的话,两两相邻元素比较后,必然会剩下最后一个元素。 阅读全文
posted @ 2017-08-10 18:39 ahu-lichang 阅读(518) 评论(0) 推荐(0) 编辑
摘要: Java程序员面试笔试宝典P232勘误,程序有BUG!!! 阅读全文
posted @ 2017-08-07 18:57 ahu-lichang 阅读(368) 评论(0) 推荐(0) 编辑
摘要: 《chang哥教你一天搞定Scala》 阅读全文
posted @ 2017-07-19 20:55 ahu-lichang 阅读(25489) 评论(12) 推荐(1) 编辑
摘要: win10安装scala详细步骤 1、下载安装JDK 2、配置Java环境变量 JAVA_HOME:jdk的安装目录 Path:%JAVA_HOME%\bin; Classpath:%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar; 3、验证Java是 阅读全文
posted @ 2017-07-17 23:00 ahu-lichang 阅读(11375) 评论(0) 推荐(3) 编辑
摘要: SVM算法比较复杂,数学功底要求很高。 详见七月大神博客《 支持向量机通俗导论(理解SVM的三层境界)》 阅读全文
posted @ 2017-07-15 09:50 ahu-lichang 阅读(629) 评论(0) 推荐(0) 编辑
摘要: 协同过滤推荐算法分为基于用户的协同过滤推荐UserCF和基于物品的协同过滤推荐ItemCF。介绍见《协同过滤的实现步骤》 1、指导思想 这种过滤算法的有效性基础在于: 1、用户偏好具有相似性,即用户可分类。这种分类的特征越明显,推荐准确率越高 2、物品之间具有相似性,即偏好某物品的人,都很可能也同时 阅读全文
posted @ 2017-07-14 21:32 ahu-lichang 阅读(780) 评论(0) 推荐(0) 编辑
摘要: Lineage逻辑回归分类算法 线性回归和逻辑回归参考文章: http://blog.csdn.net/viewcode/article/details/8794401 http://www.cnblogs.com/jerrylead/archive/2011/03/05/1971867.html 阅读全文
posted @ 2017-07-14 20:29 ahu-lichang 阅读(9100) 评论(0) 推荐(0) 编辑
摘要: 决策树分类算法 1、概述 决策树(decision tree)——是一种被广泛使用的分类算法。 相比贝叶斯算法,决策树的优势在于构造过程不需要任何领域知识或参数设置 在实际应用中,对于探测式的知识发现,决策树更加适用。 2、算法思想 通俗来说,决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这 阅读全文
posted @ 2017-07-14 11:04 ahu-lichang 阅读(26306) 评论(0) 推荐(0) 编辑
摘要: K-means聚类算法(事先数据并没有类别之分!所有的数据都是一样的) 1、概述 K-means算法是集简单和经典于一身的基于距离的聚类算法 采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。 该算法认为类簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。 2、 阅读全文
posted @ 2017-07-13 17:22 ahu-lichang 阅读(156275) 评论(207) 推荐(26) 编辑
摘要: 朴素贝叶斯分类算法 1、朴素贝叶斯分类算法原理 1.1、概述 贝叶斯分类算法是一大类分类算法的总称 贝叶斯分类算法以样本可能属于某类的概率来作为分类依据 朴素贝叶斯分类算法是贝叶斯分类算法中最简单的一种 注:朴素的意思是条件概率独立性 P(A|x1x2x3x4)=p(A|x1)*p(A|x2)p(A 阅读全文
posted @ 2017-07-12 21:48 ahu-lichang 阅读(33563) 评论(5) 推荐(3) 编辑
摘要: KNN补充: 1、K值设定为多大? k太小,分类结果易受噪声点影响;k太大,近邻中又可能包含太多的其它类别的点。 (对距离加权,可以降低k值设定的影响) k值通常是采用交叉检验来确定(以k=1为基准) 经验规则:k一般低于训练样本数的平方根 2、类别如何判定最合适? 加权投票法更恰当一些。而具体如何 阅读全文
posted @ 2017-07-11 20:51 ahu-lichang 阅读(551) 评论(0) 推荐(0) 编辑
摘要: 需求: 利用一个手写数字“先验数据”集,使用knn算法来实现对手写数字的自动识别; 先验数据(训练数据)集: ♦数据维度比较大,样本数比较多。 ♦ 数据集包括数字0-9的手写体。 ♦每个数字大约有200个样本。 ♦每个样本保持在一个txt文件中。 ♦手写体图像本身的大小是32x32的二值图,转换到t 阅读全文
posted @ 2017-07-11 20:44 ahu-lichang 阅读(11635) 评论(0) 推荐(0) 编辑
摘要: KNN分类算法(先验数据中就有类别之分,未知的数据会被归类为之前类别中的某一类!) 1、KNN介绍 K最近邻(k-Nearest Neighbor,KNN)分类算法是最简单的机器学习算法。 机器学习,算法本身不是最难的,最难的是: 1、数学建模:把业务中的特性抽象成向量的过程; 2、选取适合模型的数 阅读全文
posted @ 2017-07-11 15:58 ahu-lichang 阅读(46862) 评论(4) 推荐(2) 编辑