摘要: 传统的机器学习任务从开始到建模的一般流程是:获取数据 -> 数据预处理 -> 训练建模 -> 模型评估 -> 预测,分类。 1. 获取数据 1.1 导入sklearn数据集 sklearn中包含了大量的优质的数据集,在你学习机器学习的过程中,你可以通过使用这些数据集实现出不同的模型,从而提高你的动手 阅读全文
posted @ 2018-10-18 13:56 飞末 阅读(844) 评论(0) 推荐(0) 编辑
摘要: 一、ES windows环境下的安装 1.官网下载windows安装包 2.解压启动 F:\software\ES\elasticsearch-6.4.0\bin\elasticsearch 3.查看 http://localhost:9200/ 二、安装Head 1.下载NodeJS,并安装 2. 阅读全文
posted @ 2018-09-15 11:32 飞末 阅读(671) 评论(0) 推荐(0) 编辑
摘要: 第一种方式 操作:将第三方jar文件打包到最终形成的spark应用程序jar文件中 应用场景:第三方jar文件比较小,应用的地方比较少 第二种方式 操作:使用spark-submit提交命令的参数: --jars 要求: 1、使用spark-submit命令的机器上存在对应的jar文件 2、至于集群 阅读全文
posted @ 2018-08-10 17:59 飞末 阅读(6526) 评论(0) 推荐(0) 编辑
摘要: 在许多Java面试中,我们经常会看到关于Java类加载机制的考察,例如下面这道题: 请写出最后的输出字符串。 正确答案是: 我相信很多同学看到这个题目之后,表情是崩溃的,完全不知道从何入手。有的甚至遇到了几次,仍然无法找到正确的解答思路。 其实这种面试题考察的就是你对Java类加载机制的理解。 如果 阅读全文
posted @ 2018-08-10 17:58 飞末 阅读(1783) 评论(0) 推荐(1) 编辑
摘要: 这是三种线性时间复杂度的排序算法,它们是用运算而不是比较来确定排序顺序的 一、基数排序 1.简介 它一种与其他排序算法完全不同的排序方法,其他的排序算法都是通过关键字之间的比较和移动来完成的,而它是采用一种多关键字的思想。 多关键字的思想:给定一组数据,我可以先按个位的大小对所有数进行排序,然后再按 阅读全文
posted @ 2018-07-16 09:20 飞末 阅读(3249) 评论(0) 推荐(0) 编辑
摘要: 1.简介 堆排序是利用堆这种数据结构而设计的一种排序算法,堆排序是一种选择排序,它的最坏,最好,平均时间复杂度均为O(nlogn),它也是不稳定排序, 二叉堆满足二个特性: 1.父结点的键值总是大于或等于(小于或等于)任何一个子节点的键值。 2.每个结点的左子树和右子树都是一个二叉堆(都是最大堆或最 阅读全文
posted @ 2018-07-12 16:29 飞末 阅读(958) 评论(0) 推荐(0) 编辑
摘要: 一、归并排序 归并排序(MERGE-SORT)是利用归并的思想实现的排序方法,该算法采用经典的分治(divide-and-conquer)策略(分治法将问题分(divide)成一些小的问题然后递归求解,而治(conquer)的阶段则将分的阶段得到的各答案"修补"在一起,即分而治之) 可以看到这种结构 阅读全文
posted @ 2018-07-12 15:41 飞末 阅读(5603) 评论(0) 推荐(0) 编辑
摘要: 一、选择排序 选择排序是最简单直观的一种算法,基本思想为每一趟从待排序的数据元素中选择最小(或最大)的一个元素作为首元素,直到所有元素排完为止,简单选择排序是不稳定排序。 在算法实现时,每一趟确定最小元素的时候会通过不断地比较交换来使得首位置为当前最小,交换是个比较耗时的操作。其实我们很容易发现,在 阅读全文
posted @ 2018-07-11 17:37 飞末 阅读(497) 评论(0) 推荐(0) 编辑
摘要: 1.基本思想 对于未排序数据,在已排序序列中从后向前扫描,找到相应位置并插入,通常以第一个元素为已排序序列。在从后向前扫描过程中,需要反复把已排序元素逐步向后挪位,为最新元素提供插入空间 2.应用场景 插入排序不适合对于数据量比较大的排序应用。但是,如果需要排序的数据量很小,例如,量级小于千,那么插 阅读全文
posted @ 2018-07-11 17:02 飞末 阅读(857) 评论(0) 推荐(0) 编辑
摘要: 算法思想 决策树(decision tree)是一个树结构(可以是二叉树或非二叉树)。 其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。 使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到 阅读全文
posted @ 2018-07-09 16:38 飞末 阅读(20819) 评论(0) 推荐(2) 编辑
摘要: 工欲善其事必先利其器,在使用Python做数据挖掘和数据分析时,一大必不可少的利器就是Pandas库了。pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的,其纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。 下面就从创建数据、查看数据、筛选数据、 阅读全文
posted @ 2018-07-03 16:59 飞末 阅读(1178) 评论(0) 推荐(0) 编辑
摘要: 一、概述 我们知道,机器学习的特点就是:以计算机为工具和平台,以数据为研究对象,以学习方法为中心;是概率论、线性代数、数值计算、信息论、最优化理论和计算机科学等多个领域的交叉学科。所以本文就先介绍一下机器学习涉及到的一些最常用的的数学知识。 二、线性代数 2-1、标量 一个标量就是一个单独的数,一般 阅读全文
posted @ 2018-07-03 16:24 飞末 阅读(544) 评论(0) 推荐(0) 编辑
摘要: 一、idea中的maven 1.打开IntelliJ IDEA->Settings ->Build, Execution, Deployment -> Build Tools > Maven 一个是本地配置文件的位置,另一个是本地仓库的位置 在.m2下面新建settings.xml文件,内容如下 二 阅读全文
posted @ 2018-06-28 10:43 飞末 阅读(4305) 评论(0) 推荐(0) 编辑
摘要: 训练语料格式 自定义五个类别及其标签:0 运费、1 寄件、2 人工、3 改单、4 催单、5 其他业务类。 从原数据中挑选一部分作为训练语料和测试语料 建立模型测试并保存 模型评估: 使用模型预测 结果: 阅读全文
posted @ 2018-06-26 17:22 飞末 阅读(1820) 评论(0) 推荐(0) 编辑
摘要: 一、ML组件 ML的标准API使用管道(pipeline)这样的方式,可以将多个算法或者数据处理过程整合到一个管道或者一个流程里运行,其中包含下面几个部分: 1. dataFrame:用于ML的dataset,保存数据 2. transformer:将一个dataFrame按照某种计算转换成另外一个 阅读全文
posted @ 2018-06-26 16:59 飞末 阅读(3059) 评论(0) 推荐(0) 编辑
摘要: 阅读目录(Content) 一、Flume简介 二、Flume特点 三、Flume的一些核心概念 3.1、Agent结构 3.2、source 3.3、Channel 3.4、Sink 四、Flume拦截器、数据流以及可靠性 4.1、Flume拦截器 4.2、Flume数据流 4.3、Flume可靠 阅读全文
posted @ 2018-06-21 12:35 飞末 阅读(305) 评论(0) 推荐(0) 编辑
摘要: 一、获取jar包的位置 1.使用类路径 返回值都是/xxx/xxx.jar这种形式。如果路径包含Unicode字符,还需要将路径转码 2.利用了java运行时的系统属性来得到jar文件位置,也是/xxx/xxx.jar这种形式 path.separator在Windows系统下得到;(分号),在Li 阅读全文
posted @ 2018-06-20 17:42 飞末 阅读(3041) 评论(0) 推荐(0) 编辑
摘要: 在项目开发中,记录错误日志是一个很有必要功能。一是方便调试;二是便于发现系统运行过程中的错误;三是存储业务数据,便于后期分析; 在java中,记录日志,有很多种方式。 比如,自己实现。 自己写类,将日志数据,以io操作方式,写数据到文本文件。或者是写到数据库中。 比如,使用log4j。 log4j, 阅读全文
posted @ 2018-06-14 17:16 飞末 阅读(1014) 评论(0) 推荐(0) 编辑
摘要: 将部分控制台输出的内容保存到文件中,部分输出 具体应用场景:记录程序运行过程中的异常情况 阅读全文
posted @ 2018-06-14 17:02 飞末 阅读(283) 评论(0) 推荐(0) 编辑
摘要: Spring Boot 概述 Spring Boot 是所有基于 Spring 开发的项目的起点。Spring Boot 的设计是为了让你尽可能快的跑起来 Spring 应用程序并且尽可能减少你的配置文件。 什么是 Spring Boot 它使用 “习惯优于配置” (项目中存在大量的配置,此外还内置 阅读全文
posted @ 2018-06-12 14:40 飞末 阅读(299) 评论(0) 推荐(0) 编辑