上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 33 下一页

2019年4月23日

jar包中使用log4j2不起作用

摘要: 某程序中有使用到log4j2,将该程序打包成jar,使用以下命令执行时,发现log4j不输出 且报以下错误 原因:因为有添加maven-shade插件,需要做如下修改 添加filter。重新打包即可。 阅读全文

posted @ 2019-04-23 15:25 嘣嘣嚓 阅读(2320) 评论(0) 推荐(0) 编辑

2019年4月17日

数据挖掘-数据清理过程

摘要: 数据清理-数据清理过程 数据清理过程的第一步是偏差检测(discrepancy detection)。 导致偏差的因素有很多,包括: 如何进行偏差检测 1. 警惕编码使用的不一致和数据表示的不一致问题(例如日期“2019/04/17”和“17/04/2019”)2. 根据唯一性规则、连续性规则和空值 阅读全文

posted @ 2019-04-17 22:31 嘣嘣嚓 阅读(477) 评论(0) 推荐(0) 编辑

2019年4月16日

数据挖掘-数据清理-噪声数据

摘要: 数据清理-噪声数据 数据清理例程试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。 噪声数据 噪声(noise)是被测量的变量的随机误差或方差。光滑数据,去除噪声方法如下。 1.分箱(binning) 分箱方法通过考察数据的近邻(即周围的值)来光滑有序数据值。这些有序的值被分不到一些桶或箱 阅读全文

posted @ 2019-04-16 22:40 嘣嘣嚓 阅读(1208) 评论(0) 推荐(0) 编辑

数据挖掘-数据清理-缺失值

摘要: 数据清理-缺失值 数据清理例程试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。 缺失值 在处理数据时,会发现很多元组的一些属性没有记录值。可使用以下方法补充。(1) 忽略元组:当缺少类标号时通常这样做。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺失值的百分比变化很大时,它 阅读全文

posted @ 2019-04-16 22:39 嘣嘣嚓 阅读(702) 评论(0) 推荐(0) 编辑

2019年4月15日

Flask-最简单的Python http服务框架使用

摘要: 环境准备 Python + pip + Flask 代码如下(做了个jieba分词的服务) Flask官方文档:http://docs.jinkan.org/docs/flask/quickstart.html#a-minimal-application 阅读全文

posted @ 2019-04-15 22:53 嘣嘣嚓 阅读(2403) 评论(0) 推荐(0) 编辑

数据挖掘-数据预处理的必要性及主要任务

摘要: 数据预处理的必要性及主要任务 1、数据预处理的必要性 数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异构数据源。低质量的数据导致低质量的数据挖掘。 2、数据预处理技术 (1)数据清理:可以用来清除数据中的噪声,纠正不一致。 (2)数据集成:将数据由多个数据源合并成一个一 阅读全文

posted @ 2019-04-15 22:47 嘣嘣嚓 阅读(9968) 评论(0) 推荐(0) 编辑

Sqoop-问题

摘要: 1.权限问题 oozie调用sqoop时报错,解决:改所有者 2.少MySQL驱动包 sqoop时,应该是有的节点没有放mysql驱动连接jar,将mysql驱动包放入/usr/share/java/下(mysql-connector-java.jar) 阅读全文

posted @ 2019-04-15 18:39 嘣嘣嚓 阅读(858) 评论(0) 推荐(0) 编辑

2019年4月14日

分词工具比较及使用(ansj、hanlp、jieba)

摘要: 一、分词工具 ansj、hanlp、jieba 二、优缺点 1.ansj 优点: 提供多种分词方式 可直接根据内部词库分出人名、机构等信息 可构造多个词库,在分词时可动态选择所要使用的词库缺点: 自定义词典时,系统词典还是被优先使用,导致词性不是自定义词典中的词性 多单词英文姓名无法分出适用场景 若 阅读全文

posted @ 2019-04-14 21:03 嘣嘣嚓 阅读(7376) 评论(0) 推荐(0) 编辑

2019年4月9日

数据挖掘-可挖掘的数据类型

摘要: 可挖掘的数据类型 1. 数据库数据 数据库系统,也成数据库管理系统(DBMS),由一组内部相关的数据(称作数据库)和一组管理和存取数据的软件程序组成。关系数据库是表的汇集,每个表都被赋予一个唯一的名字。每个表都包含一组属性(列或字段),并且通常存放大量元组(记录或行)。关系表中的每个元组代表一个对象 阅读全文

posted @ 2019-04-09 22:19 嘣嘣嚓 阅读(710) 评论(0) 推荐(0) 编辑

数据挖掘-什么是数据挖掘

摘要: 什么是数据挖掘 从数据中挖掘知识。知识的发现过程由以下步骤的迭代序列组成1. 数据清理(消除噪声和删除不一致数据)2. 数据集成(多种数据源可以组合在一起)3. 数据选择(从数据库中提取与分析任务先相关的数据)4. 数据变换(通过汇总或狙击操作,把数据变换和统一成适合挖掘的形式)5. 数据挖掘(基本 阅读全文

posted @ 2019-04-09 21:37 嘣嘣嚓 阅读(363) 评论(0) 推荐(0) 编辑

上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 33 下一页

导航