04 2019 档案

数据挖掘-数据集成
摘要:数据集成 数据挖掘经常需要数据集成--合并来自多个数据存储的数据。小心仔细的集成有助于减少结果数据集的冗余和不一致。这有助于提高后续挖掘过程的准确性和速度。数据语义的多样性和结构对数据集成提出了巨大的挑战。数据集成将多个数据源中的数据合并,存放在一个一致的数据存储中,如存放在数据仓库中。这些数据源可 阅读全文

posted @ 2019-04-23 22:26 嘣嘣嚓 阅读(792) 评论(0) 推荐(0) 编辑

jar包中使用log4j2不起作用
摘要:某程序中有使用到log4j2,将该程序打包成jar,使用以下命令执行时,发现log4j不输出 且报以下错误 原因:因为有添加maven-shade插件,需要做如下修改 添加filter。重新打包即可。 阅读全文

posted @ 2019-04-23 15:25 嘣嘣嚓 阅读(2335) 评论(0) 推荐(0) 编辑

数据挖掘-数据清理过程
摘要:数据清理-数据清理过程 数据清理过程的第一步是偏差检测(discrepancy detection)。 导致偏差的因素有很多,包括: 如何进行偏差检测 1. 警惕编码使用的不一致和数据表示的不一致问题(例如日期“2019/04/17”和“17/04/2019”)2. 根据唯一性规则、连续性规则和空值 阅读全文

posted @ 2019-04-17 22:31 嘣嘣嚓 阅读(498) 评论(0) 推荐(0) 编辑

数据挖掘-数据清理-噪声数据
摘要:数据清理-噪声数据 数据清理例程试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。 噪声数据 噪声(noise)是被测量的变量的随机误差或方差。光滑数据,去除噪声方法如下。 1.分箱(binning) 分箱方法通过考察数据的近邻(即周围的值)来光滑有序数据值。这些有序的值被分不到一些桶或箱 阅读全文

posted @ 2019-04-16 22:40 嘣嘣嚓 阅读(1277) 评论(0) 推荐(0) 编辑

数据挖掘-数据清理-缺失值
摘要:数据清理-缺失值 数据清理例程试图填充缺失的值、光滑噪声并识别离群点、纠正数据中的不一致。 缺失值 在处理数据时,会发现很多元组的一些属性没有记录值。可使用以下方法补充。(1) 忽略元组:当缺少类标号时通常这样做。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺失值的百分比变化很大时,它 阅读全文

posted @ 2019-04-16 22:39 嘣嘣嚓 阅读(750) 评论(0) 推荐(0) 编辑

Flask-最简单的Python http服务框架使用
摘要:环境准备 Python + pip + Flask 代码如下(做了个jieba分词的服务) Flask官方文档:http://docs.jinkan.org/docs/flask/quickstart.html#a-minimal-application 阅读全文

posted @ 2019-04-15 22:53 嘣嘣嚓 阅读(2410) 评论(0) 推荐(0) 编辑

数据挖掘-数据预处理的必要性及主要任务
摘要:数据预处理的必要性及主要任务 1、数据预处理的必要性 数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异构数据源。低质量的数据导致低质量的数据挖掘。 2、数据预处理技术 (1)数据清理:可以用来清除数据中的噪声,纠正不一致。 (2)数据集成:将数据由多个数据源合并成一个一 阅读全文

posted @ 2019-04-15 22:47 嘣嘣嚓 阅读(10107) 评论(0) 推荐(0) 编辑

Sqoop-问题
摘要:1.权限问题 oozie调用sqoop时报错,解决:改所有者 2.少MySQL驱动包 sqoop时,应该是有的节点没有放mysql驱动连接jar,将mysql驱动包放入/usr/share/java/下(mysql-connector-java.jar) 阅读全文

posted @ 2019-04-15 18:39 嘣嘣嚓 阅读(866) 评论(0) 推荐(0) 编辑

分词工具比较及使用(ansj、hanlp、jieba)
摘要:一、分词工具 ansj、hanlp、jieba 二、优缺点 1.ansj 优点: 提供多种分词方式 可直接根据内部词库分出人名、机构等信息 可构造多个词库,在分词时可动态选择所要使用的词库缺点: 自定义词典时,系统词典还是被优先使用,导致词性不是自定义词典中的词性 多单词英文姓名无法分出适用场景 若 阅读全文

posted @ 2019-04-14 21:03 嘣嘣嚓 阅读(7659) 评论(0) 推荐(0) 编辑

数据挖掘-可挖掘的数据类型
摘要:可挖掘的数据类型 1. 数据库数据 数据库系统,也成数据库管理系统(DBMS),由一组内部相关的数据(称作数据库)和一组管理和存取数据的软件程序组成。关系数据库是表的汇集,每个表都被赋予一个唯一的名字。每个表都包含一组属性(列或字段),并且通常存放大量元组(记录或行)。关系表中的每个元组代表一个对象 阅读全文

posted @ 2019-04-09 22:19 嘣嘣嚓 阅读(745) 评论(0) 推荐(0) 编辑

数据挖掘-什么是数据挖掘
摘要:什么是数据挖掘 从数据中挖掘知识。知识的发现过程由以下步骤的迭代序列组成1. 数据清理(消除噪声和删除不一致数据)2. 数据集成(多种数据源可以组合在一起)3. 数据选择(从数据库中提取与分析任务先相关的数据)4. 数据变换(通过汇总或狙击操作,把数据变换和统一成适合挖掘的形式)5. 数据挖掘(基本 阅读全文

posted @ 2019-04-09 21:37 嘣嘣嚓 阅读(368) 评论(0) 推荐(0) 编辑

数据挖掘-为什么进行数据挖掘
摘要:为什么进行数据挖掘? 1. 进入信息时代(信息时代数据量暴增) 社会计算机化和功能强大的数据收集和存储工具导致数据的爆炸式增长;数据的爆炸式增长、广泛可用和巨大数量使得当前时代成为真正的数据时代;急需功能强大和通用的工具,以便从这些海量数据中发现有价值的信息,把这些数据转化成有组织的知识。 2. 数 阅读全文

posted @ 2019-04-08 22:20 嘣嘣嚓 阅读(1086) 评论(0) 推荐(0) 编辑

Sqoop-将MySQL数据导入到hive orc表
摘要:sqoop创建并导入数据到hive orc表 查看表结构 sqoop导入数据到已存在的hive orc表 sqoop导入数据(query)到已存在的hive orc表 字段说明 注:若不指定字段类型,MySQL中的varchar数据抽取至hive中也会是varchar类型,但是varchar类型在h 阅读全文

posted @ 2019-04-04 10:14 嘣嘣嚓 阅读(4948) 评论(0) 推荐(0) 编辑

导航

< 2025年2月 >
26 27 28 29 30 31 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 1
2 3 4 5 6 7 8
点击右上角即可分享
微信分享提示