2020年9月6日

KUDU 学习笔记

摘要: Kudu 现存系统针对结构化数据存储与查询的一些痛点问题,结构化数据的存储,通常包含如下两种方式: 静态数据通常以Parquet/Carbon/Avro形式直接存放在HDFS中,吞吐能力大,适合离线分析,随机读写能力差,难以支持单条记录级别的更新。 可变数据的存储通常选择面向列族的HBase或者Ca 阅读全文

posted @ 2020-09-06 20:50 淡如清风 阅读(298) 评论(0) 推荐(0) 编辑

2016年6月3日

Spring MVC配置

摘要: 一个简单的Spring MVC项目 1)引入jar包,并/WEB-INF中添加web.xml文件 引入包:把spring-framework-3.2.5.RELEASE/libs中的jar包全部jar包复制到项目的WebContent/WEB-INF/lib目录中即可。 <?xml version= 阅读全文

posted @ 2016-06-03 14:43 淡如清风 阅读(152) 评论(0) 推荐(0) 编辑

2015年10月30日

随机森林

摘要: 随机森林决策树主要流行的算法有ID3算法,C4.5算法、CART算法,主要花费时间在建决策树和剪枝过程中,但一旦建成决策树,由于他是树形结构能够直观的显示出模型,而且在后期的分类过程中也比较容易分类,但决策树有一些不好的地方,比如容易过拟合。为了减少决策树的不足,近年来又提出了许多模型组和+决策树的... 阅读全文

posted @ 2015-10-30 17:10 淡如清风 阅读(914) 评论(0) 推荐(0) 编辑

2015年10月28日

数据预处理技术

摘要: 数据预处理技术数据清理:空缺值处理、格式标准化、异常数据清除、错误纠正、重复数据的清除数据集成:将多个数据源中的数据结合起来并统一存储,建立数据仓库的过程实际上就是数据集成。数据变换:平滑、聚集、规范化、最小 最大规范化等数据归约:维归(删除不相关的属性(维))、数据压缩(PCA,LDA,SVD、小... 阅读全文

posted @ 2015-10-28 20:29 淡如清风 阅读(5997) 评论(0) 推荐(1) 编辑

正则化

摘要: 正则化(避免过拟合)如何解决过拟合问题:过拟合问题往往源自过多的特征,通常会考虑两种途径来解决:a) 减少特征的数量:-人工的选择保留哪些特征;-模型选择算法(之后的课程会介绍)b) 正则化-保留所有的特征,但是降低未知量的系数值;-正则化的好处是当特征很多时,每一个特征都会对预测y贡献一份合适的力... 阅读全文

posted @ 2015-10-28 15:36 淡如清风 阅读(1677) 评论(0) 推荐(0) 编辑

2015年10月2日

数据库的优化

摘要: 数据库的优化1).SQL语句优化a应尽量避免在 where 子句中使用!=或操作符,否则将引擎放弃使用索引而进行全表扫描。b应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:select id from t where num is null... 阅读全文

posted @ 2015-10-02 15:42 淡如清风 阅读(218) 评论(0) 推荐(0) 编辑

SQL常用命令

摘要: SQL常用命令表的操作//建表CREATE TABLE 表名(属性 数据类型 约束条件,NAME VARCHAR2(50) NOT NULL);//修改表名:ALTER TABLE 原来的表名TO现在的表名;//修改列名EXEC sp_rename '表名.[原列名]', '新列名', 'colum... 阅读全文

posted @ 2015-10-02 11:18 淡如清风 阅读(239) 评论(0) 推荐(0) 编辑

SQL连接(内连接、外连接、交叉连接)

摘要: SQL连接(内连接、外连接、交叉连接)假设现在有两个表:table1 , table2 table1: table2 : id name id score 1 lee 1 90 2 zhang 2 100 4 wang 3 70 表的连接是针对列(属性),将两个表通过某种规则将两个表进行连接起来... 阅读全文

posted @ 2015-10-02 10:29 淡如清风 阅读(316) 评论(0) 推荐(0) 编辑

2015年9月30日

volatile

摘要: volatile在编译器编译代码时候,一般都会作些减少存取内存的优化,但有可能会读脏数据,比如int *ip =...; //设备地址*ip = 1; //第一个指令*ip = 2; //第二个指令以上程序compiler可能做优化而成:int *ip = ...;*ip = 2;结果第一个指令丢失... 阅读全文

posted @ 2015-09-30 11:02 淡如清风 阅读(308) 评论(0) 推荐(0) 编辑

2015年9月25日

设计模式精髓—封装变化

摘要: 设计模式精髓—封装变化模式,是为了需求变动而产生,抛开需求谈模式,显得很苍白。无论是创建型模式、结构型模式还是行为型模式,归根结底都是寻找软件中可能存在的“变化”,然后利用抽象的方式对这些变化进行封装。由于抽象没有具体的实现,就代表了一种无限的可能性,使得其扩展成为了可能。创建型模式的目的就是封装对... 阅读全文

posted @ 2015-09-25 16:53 淡如清风 阅读(2084) 评论(2) 推荐(0) 编辑

导航