// // // //
上一页 1 ··· 17 18 19 20 21 22 23 24 25 ··· 41 下一页

2020年1月7日

摘要: 如果返回一个 数字或者字符 比较简单,那么多行多列怎么办呢,分为以下几种情况 【东西很多,这里只做简单列举】 返回多行单列 又分为几种方式 1. return next,用在 for 循环中 CREATE OR REPLACE FUNCTION funcname ( in_id integer) R 阅读全文
posted @ 2020-01-07 17:31 努力的孔子 阅读(6893) 评论(0) 推荐(0) 编辑
 

2020年1月3日

摘要: 之前我写过一篇博客 学习曲线,解释的还算清楚, 但是读了吴恩达的书,又有些新的体会,主要是把 学习曲线 和 偏差方差 结合起来,进行模型优化分析 学习曲线解读 那么问题来了,最优错误率从何而来?一般我们是不好确定的,故我们可以把 测试集和训练集 误差间距较小时,定为最优样本量 参考资料: 吴恩达:完 阅读全文
posted @ 2020-01-03 16:03 努力的孔子 阅读(417) 评论(0) 推荐(0) 编辑
 

2020年1月2日

摘要: 日期型数据不必更多描述,直奔主题吧 cast:字符转换成日期 select cast('20190101' as date); -- 输出 "2019-01-01" select '20190101'::date; -- 输出 "2019-01-01" age:日期相减 两个参数:两日期相减 SEL 阅读全文
posted @ 2020-01-02 13:49 努力的孔子 阅读(1271) 评论(1) 推荐(0) 编辑
 

2019年12月30日

摘要: 之前我写过一篇博客 偏差与方差,解释的还算清楚, 但是读了吴恩达的书,又有些新的体会,这里稍作记录 误差的来源:偏差与方差 首先思考一个问题 问:如果数据独立同分布,尝试获取足够多的数据,就能提升模型的性能,对吗? 答:获取更多的数据是无害的,但是对于模型的提升,却不一定有很大帮助,有时候获取更多数 阅读全文
posted @ 2019-12-30 14:29 努力的孔子 阅读(409) 评论(0) 推荐(0) 编辑
 

2019年12月25日

摘要: 原理简述 Yarn 模式是把资源统一交给 Yarn 集群来管理,其优点在于实现了 application 的多样性,如 MapReduce 程序、HBase 集群、Storm 集群、spark 集群等; Yarn 模式有两种运行模式:client 和 cluster,区别在于 client 模式的 阅读全文
posted @ 2019-12-25 14:04 努力的孔子 阅读(7284) 评论(2) 推荐(2) 编辑
 

2019年12月24日

摘要: 虚拟环境 虚拟环境就是创建一个 隔离 的 python 环境,在这个环境里可以安装 python 所需的各种包,并使得这些包与 系统里的 python 不相干; 常用于版本管理; 手动创建 Virtualenv 环境 本文以 linux 系统为例,windows 大同小异,掌握精髓 首先,安装 vi 阅读全文
posted @ 2019-12-24 15:52 努力的孔子 阅读(888) 评论(0) 推荐(0) 编辑
 

2019年12月20日

摘要: spark 提供了两个机器学习库 MLlib 和 ML,MLlib 是 spark 第一个机器学习库,相比于 ML,它更加成熟 rdd 是 spark core 的数据抽象,dataframe 是 sparkSQL 的数据抽象, 而 MLib 的数据抽象包括 Vector、LabeledPoint、 阅读全文
posted @ 2019-12-20 17:24 努力的孔子 阅读(996) 评论(0) 推荐(0) 编辑
 
摘要: 存储过程其实就是函数,由一组 sql 语句组成,实现比较复杂的数据库操作; 存储过程 是 存储在 数据库服务器 上的,用户可以像调用 sql 自带函数一样 调用存储过程 语法解析 CREATE [OR REPLACE] FUNCTION function_name (arguments) RETUR 阅读全文
posted @ 2019-12-20 11:15 努力的孔子 阅读(37729) 评论(0) 推荐(3) 编辑
 

2019年12月19日

摘要: spark 之所以需要调优,一是代码执行效率低,二是经常 OOM 内存溢出 内存溢出无非两点: 1. Driver 内存不够 2. Executor 内存不够 Driver 内存不够无非两点: 1. 读取数据太大 2. 数据回传 Executor 内存不够无非两点: 1. map 类操作产生大量数据 阅读全文
posted @ 2019-12-19 17:46 努力的孔子 阅读(4587) 评论(0) 推荐(1) 编辑
 

2019年12月18日

摘要: 数据倾斜 为什么会数据倾斜 spark 中的数据倾斜并不是说原始数据存在倾斜,原始数据都是一个一个的 block,大小都一样,不存在数据倾斜; 而是指 shuffle 过程中产生的数据倾斜,由于不同的 key 对应的数据量不同导致不同 task 处理的数据量不同 注意:数据倾斜与数据过量不同,数据倾 阅读全文
posted @ 2019-12-18 16:08 努力的孔子 阅读(5331) 评论(0) 推荐(3) 编辑
 
上一页 1 ··· 17 18 19 20 21 22 23 24 25 ··· 41 下一页