2020年1月7日

Postgres-存储过程 return 详解

摘要：如果返回一个数字或者字符比较简单，那么多行多列怎么办呢，分为以下几种情况【东西很多，这里只做简单列举】返回多行单列又分为几种方式 1. return next，用在 for 循环中 CREATE OR REPLACE FUNCTION funcname ( in_id integer) R 阅读全文

posted @ 2020-01-07 17:31 努力的孔子阅读(6893) 评论(0) 推荐(0) 编辑

2020年1月3日

吴恩达读书笔记【2】-学习曲线

摘要：之前我写过一篇博客学习曲线，解释的还算清楚，但是读了吴恩达的书，又有些新的体会，主要是把学习曲线和偏差方差结合起来，进行模型优化分析学习曲线解读那么问题来了，最优错误率从何而来？一般我们是不好确定的，故我们可以把测试集和训练集误差间距较小时，定为最优样本量参考资料：吴恩达：完阅读全文

posted @ 2020-01-03 16:03 努力的孔子阅读(417) 评论(0) 推荐(0) 编辑

2020年1月2日

Postgres-日期型数据

摘要：日期型数据不必更多描述，直奔主题吧 cast：字符转换成日期 select cast('20190101' as date)； -- 输出 "2019-01-01" select '20190101'::date; -- 输出 "2019-01-01" age：日期相减两个参数：两日期相减 SEL 阅读全文

posted @ 2020-01-02 13:49 努力的孔子阅读(1271) 评论(1) 推荐(0) 编辑

2019年12月30日

吴恩达读书笔记【1】-偏差与方差

摘要：之前我写过一篇博客偏差与方差，解释的还算清楚，但是读了吴恩达的书，又有些新的体会，这里稍作记录误差的来源：偏差与方差首先思考一个问题问：如果数据独立同分布，尝试获取足够多的数据，就能提升模型的性能，对吗？答：获取更多的数据是无害的，但是对于模型的提升，却不一定有很大帮助，有时候获取更多数阅读全文

posted @ 2019-12-30 14:29 努力的孔子阅读(409) 评论(0) 推荐(0) 编辑

2019年12月25日

spark教程-Pyspark On Yarn 的模块依赖问题

摘要：原理简述 Yarn 模式是把资源统一交给 Yarn 集群来管理，其优点在于实现了 application 的多样性，如 MapReduce 程序、HBase 集群、Storm 集群、spark 集群等； Yarn 模式有两种运行模式：client 和 cluster，区别在于 client 模式的阅读全文

posted @ 2019-12-25 14:04 努力的孔子阅读(7284) 评论(2) 推荐(2) 编辑

2019年12月24日

Python 创建 virtualenv 虚拟环境及 PyCharm 创建 virtualenv 虚拟环境

摘要：虚拟环境虚拟环境就是创建一个隔离的 python 环境，在这个环境里可以安装 python 所需的各种包，并使得这些包与系统里的 python 不相干；常用于版本管理；手动创建 Virtualenv 环境本文以 linux 系统为例，windows 大同小异，掌握精髓首先，安装 vi 阅读全文

posted @ 2019-12-24 15:52 努力的孔子阅读(888) 评论(0) 推荐(0) 编辑

2019年12月20日

spark机器学一Mllib 数据抽象

摘要： spark 提供了两个机器学习库 MLlib 和 ML，MLlib 是 spark 第一个机器学习库，相比于 ML，它更加成熟 rdd 是 spark core 的数据抽象，dataframe 是 sparkSQL 的数据抽象，而 MLib 的数据抽象包括 Vector、LabeledPoint、阅读全文

posted @ 2019-12-20 17:24 努力的孔子阅读(996) 评论(0) 推荐(0) 编辑

PostgreSQL-存储过程(一)基础篇

摘要：存储过程其实就是函数，由一组 sql 语句组成，实现比较复杂的数据库操作；存储过程是存储在数据库服务器上的，用户可以像调用 sql 自带函数一样调用存储过程语法解析 CREATE [OR REPLACE] FUNCTION function_name (arguments) RETUR 阅读全文

posted @ 2019-12-20 11:15 努力的孔子阅读(37729) 评论(0) 推荐(3) 编辑

2019年12月19日

spark调优篇-oom 优化(汇总)

摘要： spark 之所以需要调优，一是代码执行效率低，二是经常 OOM 内存溢出内存溢出无非两点： 1. Driver 内存不够 2. Executor 内存不够 Driver 内存不够无非两点： 1. 读取数据太大 2. 数据回传 Executor 内存不够无非两点： 1. map 类操作产生大量数据阅读全文

posted @ 2019-12-19 17:46 努力的孔子阅读(4587) 评论(0) 推荐(1) 编辑

2019年12月18日

spark调优篇-数据倾斜(汇总)

摘要：数据倾斜为什么会数据倾斜 spark 中的数据倾斜并不是说原始数据存在倾斜，原始数据都是一个一个的 block，大小都一样，不存在数据倾斜；而是指 shuffle 过程中产生的数据倾斜，由于不同的 key 对应的数据量不同导致不同 task 处理的数据量不同注意：数据倾斜与数据过量不同，数据倾阅读全文

posted @ 2019-12-18 16:08 努力的孔子阅读(5331) 评论(0) 推荐(3) 编辑