摘要: 文章转载自microstrong的深入理解XGBoost 1. XGBoost简介 XGBoost的全称是eXtreme Gradient Boosting,它是经过优化的分布式梯度提升库,旨在高效、灵活且可移植。XGBoost是大规模并行boosting tree的工具,它是目前最快最好的开源 b 阅读全文
posted @ 2022-02-14 16:37 hgz_dm 阅读(2409) 评论(0) 推荐(0) 编辑
摘要: 文章转载自https://zhuanlan.zhihu.com/p/81016622 1. GBDT简介 Boosting、Bagging和Stacking是集成学习(Ensemble Learning)的三种主要方法。Boosting是一族可将弱学习器提升为强学习器的算法,不同于Bagging、S 阅读全文
posted @ 2022-02-10 19:28 hgz_dm 阅读(834) 评论(0) 推荐(0) 编辑
摘要: 摘要 Spark2.0 推出了一个新功能pandas_udf,本文结合spark 官方文档和自己的使用情况,讲解pandas udf的基本知识,并添加实例,方便初学的同学快速上手和理解。 Apche Arrow ApacheArrow 是一种内存中的列式数据格式,用于在 Spark 中 JVM 和 阅读全文
posted @ 2021-12-21 19:55 hgz_dm 阅读(1184) 评论(0) 推荐(0) 编辑
摘要: 实验是最能定义数据科学家日常生活的词。为了为给定的问题构建一个合适的机器学习模型,数据科学家需要训练多个模型。此过程包括诸如寻找模型的最佳超参数、使用 K 折交叉验证模型,有时甚至训练具有多个输出的模型等任务。前面提到的所有这些任务都很耗时,但对于模型开发的成功来说却极为重要。在这篇博文中,我们将展 阅读全文
posted @ 2021-12-20 20:50 hgz_dm 阅读(1380) 评论(0) 推荐(1) 编辑
摘要: 文章转载自《必须了解的PySpark 的背后原理》 Spark主要是由Scala语言开发,为了方便和其他系统集成而不引入scala相关依赖,部分实现使用Java语言开发,例如External Shuffle Service等。总体来说,Spark是由JVM语言实现,会运行在JVM中。然而,Spark 阅读全文
posted @ 2021-12-14 20:10 hgz_dm 阅读(949) 评论(0) 推荐(0) 编辑
摘要: 文章转载自python基础(5):深入理解 python 中的赋值、引用、拷贝、作用域 python的赋值 在 python 中赋值语句总是建立对象的引用值,而不是复制对象。因此,python 变量更像是指针,而不是数据存储区域,这点和大多数 OO 语言类似吧,比如 C++、java 等 ~ 先来看 阅读全文
posted @ 2020-12-07 20:03 hgz_dm 阅读(448) 评论(0) 推荐(0) 编辑
摘要: 参考文献 1.双数组字典树(DATrie)详解及实现 2.小白详解Trie树 3.论文《基于双数组Trie树算法的字典改进和实现》 DAT的基本内容介绍这里就不展开说了,从Trie过来的同学应该比较熟悉,Trie对内存的消耗比较大,DAT正是为了优化该问题而提出。此文重点说一下如何去理解DAT的ba 阅读全文
posted @ 2020-11-18 14:07 hgz_dm 阅读(2415) 评论(0) 推荐(0) 编辑
摘要: 文章转载自https://www.infoq.cn/article/database-timestamp-03 加载 如何利用索引和主存储,是一种两难的选择。 选择不使用索引,只使用主存储:除非查询的字段就是主存储的排序字段,否则就需要顺序扫描整个主存储。 选择使用索引,然后用找到的 row id 阅读全文
posted @ 2020-06-04 19:28 hgz_dm 阅读(384) 评论(0) 推荐(0) 编辑
摘要: 文章转载自https://www.infoq.cn/article/database-timestamp-02 如何快速检索? Elasticsearch 是通过 Lucene 的倒排索引技术实现比关系型数据库更快的过滤。特别是它对多条件的过滤支持非常好,比如年龄在 18 和 30 之间,性别为女性 阅读全文
posted @ 2020-06-04 19:26 hgz_dm 阅读(300) 评论(0) 推荐(0) 编辑
摘要: 文章转载自https://www.infoq.cn/article/database-timestamp-01 什么是时间序列数据?最简单的定义就是数据格式里包含 timestamp 字段的数据。比如股票市场的价格,环境中的温度,主机的 CPU 使用率等。但是又有什么数据是不包含 timestamp 阅读全文
posted @ 2020-06-04 19:24 hgz_dm 阅读(245) 评论(0) 推荐(0) 编辑