12 2019 档案

摘要:坑: Spark Xgboost 对 spark的dataframe 的空值非常敏感,如果dataframe里有空值(null , “NaN”),xgboost就会报错。 Spark2.4.4 的 Vector Assemble转换dataframe以后,对于0很多的行,会默认转成sparse ve 阅读全文
posted @ 2019-12-30 18:01 爱知菜 阅读(42) 评论(0) 推荐(0) 编辑
摘要:参考xgboost官网文章: https://xgboost.readthedocs.io/en/latest/jvm/xgboost4j_spark_tutorial.html Parallel/Distributed Training The massive size of training d 阅读全文
posted @ 2019-12-26 14:43 爱知菜 阅读(83) 评论(0) 推荐(0) 编辑
摘要:最近发现spark的一个坑(发现时spark最新为2.4.4版本),spark对parquet格式有特殊要求,不支持带“uint8”类型的parquet https://github.com/apache/arrow/issues/1470 如何使用pyarrow把一个parquet转换一下呢? i 阅读全文
posted @ 2019-12-06 18:43 爱知菜 阅读(57) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示