12 2019 档案
摘要:坑: Spark Xgboost 对 spark的dataframe 的空值非常敏感,如果dataframe里有空值(null , “NaN”),xgboost就会报错。 Spark2.4.4 的 Vector Assemble转换dataframe以后,对于0很多的行,会默认转成sparse ve
阅读全文
摘要:参考xgboost官网文章: https://xgboost.readthedocs.io/en/latest/jvm/xgboost4j_spark_tutorial.html Parallel/Distributed Training The massive size of training d
阅读全文
摘要:最近发现spark的一个坑(发现时spark最新为2.4.4版本),spark对parquet格式有特殊要求,不支持带“uint8”类型的parquet https://github.com/apache/arrow/issues/1470 如何使用pyarrow把一个parquet转换一下呢? i
阅读全文