摘要:
(base) [root@pyspark ~]# conda install TensorFlowCollecting package metadata (current_repodata.json): doneSolving environment: done ## Package Plan ## 阅读全文
随笔档案-2019年11月
Python lambda map filter reduce
2019-11-11 11:48 by DataBases, 217 阅读, 收藏, 编辑
摘要:
lambda可以理解为一个小的匿名函数,lambda函数可以使用任意数量的参数,但只能有一个表达式模板: lambda argument: manipulate(argument)参数:argument就是这个匿名函数传入的参数,冒号后面是我们对这个参数的操作方法numbers = [1,2,3,4 阅读全文
Hadoop Python MapReduce
2019-11-09 23:56 by DataBases, 346 阅读, 收藏, 编辑
摘要:
环境:Linux + hadoop python3 需要注意python不同版本的语法; 解决的问题:对文本文件进行词频统计; hadoop mapreduce计算流程 inputdata->HDFS ->datasplit ->map-(shuffer&sort)->reudce->output( 阅读全文
Python faker生成数据
2019-11-09 11:29 by DataBases, 1466 阅读, 收藏, 编辑
摘要:
https://faker.readthedocs.io/en/master/locales.html Faker是一个Python包,开源的GITHUB项目,主要用来创建伪数据,使用Faker包,无需再手动生成或者手写随机数来生成数据,只需要调用Faker提供的方法,即可完成数据的生成。 http 阅读全文
Pandas数据清洗
2019-11-09 09:54 by DataBases, 412 阅读, 收藏, 编辑
摘要:
删除多列 在进行数据分析时,并非所有的列都有用,用df.drop可以方便地删除你指定的列。 def drop_multiple_col(col_names_list, df): INPUT -> List of column names, df OUTPUT -> updated df with d 阅读全文