摘要: os.system 这个调用相当直接,且是同步进行的,程序需要阻塞并等待返回。返回值是依赖于系统的,直接返回系统的调用返回值. os.popen() os.popen(command[,mode[,bufsize]]),图中是一个例子. 可以看出,popen方法通过p.read()获取终端输出,而且 阅读全文
posted @ 2021-01-25 20:42 foolangirl 阅读(232) 评论(0) 推荐(0) 编辑
摘要: inline 前情提要:inline无法作用于map,array(map) 关于inline:在横表纵表转换一节已经试过,map无法使用inline; 在这里将map转成array,发现还是无法用inline,看来inline只适用array(struct)格式; # map转array,还是不能用 阅读全文
posted @ 2021-01-25 20:18 foolangirl 阅读(2049) 评论(0) 推荐(0) 编辑
摘要: json文件hive解析落表 不同于Hive学习小记-(5)表字段变动频繁时用json格式 那种简单存成string再解析,参考: https://www.cnblogs.com/30go/p/8328869.html https://blog.csdn.net/lsr40/article/deta 阅读全文
posted @ 2021-01-25 19:04 foolangirl 阅读(891) 评论(0) 推荐(0) 编辑
摘要: 可以参考的一些帖子: https://www.imooc.com/article/50825 https://blog.csdn.net/lidongmeng0213/article/details/110878902 https://www.cnblogs.com/songweideboke/p/ 阅读全文
posted @ 2021-01-24 15:12 foolangirl 阅读(655) 评论(0) 推荐(0) 编辑
摘要: 平均数中位数众数 平均数、中位数、众数都是度量一组数据集中趋势的统计量。所谓集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势就是寻找数据一般水平的代表值或中心值。而这三个特征数又各有特点,能够从不同的角度提供信息。 平均数 特点:计算用到所有的数据,它能够充分利用数据提供的信息,它具有优秀的 阅读全文
posted @ 2021-01-23 19:58 foolangirl 阅读(10107) 评论(0) 推荐(0) 编辑
摘要: 14丨数据可视化:掌握数据领域的万金油技能 可视化视图超过 20 种,分别包括:文本表、热力图、地图、符号地图、饼图、水平条、堆叠条、并排条、树状图、圆视图、并排圆、线、双线、面积图、双组合、散点图、直方图、盒须图、甘特图、靶心图、气泡图等 15丨一次学会Python数据可视化的10种技能 散点图、 阅读全文
posted @ 2021-01-19 22:47 foolangirl 阅读(176) 评论(0) 推荐(0) 编辑
摘要: 13 数据变换:考试成绩要求正态分布合理么? 数据变换是数据准备的重要环节,它通过数据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式。 常见的变换方法: 1)数据平滑;2)数据聚集;3)数据概化;4)数据规范化;5)属性构造 其中数据规范化可以通过sklearn库实现 阅读全文
posted @ 2021-01-18 23:08 foolangirl 阅读(418) 评论(0) 推荐(0) 编辑
摘要: 12 数据集成:这些大号一共20亿粉丝? kettle:将各种数据放到一个壶里,然后以一种指定的格式流出 DataX :DataX 可以实现跨平台、跨数据库、不同系统之间的数据同步及交互,它将自己作为标准,连接了不同的数据源,以完成它们之间的转换 Apache 的 Sqoop:Hadoop 和关系型 阅读全文
posted @ 2021-01-16 16:12 foolangirl 阅读(400) 评论(0) 推荐(0) 编辑
摘要: 11 数据科学家80%时间都花费在了这些清洗任务上? 没有高质量的数据,就没有高质量的数据挖掘,而数据清洗是高质量数据的一道保障。 数据质量的准则——完全合一 完整性:单条数据是否存在空值,统计的字段是否完善。 全面性:观察某一列的全部数值,比如在 Excel 表中,我们选中一列,可以看到该列的平均 阅读全文
posted @ 2021-01-16 15:42 foolangirl 阅读(541) 评论(0) 推荐(0) 编辑
摘要: 08 数据采集:如何自动化采集数据? 重点介绍爬虫做抓取 1.Python 爬虫 1)使用 Requests 爬取内容。我们可以使用 Requests 库来抓取网页信息。Requests 库可以说是 Python 爬虫的利器,也就是 Python 的 HTTP 库,通过这个库爬取网页中的数据,非常方 阅读全文
posted @ 2021-01-16 12:22 foolangirl 阅读(1457) 评论(0) 推荐(0) 编辑