foolangirl - 博客园

2021年1月25日

摘要： os.system 这个调用相当直接，且是同步进行的，程序需要阻塞并等待返回。返回值是依赖于系统的，直接返回系统的调用返回值. os.popen() os.popen(command[,mode[,bufsize]]),图中是一个例子. 可以看出，popen方法通过p.read()获取终端输出，而且阅读全文

posted @ 2021-01-25 20:42 foolangirl 阅读(249) 评论(0) 推荐(0)

Hive学习小记-（17）inline(array(struct))与explode

摘要： inline 前情提要：inline无法作用于map,array(map) 关于inline：在横表纵表转换一节已经试过，map无法使用inline；在这里将map转成array，发现还是无法用inline，看来inline只适用array(struct)格式； # map转array，还是不能用阅读全文

posted @ 2021-01-25 20:18 foolangirl 阅读(2358) 评论(0) 推荐(0)

Hive学习小记-（16）hive加载解析json文件

摘要： json文件hive解析落表不同于Hive学习小记-（5）表字段变动频繁时用json格式那种简单存成string再解析，参考： https://www.cnblogs.com/30go/p/8328869.html https://blog.csdn.net/lsr40/article/deta 阅读全文

posted @ 2021-01-25 19:04 foolangirl 阅读(1015) 评论(0) 推荐(0)

2021年1月24日

Hive学习小记-（15）transform函数

摘要：可以参考的一些帖子： https://www.imooc.com/article/50825 https://blog.csdn.net/lidongmeng0213/article/details/110878902 https://www.cnblogs.com/songweideboke/p/ 阅读全文

posted @ 2021-01-24 15:12 foolangirl 阅读(740) 评论(0) 推荐(0)

2021年1月23日

Hive学习小记-（14）如何写SQL求出中位数平均数和众数（count 之外的方法）

摘要：平均数中位数众数平均数、中位数、众数都是度量一组数据集中趋势的统计量。所谓集中趋势是指一组数据向某一中心值靠拢的倾向，测度集中趋势就是寻找数据一般水平的代表值或中心值。而这三个特征数又各有特点，能够从不同的角度提供信息。平均数特点：计算用到所有的数据，它能够充分利用数据提供的信息，它具有优秀的阅读全文

posted @ 2021-01-23 19:58 foolangirl 阅读(10905) 评论(0) 推荐(0)

2021年1月19日

数据分析实战（14-16）-数据可视化

摘要： 14丨数据可视化：掌握数据领域的万金油技能可视化视图超过 20 种，分别包括：文本表、热力图、地图、符号地图、饼图、水平条、堆叠条、并排条、树状图、圆视图、并排圆、线、双线、面积图、双组合、散点图、直方图、盒须图、甘特图、靶心图、气泡图等 15丨一次学会Python数据可视化的10种技能散点图、阅读全文

posted @ 2021-01-19 22:47 foolangirl 阅读(188) 评论(0) 推荐(0)

2021年1月18日

数据分析实战（13）-数据变换

摘要： 13 数据变换：考试成绩要求正态分布合理么？数据变换是数据准备的重要环节，它通过数据平滑、数据聚集、数据概化和规范化等方式将数据转换成适用于数据挖掘的形式。常见的变换方法： 1）数据平滑；2）数据聚集；3）数据概化；4）数据规范化；5）属性构造其中数据规范化可以通过sklearn库实现阅读全文

posted @ 2021-01-18 23:08 foolangirl 阅读(558) 评论(0) 推荐(0)

2021年1月16日

数据分析实战（12）-数据集成(kettle/dataX/sqoop)

摘要： 12 数据集成：这些大号一共20亿粉丝？ kettle：将各种数据放到一个壶里，然后以一种指定的格式流出 DataX ：DataX 可以实现跨平台、跨数据库、不同系统之间的数据同步及交互，它将自己作为标准，连接了不同的数据源，以完成它们之间的转换 Apache 的 Sqoop：Hadoop 和关系型阅读全文

posted @ 2021-01-16 16:12 foolangirl 阅读(449) 评论(0) 推荐(0)

数据分析实战（11）-数据清洗(使用pandas)

摘要： 11 数据科学家80%时间都花费在了这些清洗任务上？没有高质量的数据，就没有高质量的数据挖掘，而数据清洗是高质量数据的一道保障。数据质量的准则——完全合一完整性：单条数据是否存在空值，统计的字段是否完善。全面性：观察某一列的全部数值，比如在 Excel 表中，我们选中一列，可以看到该列的平均阅读全文

posted @ 2021-01-16 15:42 foolangirl 阅读(695) 评论(0) 推荐(0)

数据分析实战（8-10）-数据采集简介&八爪鱼采集工具&python爬虫

摘要： 08 数据采集：如何自动化采集数据？重点介绍爬虫做抓取 1.Python 爬虫 1）使用 Requests 爬取内容。我们可以使用 Requests 库来抓取网页信息。Requests 库可以说是 Python 爬虫的利器，也就是 Python 的 HTTP 库，通过这个库爬取网页中的数据，非常方阅读全文

posted @ 2021-01-16 12:22 foolangirl 阅读(1626) 评论(0) 推荐(0)

x_lulu

公告