摘要: 12 数据集成:这些大号一共20亿粉丝? kettle:将各种数据放到一个壶里,然后以一种指定的格式流出 DataX :DataX 可以实现跨平台、跨数据库、不同系统之间的数据同步及交互,它将自己作为标准,连接了不同的数据源,以完成它们之间的转换 Apache 的 Sqoop:Hadoop 和关系型 阅读全文
posted @ 2021-01-16 16:12 foolangirl 阅读(400) 评论(0) 推荐(0) 编辑
摘要: 11 数据科学家80%时间都花费在了这些清洗任务上? 没有高质量的数据,就没有高质量的数据挖掘,而数据清洗是高质量数据的一道保障。 数据质量的准则——完全合一 完整性:单条数据是否存在空值,统计的字段是否完善。 全面性:观察某一列的全部数值,比如在 Excel 表中,我们选中一列,可以看到该列的平均 阅读全文
posted @ 2021-01-16 15:42 foolangirl 阅读(542) 评论(0) 推荐(0) 编辑
摘要: 08 数据采集:如何自动化采集数据? 重点介绍爬虫做抓取 1.Python 爬虫 1)使用 Requests 爬取内容。我们可以使用 Requests 库来抓取网页信息。Requests 库可以说是 Python 爬虫的利器,也就是 Python 的 HTTP 库,通过这个库爬取网页中的数据,非常方 阅读全文
posted @ 2021-01-16 12:22 foolangirl 阅读(1460) 评论(0) 推荐(0) 编辑