摘要:
12 数据集成:这些大号一共20亿粉丝? kettle:将各种数据放到一个壶里,然后以一种指定的格式流出 DataX :DataX 可以实现跨平台、跨数据库、不同系统之间的数据同步及交互,它将自己作为标准,连接了不同的数据源,以完成它们之间的转换 Apache 的 Sqoop:Hadoop 和关系型 阅读全文
摘要:
11 数据科学家80%时间都花费在了这些清洗任务上? 没有高质量的数据,就没有高质量的数据挖掘,而数据清洗是高质量数据的一道保障。 数据质量的准则——完全合一 完整性:单条数据是否存在空值,统计的字段是否完善。 全面性:观察某一列的全部数值,比如在 Excel 表中,我们选中一列,可以看到该列的平均 阅读全文
摘要:
08 数据采集:如何自动化采集数据? 重点介绍爬虫做抓取 1.Python 爬虫 1)使用 Requests 爬取内容。我们可以使用 Requests 库来抓取网页信息。Requests 库可以说是 Python 爬虫的利器,也就是 Python 的 HTTP 库,通过这个库爬取网页中的数据,非常方 阅读全文