创建自己的数据集进行分析——Faker 库教程
创建自己的数据集进行分析——Faker 库教程
如果您曾经在您最喜欢的平台(例如 TikTok、Udemy 等)上看到大量有关数据分析的视频、博客文章或课程,建议保持不变,请学习技术技能、SQL、Excel、Tableau 等开,这是非常重要的,但是总是被搁置的一件事是你可以用来将你刚刚学到的东西付诸实践的数据。
果然有很多免费的在线数据集,例如 卡格尔 , 通常虽然可用的信息可能不完全适合您的测试用例或可能不包括您希望的所有功能, 一个例子是 数据集 在您可以找到信用卡欺诈信息的地方,由于支付卡保证 (PCA) 合规性以保护持卡人的私人信息,元数据已被遗漏,因此您的分析受到限制。
那么你可能想知道的答案是什么?别再犹豫了,Faker 库在这里为我们提供帮助!
A Javascript library to generate fake data ( 资源)
对于我的测试用例,我将对此表示赞赏 美国消费金融投诉 数据集包含由 Faker 生成的数据,该库具有 Python、Javascript 等可用的绑定。我将在这个实验中使用 Javascript。
查看数据集中的列标签,我发现我们有一些日期、投诉的唯一 ID、位置数据等。
Available information within the dataset
为了丰富数据并使分析更有趣,我还想添加以下列:
- 申报人的年龄。
- 全名。
- 对公司的满意度评分。
- 电子邮件地址。
- 电话号码。
下一步是浏览 Faker 的文档,看看哪些类和方法可以帮助我们实现目标。
简单看一下项目的 Github 存储库,就会发现我们可以生成的可用数据,甜!
Hello there! ( 资源)
浏览文档和我们设置的要求,我用 TypeScript 编写了以下代码并使用 NodeJS 运行它,这样它就可以为我们提供我想要的信息:
一旦脚本完成运行,只需将列数据复制并粘贴到 美国消费金融投诉 数据集,并将最终文件导入您最喜欢的可视化工具(Tableau、Power Bi 等)进行分析。
Hello there!
下一步
现在我们已经了解了如何使用 Faker 库来丰富您在网上找到的数据集的基础知识,您已经准备好开始利用这个库来创建练习可视化技能所需的信息。
我希望你喜欢这篇关于如何使用 Faker 的介绍!
如果您喜欢这篇文章,请继续关注,因为我目前正计划分享更多关于数据分析和电子的相关内容!
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明