基于机器学习和人工智能的数据质量测试工具
一、比较知名的工具(非完全免费)
-
Trifacta:Trifacta:是一种自动数据质量检测和数据预处理工具,它使用机器学习算法来自动识别数据中的潜在问题,并建议数据清理操作。
-
Talend Data Quality:Talend Data Quality是一种数据质量和数据清理工具,它使用机器学习算法来自动识别数据中的问题,并提供数据清理操作和数据验证功能。
-
Google Data Quality Scanner:Google Data Quality Scanner是一种基于机器学习的数据质量检测工具,它可以检测数据中的缺失值、异常值、重复值等问题,并提供数据清理建议。
-
IBM Watson Knowledge Catalog:IBM Watson Knowledge Catalog是一种数据管理平台,它使用机器学习算法来自动识别数据中的问题,并提供数据质量评分和数据清理建议。
-
DataRobot:DataRobot是一种自动化机器学习平台,它可以自动训练机器学习模型来检测数据中的潜在问题,并提供数据清理建议。
需要注意的是,这些工具并非完全免费,大多数提供了免费试用版或限制功能的免费版,完整的功能需要付费购买。
二、质量测试工具(免费)
-
Great Expectations:Great Expectations是一个开源的数据质量测试工具,使用了基于机器学习的数据质量自动化工作流程。它可以轻松地对数据进行验证、建模和监控。Great Expectations支持多种数据源,包括CSV、Excel、JSON和SQL数据库。此外,它也可以与Apache Spark和AWS Glue等大数据处理平台集成。
-
DataProfiler:DataProfiler是一个使用机器学习算法进行数据质量测试的开源工具,它可以检查数据集的一致性、完整性、准确性和规范性等方面。DataProfiler还提供了一个可视化的用户界面,可以轻松地查看数据质量报告和摘要信息。此外,它也支持与Jupyter Notebook集成,以便进行更高级的数据分析和可视化。
-
Deequ:Deequ是一个使用机器学习技术进行数据质量测试的开源工具,它是由Amazon Web Services (AWS)开发的。Deequ支持多种数据源,包括CSV、JSON、Apache Parquet和AWS Glue等。它可以检查数据集的完整性、一致性和准确性,并提供了一个可视化的用户界面来查看数据质量报告。
1.作者:Syw 2.出处:http://www.cnblogs.com/syw20170419/ 3.本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。 4.如果文中有什么错误,欢迎指出。以免更多的人被误导。 |
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?