12 2024 档案
摘要:在数据分析具体项目中,表命名往往是一项颇具挑战性的任务。尤其当项目时间紧迫时,如何为不同应用场景下的各类数据表进行合理命名,着实让人抓耳挠腮。我们平时工作总使用的是TIDB,在此,结合工作中的一些实践,期望能为读者提供一些有益的帮助。 1. 分层命名规范 1.1. 分层命名规则 在数据仓库的构建过程
阅读全文
摘要:做好Python环境的包版本管理对于确保项目的稳定性、可重复性和可维护性至关重要。以下是我平时采取的一些方法,期望对读者有所帮助: 1. 使用虚拟环境 虚拟环境是实现包版本管理的重要基础,它可以隔离不同项目的运行环境,避免包版本冲突。我平时主要使用conda来管理虚拟环境。 先在测试环境部署一套跟b
阅读全文
摘要:Python和MySQL常用时间格式化异同 1. Python时间格式化 Python的 datetime和time模块有一些常用的格式化形式,具体如下。 %Y:四位数的年份,如 2023。 %m:两位数的月份(01 - 12)。 %d:两位数的日期(01 - 31)。 %H:24小时制的小时数(0
阅读全文
摘要:pip 是Python中用于安装和管理软件包的工具。pip 最初是作为 setuptools 项目的一部分而开发的,其目的是为了简化Python软件包的安装过程。随着Python的广泛应用,pip 也不断发展完善,如今已成为Python社区中安装软件包的重要工具。以下是工作中常用到的一些pip命令,
阅读全文
摘要:1. 简介 分箱是一种数据处理技术,通过将数据划分为不同的区间或“箱子”,以实现数据的离散化。分箱在数据预处理和特征工程中扮演着至关重要的角色,它不仅能够增强模型的稳定性和解释性,降低过拟合风险,还能够提高特征的鲁棒性和表达能力。在构建机器学习模型时,合理地运用分箱技术对于提升模型性能至关重要。同时
阅读全文
摘要:在数据科学和工程领域,SQLAlchemy和Pandas是两个极其常用的Python库。SQLAlchemy是一个强大的SQL工具包和对象关系映射(ORM)库,而Pandas则是数据处理和分析的必备工具。然而,在使用这两个库进行数据库操作时,特别是当它们的版本之间存在较大差异时,你可能会遇到一些字符
阅读全文
摘要:1. Parquet简介 Parquet是一种开放的列式存储格式,旨在提高大数据处理和分析的效率。 Parquet由Twitter和Cloudera合作开发,并于2015年5月从Apache的孵化器项目毕业,成为Apache的顶级项目。 Parquet旨在高效存储和处理大规模数据集,广泛应用于Had
阅读全文