python有用的模块
ast: 用于解析字符串内容的python代码,分析其代码结构,是python内置模块。
json_repair: 一个轻量级的python第三方库,用于修复json字符串。
pdb: python内置debug模块,当有时候比如在linux服务器上调试代码,无法使用GUI客户端(比如pycharm, vscode)时,此时使用pdb模块将是一种有效的debug方法。
repair_json: python第三方库,用于修复json字符串里可能出现的不符合语法规则的部分
functools: python内置模块,功能相当于一些提前做好的装饰器,常用装饰器为 cache, wraps, partial
itertools: python内置模块,提供了很多用于处理迭代器的工具
operator: python内置模块,里面的itemgetter, attrgetter, methodcaller挺有用的,之前在langchain框架里接触到了itemgetter的用法。
abc: python内置模块,用于模拟实现其他语言(比如c#, java)里的抽象类和抽象方法。
Dask: 是一个用于并行计算的 Python 库,能够处理大于内存的数据集。它通过将数据分成较小的块(dask 数组和 dask 数据帧)并使用调度器在多核 CPU 或集群中并行执行计算。适合在单机上进行并行计算,也可以在集群上运行。可以无缝与 NumPy、Pandas 和 Scikit-Learn 等 Python 库集成,允许用户在现有的 Python 生态系统中使用。
PySpark: 是 Apache Spark 的 Python API,Spark 是一个强大的分布式计算框架,旨在快速处理大规模数据集。PySpark 使用户能够使用 Python 语言与 Spark 的强大功能进行交互。适用于处理大规模数据集的 ETL(提取、转换和加载)任务。适合在大规模集群上进行高效的分布式计算,特别是处理大数据和流数据的任务。
MarkupSafe: 第三方库, 可以将一些字符,尤其是"<",">"等字符安全的插入到html格式的内容中。内部提供了转义(escape)方法。