【机器学习实战】计算两个矩阵的成对距离(pair-wise distances)

矩阵中每一行是一个样本,计算两个矩阵样本之间的距离,即成对距离(pair-wise distances),可以采用 sklearn 或 scipy 中的函数,方便计算。

sklearn: sklearn.metrics.pairwise_distances

scipy: scipy.spatial.distance_matrix(用于 p-norm) 或 scipy.spatial.distance.cdist(所有常用距离 metrics)

比较三者的运行时间:(都计算欧式距离)

复制import numpy as np
from sklearn.metrics import pairwise_distances
from scipy.spatial import distance_matrix
from scipy.spatial.distance import cdist

# 10-dimensional features
x = np.random.rand(400000).reshape((-1, 10))
y = np.random.rand(45000).reshape((-1, 10))

def option1():
    dists = pairwise_distances(x, y)

def option2():
    dists = distance_matrix(x, y)

def option3():
    dists = cdist(x, y)

使用 pycharm 在 console 里用 timeit 查看运行时间,可以发现 scipy 的 scipy.spatial.distance.cdist 函数运行时间最短,sklearn.metrics.pairwise_distances 次之,scipy.spatial.distance_matrix 运行时间最长。

sklearn 在运行时,pairwise_distances 会占用大量 CPU 资源,在 linux 服务器上跑,32 个 CPU 核会都占满,这是由于 pairwise_distances 并行造成的,生成的大量子进程会占满所有 CPU 资源,即使设置 n_jobs = 1,也会有 31 个子进程生成。可能的原因是并行的最大进程数自动设置成了 max(cpu_count() // effective_n_jobs, 1),详情请看 sklearn.utils.parallel_backend — scikit-learn 0.22

scipy 的 cdist 函数又快,又没有 sklearn 的 pairwise_distances 占 CPU,计算成对距离,请用 scipy.spatial.distance.cdist

References

sklearn.metrics.pairwise_distances -- scikit-learn
sklearn.utils.parallel_backend — scikit-learn 0.22
scipy.spatial.distance_matrix -- SciPy
scipy.spatial.distance.cdist -- SciPy

posted @   wuliytTaotao  阅读(12100)  评论(0编辑  收藏  举报
编辑推荐:
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 【杂谈】分布式事务——高大上的无用知识?
点击右上角即可分享
微信分享提示