07 2023 档案
快速将anaconda添加到环境变量(.bashrc)的方法
摘要:在Linux中通过bash Anaconda3-2021.05-Linux-x86_64.sh安装完anaconda之后, 如果忘记将anaconda添加到.bashrc中,如 # All requested packages already installed. installation fini
阅读全文
用python语言统计PPT文档的所有slides备注的总字数
摘要:在一些场景下我们需要对PPT的备注进行字数统计, 比如非常严格的项目答辩、报奖等的PPT音频录制。但是我们发现Macrosoft PowerPoint和WPS PPT等,都没有直接的统计功能,官方提供的统计指导,速度非常慢效率很低。下面提供一种通过Python快速统计中文备注的方法。 方法: 使用p
阅读全文
用 Spark's MinHashLSH进行文本语料去重
摘要:(1)MinHashLSH进行文本去重的算法原理 MinHash (最小哈希) 是一种用于估计两个集合的 Jaccard 相似度的方法,而 MinHashLSH (局部敏感哈希) 则是一种使用 MinHash 来近似查找相似项的技术。 MinHash 算法基于以下观察:如果我们随机排列所有可能的元素
阅读全文