摘要:
在一些场景下我们需要对PPT的备注进行字数统计, 比如非常严格的项目答辩、报奖等的PPT音频录制。但是我们发现Macrosoft PowerPoint和WPS PPT等,都没有直接的统计功能,官方提供的统计指导,速度非常慢效率很低。下面提供一种通过Python快速统计中文备注的方法。 方法: 使用p 阅读全文
摘要:
(1)MinHashLSH进行文本去重的算法原理 MinHash (最小哈希) 是一种用于估计两个集合的 Jaccard 相似度的方法,而 MinHashLSH (局部敏感哈希) 则是一种使用 MinHash 来近似查找相似项的技术。 MinHash 算法基于以下观察:如果我们随机排列所有可能的元素 阅读全文