java 非加密 hash 算法 MurMurHash
摘要:简介 哈希算法简单来说就是将一个元素映射成另一个元素,可以简单分类两类,加密哈希,如MD5,SHA256等,非加密哈希,如MurMurHash,CRC32,DJB等。今天要介绍的MurMurHash由Austin Appleby在2008年发明,与其它流行的哈希函数相比,对于规律性较强的key,Mu
阅读全文
posted @
2022-05-20 11:57
lshan
阅读(600)
推荐(0) 编辑
使用jieba进行数据预处理(分词,过滤停用词及标点,获取词频、关键词等(转)
摘要:原文:https://blog.csdn.net/lk7688535/article/details/77971376 整理停用词 去空行和两边的空格 stop_words_list = [line.strip() for line in open('stop_key.txt', encoding=
阅读全文
posted @
2021-08-20 12:31
lshan
阅读(1624)
推荐(0) 编辑
python 中文分词器 jieba TF-IDF 算法的关键词 TextRank 算法的关键词
摘要:jieba分词github介绍文档:https://github.com/fxsjy/jieba github介绍文档: jieba “结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segment
阅读全文
posted @
2021-08-20 10:14
lshan
阅读(1923)
推荐(1) 编辑
spark ALS算法
摘要:ALS算法参数: // ALS关键代码 val model =ALS.train(训练集,rank,循环次数iter,lambda) 那是怎么想到要这样设置的呢?那就要在了解算法的基础上来设置此参数; 1、训练集,数据格式:(用户id 物品id 评分(0-1) ) 2、rank,根据数据的分散情况测
阅读全文
posted @
2020-05-06 10:43
lshan
阅读(1113)
推荐(1) 编辑
算法参考
摘要:http://www.cnblogs.com/xing901022/category/414816.html
阅读全文
posted @
2018-05-11 18:29
lshan
阅读(105)
推荐(0) 编辑