随笔 - 835  文章 - 1 评论 - 40 阅读 - 102万
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

随笔分类 -  算法

java 非加密 hash 算法 MurMurHash
摘要:简介 哈希算法简单来说就是将一个元素映射成另一个元素,可以简单分类两类,加密哈希,如MD5,SHA256等,非加密哈希,如MurMurHash,CRC32,DJB等。今天要介绍的MurMurHash由Austin Appleby在2008年发明,与其它流行的哈希函数相比,对于规律性较强的key,Mu 阅读全文
posted @ 2022-05-20 11:57 lshan 阅读(600) 评论(0) 推荐(0) 编辑
使用jieba进行数据预处理(分词,过滤停用词及标点,获取词频、关键词等(转)
摘要:原文:https://blog.csdn.net/lk7688535/article/details/77971376 整理停用词 去空行和两边的空格 stop_words_list = [line.strip() for line in open('stop_key.txt', encoding= 阅读全文
posted @ 2021-08-20 12:31 lshan 阅读(1624) 评论(0) 推荐(0) 编辑
python 中文分词器 jieba TF-IDF 算法的关键词  TextRank 算法的关键词
摘要:jieba分词github介绍文档:https://github.com/fxsjy/jieba github介绍文档: jieba “结巴”中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") Chinese text segment 阅读全文
posted @ 2021-08-20 10:14 lshan 阅读(1923) 评论(0) 推荐(1) 编辑
快排,归并,冒泡 ,二分法 (算法)
该文被密码保护。
posted @ 2020-07-27 16:26 lshan 阅读(0) 评论(0) 推荐(0) 编辑
spark ALS算法
摘要:ALS算法参数: // ALS关键代码 val model =ALS.train(训练集,rank,循环次数iter,lambda) 那是怎么想到要这样设置的呢?那就要在了解算法的基础上来设置此参数; 1、训练集,数据格式:(用户id 物品id 评分(0-1) ) 2、rank,根据数据的分散情况测 阅读全文
posted @ 2020-05-06 10:43 lshan 阅读(1113) 评论(0) 推荐(1) 编辑
算法参考
摘要:http://www.cnblogs.com/xing901022/category/414816.html 阅读全文
posted @ 2018-05-11 18:29 lshan 阅读(105) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示