2021年10月30日

基于特征和条件随机场的中文地址解析方法

摘要: 一篇没投的文文章。分享出来。 【摘要】由于中文地址使用缺乏规范和汉语语言的特点,在地址匹配前首先需要进行地址解析,以识别地址中的地址要素和其他成分。传统的基于词典和规则的方法过度依赖词典和规则库,对歧义词和未登录词的识别率低。本文采用自然语言标注的思想,借助条件随机场模型,利用地址成分中的词性特征、 阅读全文

posted @ 2021-10-30 10:32 米仓山下 阅读(938) 评论(0) 推荐(0) 编辑

2019年2月12日

利用搜狐新闻语料库训练100维的word2vec——使用python中的gensim模块

摘要: 关于word2vec的原理知识参考文章https://www.cnblogs.com/Micang/p/10235783.html 语料数据来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据 数据处理参考这篇文章 模型训练: 模型使用: 输出: 阅读全文

posted @ 2019-02-12 23:53 米仓山下 阅读(485) 评论(0) 推荐(0) 编辑

关键字提取算法TF-IDF和TextRank(python3)————实现TF-IDF并jieba中的TF-IDF对比,使用jieba中的实现TextRank

摘要: 关键词: TF-IDF实现、TextRank、jieba、关键词提取数据来源: 语料数据来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据 数据处理参考前一篇文章介绍: 介绍了文本关键词提取的原理,tfidf算法和TextRank算法 利用sklearn实现tfi 阅读全文

posted @ 2019-02-12 20:23 米仓山下 阅读(21009) 评论(1) 推荐(3) 编辑

2019年2月2日

利用朴素贝叶斯分类算法对搜狐新闻进行分类(python)

摘要: 数据来源 https://www.sogou.com/labs/resource/cs.php介绍:来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息格式说明:<doc><url>页面URL</url><docno>页面ID</docno>< 阅读全文

posted @ 2019-02-02 13:10 米仓山下 阅读(4102) 评论(2) 推荐(1) 编辑

2019年1月15日

利用python中的gensim模块训练和测试word2vec

摘要: word2vec的基础知识介绍参考上一篇博客和列举的参考资料。 首先利用安装gensim模块,相关依赖如下,注意版本要一致: Python >= 2.7 (tested with versions 2.7, 3.5 and 3.6) NumPy >= 1.11.3 SciPy >= 0.18.1 S 阅读全文

posted @ 2019-01-15 22:07 米仓山下 阅读(2885) 评论(0) 推荐(0) 编辑

2019年1月7日

对word2vec的理解及资料整理

摘要: 对word2vec的理解及资料整理 无他,在网上看到好多对word2vec的介绍,当然也有写的比较认真的,但是自己学习过程中还是看了好多才明白,这里按照自己整理梳理一下资料,形成提纲以便学习。 介绍较好的文章: 一、什么是Word2Vec? 简单地说就是讲单词word转换成向量vector来表示,通 阅读全文

posted @ 2019-01-07 21:33 米仓山下 阅读(3736) 评论(0) 推荐(0) 编辑

2018年12月21日

利用奇异值分解(SVD)进行图像压缩-python实现

摘要: 首先要声明,图片的算法有很多,如JPEG算法,SVD对图片的压缩可能并不是最佳选择,这里主要说明SVD可以降维 相对于PAC(主成分分析),SVD(奇异值分解)对数据的列和行都进行了降维,左奇异矩阵可以用于行数的压缩。相对的,右奇异矩阵可以用于列数即特征维度的压缩,也就是我们的PCA降维。一张二维n 阅读全文

posted @ 2018-12-21 19:06 米仓山下 阅读(3754) 评论(1) 推荐(0) 编辑

机器学习实战(Machine Learning in Action)学习笔记————10.奇异值分解(SVD)原理、基于协同过滤的推荐引擎、数据降维

摘要: 关键字:SVD、奇异值分解、降维、基于协同过滤的推荐引擎作者:米仓山下时间:2018-11-3机器学习实战(Machine Learning in Action,@author: Peter Harrington)源码下载地址:https://www.manning.com/books/machin 阅读全文

posted @ 2018-12-21 18:35 米仓山下 阅读(606) 评论(0) 推荐(0) 编辑

2018年12月11日

python利用Trie(前缀树)实现搜索引擎中关键字输入提示(学习Hash Trie和Double-array Trie)

摘要: python利用Trie(前缀树)实现搜索引擎中关键字输入提示(学习Hash Trie和Double-array Trie) 主要包括两部分内容:(1)利用python中的dict实现Trie;(2)按照darts-java的方法做python的实现Double-array Trie比较:(1)的实 阅读全文

posted @ 2018-12-11 14:06 米仓山下 阅读(3821) 评论(5) 推荐(0) 编辑

2018年12月6日

利用trie树实现前缀输入提示及trie的python实现

摘要: 代码来自https://github.com/wklken/suggestion/blob/master/easymap/suggest.py 还实现了缓存功能,搜索某个前缀超过一定次数时,进行缓存,减少搜索时间:将词后缀部分存储在节点 使用了词频信息,可以对返回的列表进行排序 使用dict实现tr 阅读全文

posted @ 2018-12-06 23:16 米仓山下 阅读(452) 评论(0) 推荐(0) 编辑

导航