摘要: 前一章介绍了jieba分词之前关于前缀词典的构建,本章介绍jieba的主体:jieba.cut。 jieba分词有三种模式:全模式、精确模式、搜索引擎模式。全模式和精确模式通过jieba.cut实现,搜索引擎模式对应cut_for_search,且三者均可以通过参数HMM决定是否使用新词识别功能。官 阅读全文
posted @ 2019-09-22 15:17 AloisWei 阅读(25882) 评论(0) 推荐(3) 编辑
摘要: 简介 总的来说,jieba分词主要是基于统计词典,构造一个前缀词典;然后利用前缀词典对输入句子进行切分,得到所有的切分可能,根据切分位置,构造一个有向无环图;通过动态规划算法,计算得到最大概率路径,也就得到了最终的切分形式。 初始化 jieba采用了延迟加载机制,在import后,不会立刻加载词典文 阅读全文
posted @ 2019-09-11 17:55 AloisWei 阅读(2123) 评论(2) 推荐(0) 编辑
摘要: 环境:win10 python3.6 先说一下算法思想: 首先建立本地拼音库(不带声调)。使用逆向最大匹配将字符串与本地拼音库(这里提供给大家一个)进行匹配。话不多说,见code: def pinyin_or_word(string): ''' judge a string is a pinyin 阅读全文
posted @ 2018-05-01 16:28 AloisWei 阅读(4798) 评论(2) 推荐(0) 编辑
摘要: 运行环境: py3.6 matplotlib 2.1.2 PS:感觉好土。。。 阅读全文
posted @ 2018-04-25 19:48 AloisWei 阅读(21390) 评论(4) 推荐(4) 编辑
摘要: 一、定义 ======= 1. UserCF:推荐那些和他有共同兴趣爱好的用户喜欢的物品 2. ItemCF:推荐那些和他之前喜欢的物品类似的物品 根据用户推荐重点是反应和用户兴趣相似的小群体的热点,根据物品推荐着重与用户过去的历史兴趣,即: UserCF是某个群体内的物品热门程度 ItemCF是反 阅读全文
posted @ 2017-09-25 16:10 AloisWei 阅读(2332) 评论(1) 推荐(1) 编辑
摘要: 折腾了一天,终于好了。应该是版本的问题。在R3.2.2能居中(别问我为什么知道),在R3.3.2上就不能。解决方式如下: 阅读全文
posted @ 2016-12-09 17:35 AloisWei 阅读(25588) 评论(0) 推荐(1) 编辑