AloisWei - 博客园

2019年9月22日

摘要：前一章介绍了jieba分词之前关于前缀词典的构建，本章介绍jieba的主体：jieba.cut。 jieba分词有三种模式：全模式、精确模式、搜索引擎模式。全模式和精确模式通过jieba.cut实现，搜索引擎模式对应cut_for_search，且三者均可以通过参数HMM决定是否使用新词识别功能。官阅读全文

posted @ 2019-09-22 15:17 AloisWei 阅读(25882) 评论(0) 推荐(3) 编辑

2019年9月11日

jieba源码解析（一）：分词之前

摘要：简介总的来说，jieba分词主要是基于统计词典，构造一个前缀词典；然后利用前缀词典对输入句子进行切分，得到所有的切分可能，根据切分位置，构造一个有向无环图；通过动态规划算法，计算得到最大概率路径，也就得到了最终的切分形式。初始化 jieba采用了延迟加载机制，在import后，不会立刻加载词典文阅读全文

posted @ 2019-09-11 17:55 AloisWei 阅读(2123) 评论(2) 推荐(0) 编辑

2018年5月1日

python识别一段由字母组成的字符串是否是拼音

摘要：环境：win10 python3.6 先说一下算法思想：首先建立本地拼音库(不带声调)。使用逆向最大匹配将字符串与本地拼音库(这里提供给大家一个)进行匹配。话不多说，见code： def pinyin_or_word(string): ''' judge a string is a pinyin 阅读全文

posted @ 2018-05-01 16:28 AloisWei 阅读(4798) 评论(2) 推荐(0) 编辑

2018年4月25日

matplotlib画散点图，并在散点处打上相应标签

摘要：运行环境： py3.6 matplotlib 2.1.2 PS：感觉好土。。。阅读全文

posted @ 2018-04-25 19:48 AloisWei 阅读(21390) 评论(4) 推荐(4) 编辑

2017年9月25日

推荐算法之用户推荐（UserCF）和物品推荐（ItemCF）对比

摘要：一、定义 ======= 1. UserCF：推荐那些和他有共同兴趣爱好的用户喜欢的物品 2. ItemCF：推荐那些和他之前喜欢的物品类似的物品根据用户推荐重点是反应和用户兴趣相似的小群体的热点，根据物品推荐着重与用户过去的历史兴趣，即： UserCF是某个群体内的物品热门程度 ItemCF是反阅读全文

posted @ 2017-09-25 16:10 AloisWei 阅读(2332) 评论(1) 推荐(1) 编辑

2016年12月9日

ggplot2画图时标题无法居中的问题

摘要：折腾了一天，终于好了。应该是版本的问题。在R3.2.2能居中(别问我为什么知道)，在R3.3.2上就不能。解决方式如下：阅读全文

posted @ 2016-12-09 17:35 AloisWei 阅读(25588) 评论(0) 推荐(1) 编辑

Just do it!

这个人很懒！

公告