摘要: 这几天在研究如何用统计方法来发现新词,扩充自己的词典。看到了几篇很有想法的文章,作者阐述了一下思路。文章里面的数据,我计算了一下,发现文有很多数据不够严谨,最主要的问题,并没有给出很详细的理论方面的说明。结合作者的思路,我进行了如下数学模型的构建和算法的实现。一、概念介绍1、词语分片设一个文档集... 阅读全文
posted @ 2015-12-02 22:43 成都笨笨 阅读(3516) 评论(1) 推荐(1) 编辑
摘要: 015年4月1日(星期二)晴南风 今天是愚人节,我们给同事过愚人节,爬虫也让我们技术部过了愚人节。通过对抓取数据的分析,发现有20%的数据都是重复数据。开会讨论,原来有两个问题,一个爬虫引擎有重大bug;另外一个问题,竟然对网页没有做去重处理。啊!MyGOD!通过和群里进行技术交流,大概明白了解决... 阅读全文
posted @ 2015-12-02 13:02 成都笨笨 阅读(490) 评论(0) 推荐(0) 编辑