03 2016 档案

摘要:在网上看到一篇关于隐马尔科夫模型的介绍,觉得简直不能再神奇,又在网上找到大神的一篇关于如何用隐马尔可夫模型实现中文拼音输入的博客,无奈大神没给可以运行的代码,只能纯手动网上找到了结巴分词的词库,根据此训练得出隐马尔科夫模型,用维特比算法实现了一个简单的拼音输入法。githuh地址:https://g 阅读全文
posted @ 2016-03-31 22:58 腩啵兔子 阅读(10592) 评论(23) 推荐(4)
摘要:爬虫流程 在上周写完用scrapy爬去知乎用户信息的爬虫之后,github上star个数一下就在公司小组内部排的上名次了,我还信誓旦旦的跟上级吹牛皮说如果再写一个,都不好意思和你再提star了,怕你们伤心。上级不屑的说,那就写一个爬虫爬一爬github,找一找python大牛,公司也正好在找人。临危 阅读全文
posted @ 2016-03-27 01:30 腩啵兔子 阅读(11820) 评论(4) 推荐(7)
摘要:接我上篇博客,为爬虫引用创建container,包括的模块:scrapy, mongo, celery, rabbitmq,连接https://github.com/LiuRoy/spider_docker 进入spider_docker目录,执行命令: docker build --rm -t z 阅读全文
posted @ 2016-03-22 15:15 腩啵兔子 阅读(2825) 评论(0) 推荐(0)
摘要:此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo,下载这些数据感觉也没什么用,就当为大家学习scrapy提供一个例子吧。代码地址:https://github.com/LiuRoy/zhihu_spider,欢迎各位大神指出问题,另外知乎也欢迎大家关注 阅读全文
posted @ 2016-03-20 11:44 腩啵兔子 阅读(3881) 评论(2) 推荐(1)