摘要: 基础知识 HTTP协议 我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议,而爬虫可以看作是一个另类的客户端,它把自己伪装成浏览器或者手机应用客户端,按照自己的逻辑贪婪的向服务器索取数据,如何向服务器索取数据,所以了解HTTP协议就显得很有必要了。 HTTP协议中文名称是超文本 阅读全文
posted @ 2017-04-07 17:17 腩啵兔子 阅读(2851) 评论(3) 推荐(5) 编辑
摘要: 最近在看《UNIX网络编程 卷1》和《FREEBSD操作系统设计与实现》这两本书,我重点关注了TCP协议相关的内容,结合自己后台开发的经验,写下这篇文章,一方面是为了帮助有需要的人,更重要的是方便自己整理思路,加深理解。 理论基础 OSI网络模型 OSI模型是一个七层模型,实际工程中,层次的划分没有 阅读全文
posted @ 2017-04-07 16:38 腩啵兔子 阅读(9057) 评论(1) 推荐(2) 编辑
摘要: 最近一两年短视频业务风生水起,各个视频网站都有各自特色的短视频内容。如果有这样一个程序,可以把各大视频网站的热门用户最新发布的视频都下载下来,不仅方便自己观看,还可以将没有版权的视频发布在个人社交网站上,增加自己的人气,岂不美哉? parker就是这样一个项目(项目地址: "https://gith 阅读全文
posted @ 2017-03-13 18:00 腩啵兔子 阅读(5821) 评论(2) 推荐(1) 编辑
摘要: 此项目是自己学习搜索引擎过程中的一些心得,在使用go语言的时候,发现了悟空这个搜索引擎项目,结合此项目代码以及《信息检索导论》,自己对搜索引擎的原理是实现都有了一个初步的认识,然后结合工作中可能遇到的场景,做了一个简单的demo。写下这篇文章,可能比较啰嗦,希望帮助到需要的人。项目代码地址: "ht 阅读全文
posted @ 2017-03-02 14:53 腩啵兔子 阅读(1970) 评论(1) 推荐(4) 编辑
摘要: 引言 最近刚刚用python写完了一个解析protobuf文件的简单编译器,深感ply实现词法分析和语法分析的简洁方便。乘着余热未过,头脑清醒,记下一点总结和心得,方便各位pythoner参考使用。 ply使用 简介 如果你不是从事编译器或者解析器的开发工作,你可能从未听说过ply。ply是基于py 阅读全文
posted @ 2017-01-06 15:30 腩啵兔子 阅读(6764) 评论(3) 推荐(2) 编辑
摘要: 很多pythonic的代码都会用到内置方法,根据自己的经验,罗列一下自己知道的内置方法。 \_\_getitem\_\_ \_\_setitem\_\_ \_\_delitem\_\_ 这三个方法是字典类的内置方法,分别对应于查找、设置、删除操作,以一个简单的例子说明: 上面的代码中 实际上调用的就 阅读全文
posted @ 2016-07-13 00:19 腩啵兔子 阅读(1768) 评论(2) 推荐(1) 编辑
摘要: 在分析python代码性能瓶颈,但又不想修改源代码的时候,ipython shell以及第三方库提供了很多扩展工具,可以不用在代码里面加上统计性能的装饰器,也能很方便直观的分析代码性能。下面以我自己实现的一个快排代码为例,带你使用集中不同的性能分析工具。 python def quick_sort( 阅读全文
posted @ 2016-07-07 22:34 腩啵兔子 阅读(7231) 评论(0) 推荐(2) 编辑
摘要: 最近在github上看到一个很有趣的项目,通过文本训练可以让计算机写出特定风格的文章,有人就专门写了一个小项目生成汪峰风格的歌词。看完后有一些自己的小想法,也想做一个玩儿一玩儿。用到的原理是深度学习里的循环神经网络,无奈理论太艰深,只能从头开始开始慢慢看,因此产生写一个项目的想法,把机器学习和深度学 阅读全文
posted @ 2016-04-16 23:12 腩啵兔子 阅读(3283) 评论(1) 推荐(5) 编辑
摘要: 最近在看《机器学习实战》的时候萌生了一个想法,自己去网上爬一些数据按照书上的方法处理一下,不仅可以加深自己对书本的理解,顺便还可以在github拉拉人气。刚好在看决策树这一章,书里面的理论和例子让我觉得这个理论和选择对象简直不能再贴切,看完长相看学历,看完学历看收入。如果可以从婚恋网站上爬取女性的数 阅读全文
posted @ 2016-04-11 21:53 腩啵兔子 阅读(13800) 评论(40) 推荐(15) 编辑
摘要: 最近迷上了spark,写一个专门处理语料库生成词库的项目拿来练练手, github地址:https://github.com/LiuRoy/spark_splitter。代码实现参考wordmaker项目,有兴趣的可以看一下,此项目用到了不少很tricky的技巧提升性能,单纯只想看懂源代码可以参考w 阅读全文
posted @ 2016-04-06 23:17 腩啵兔子 阅读(1912) 评论(2) 推荐(2) 编辑
摘要: 在网上看到一篇关于隐马尔科夫模型的介绍,觉得简直不能再神奇,又在网上找到大神的一篇关于如何用隐马尔可夫模型实现中文拼音输入的博客,无奈大神没给可以运行的代码,只能纯手动网上找到了结巴分词的词库,根据此训练得出隐马尔科夫模型,用维特比算法实现了一个简单的拼音输入法。githuh地址:https://g 阅读全文
posted @ 2016-03-31 22:58 腩啵兔子 阅读(10469) 评论(23) 推荐(4) 编辑
摘要: 爬虫流程 在上周写完用scrapy爬去知乎用户信息的爬虫之后,github上star个数一下就在公司小组内部排的上名次了,我还信誓旦旦的跟上级吹牛皮说如果再写一个,都不好意思和你再提star了,怕你们伤心。上级不屑的说,那就写一个爬虫爬一爬github,找一找python大牛,公司也正好在找人。临危 阅读全文
posted @ 2016-03-27 01:30 腩啵兔子 阅读(11521) 评论(4) 推荐(7) 编辑
摘要: 接我上篇博客,为爬虫引用创建container,包括的模块:scrapy, mongo, celery, rabbitmq,连接https://github.com/LiuRoy/spider_docker 进入spider_docker目录,执行命令: docker build --rm -t z 阅读全文
posted @ 2016-03-22 15:15 腩啵兔子 阅读(2785) 评论(0) 推荐(0) 编辑
摘要: 此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo,下载这些数据感觉也没什么用,就当为大家学习scrapy提供一个例子吧。代码地址:https://github.com/LiuRoy/zhihu_spider,欢迎各位大神指出问题,另外知乎也欢迎大家关注 阅读全文
posted @ 2016-03-20 11:44 腩啵兔子 阅读(3845) 评论(2) 推荐(1) 编辑