腩啵兔子

[置顶] python爬虫入门

摘要：基础知识 HTTP协议我们浏览网页的浏览器和手机应用客户端与服务器通信几乎都是基于HTTP协议，而爬虫可以看作是一个另类的客户端，它把自己伪装成浏览器或者手机应用客户端，按照自己的逻辑贪婪的向服务器索取数据，如何向服务器索取数据，所以了解HTTP协议就显得很有必要了。 HTTP协议中文名称是超文本阅读全文

posted @ 2017-04-07 17:17 腩啵兔子阅读(2896) 评论(3) 推荐(5)

[置顶] python网络编程详解

摘要：最近在看《UNIX网络编程卷1》和《FREEBSD操作系统设计与实现》这两本书，我重点关注了TCP协议相关的内容，结合自己后台开发的经验，写下这篇文章，一方面是为了帮助有需要的人，更重要的是方便自己整理思路，加深理解。理论基础 OSI网络模型 OSI模型是一个七层模型，实际工程中，层次的划分没有阅读全文

posted @ 2017-04-07 16:38 腩啵兔子阅读(9159) 评论(1) 推荐(2)

[置顶] python实现视频下载

摘要：最近一两年短视频业务风生水起，各个视频网站都有各自特色的短视频内容。如果有这样一个程序，可以把各大视频网站的热门用户最新发布的视频都下载下来，不仅方便自己观看，还可以将没有版权的视频发布在个人社交网站上，增加自己的人气，岂不美哉？ parker就是这样一个项目（项目地址： "https://gith 阅读全文

posted @ 2017-03-13 18:00 腩啵兔子阅读(5866) 评论(2) 推荐(1)

[置顶] 搜索引擎原理及使用

摘要：此项目是自己学习搜索引擎过程中的一些心得，在使用go语言的时候，发现了悟空这个搜索引擎项目，结合此项目代码以及《信息检索导论》，自己对搜索引擎的原理是实现都有了一个初步的认识，然后结合工作中可能遇到的场景，做了一个简单的demo。写下这篇文章，可能比较啰嗦，希望帮助到需要的人。项目代码地址: "ht 阅读全文

posted @ 2017-03-02 14:53 腩啵兔子阅读(2040) 评论(1) 推荐(4)

[置顶] python开发编译器

摘要：引言最近刚刚用python写完了一个解析protobuf文件的简单编译器，深感ply实现词法分析和语法分析的简洁方便。乘着余热未过，头脑清醒，记下一点总结和心得，方便各位pythoner参考使用。 ply使用简介如果你不是从事编译器或者解析器的开发工作，你可能从未听说过ply。ply是基于py 阅读全文

posted @ 2017-01-06 15:30 腩啵兔子阅读(6867) 评论(3) 推荐(2)

[置顶] python实现protobuf编译器

摘要： ply解析protobuf github: "https://github.com/LiuRoy/proto_parser" 安装使用下载代码进入目录之后执行: 当前支持直接读取proto文件构造客户端,使用方法参考example/client.py 代码讲解本人接触到的rpc通信协议有thri 阅读全文

posted @ 2017-01-05 15:08 腩啵兔子阅读(2604) 评论(0) 推荐(0)

[置顶] python黑魔法 -- 内置方法使用

摘要：很多pythonic的代码都会用到内置方法，根据自己的经验，罗列一下自己知道的内置方法。 \_\_getitem\_\_ \_\_setitem\_\_ \_\_delitem\_\_ 这三个方法是字典类的内置方法，分别对应于查找、设置、删除操作，以一个简单的例子说明：上面的代码中实际上调用的就阅读全文

posted @ 2016-07-13 00:19 腩啵兔子阅读(1812) 评论(2) 推荐(1)

[置顶] 如何进行python性能分析？

摘要：在分析python代码性能瓶颈，但又不想修改源代码的时候，ipython shell以及第三方库提供了很多扩展工具，可以不用在代码里面加上统计性能的装饰器，也能很方便直观的分析代码性能。下面以我自己实现的一个快排代码为例，带你使用集中不同的性能分析工具。 python def quick_sort( 阅读全文

posted @ 2016-07-07 22:34 腩啵兔子阅读(7329) 评论(0) 推荐(2)

[置顶] 神经网络、logistic回归等分类算法简单实现

摘要：最近在github上看到一个很有趣的项目，通过文本训练可以让计算机写出特定风格的文章，有人就专门写了一个小项目生成汪峰风格的歌词。看完后有一些自己的小想法，也想做一个玩儿一玩儿。用到的原理是深度学习里的循环神经网络，无奈理论太艰深，只能从头开始开始慢慢看，因此产生写一个项目的想法，把机器学习和深度学阅读全文

posted @ 2016-04-16 23:12 腩啵兔子阅读(3342) 评论(1) 推荐(5)

[置顶] 使用python抓取婚恋网用户数据并用决策树生成自己择偶观

摘要：最近在看《机器学习实战》的时候萌生了一个想法，自己去网上爬一些数据按照书上的方法处理一下，不仅可以加深自己对书本的理解，顺便还可以在github拉拉人气。刚好在看决策树这一章，书里面的理论和例子让我觉得这个理论和选择对象简直不能再贴切，看完长相看学历，看完学历看收入。如果可以从婚恋网站上爬取女性的数阅读全文

posted @ 2016-04-11 21:53 腩啵兔子阅读(13949) 评论(40) 推荐(15)

[置顶] spark处理大规模语料库统计词汇

摘要：最近迷上了spark，写一个专门处理语料库生成词库的项目拿来练练手， github地址：https://github.com/LiuRoy/spark_splitter。代码实现参考wordmaker项目，有兴趣的可以看一下，此项目用到了不少很tricky的技巧提升性能，单纯只想看懂源代码可以参考w 阅读全文

posted @ 2016-04-06 23:17 腩啵兔子阅读(1966) 评论(2) 推荐(2)

[置顶] 隐马尔科夫模型python实现简单拼音输入法

摘要：在网上看到一篇关于隐马尔科夫模型的介绍，觉得简直不能再神奇，又在网上找到大神的一篇关于如何用隐马尔可夫模型实现中文拼音输入的博客，无奈大神没给可以运行的代码，只能纯手动网上找到了结巴分词的词库，根据此训练得出隐马尔科夫模型，用维特比算法实现了一个简单的拼音输入法。githuh地址：https://g 阅读全文

posted @ 2016-03-31 22:58 腩啵兔子阅读(10591) 评论(23) 推荐(4)

[置顶] python爬取github数据

摘要：爬虫流程在上周写完用scrapy爬去知乎用户信息的爬虫之后，github上star个数一下就在公司小组内部排的上名次了，我还信誓旦旦的跟上级吹牛皮说如果再写一个，都不好意思和你再提star了，怕你们伤心。上级不屑的说，那就写一个爬虫爬一爬github，找一找python大牛，公司也正好在找人。临危阅读全文

posted @ 2016-03-27 01:30 腩啵兔子阅读(11819) 评论(4) 推荐(7)

[置顶] scrapy爬虫docker部署

摘要：接我上篇博客，为爬虫引用创建container，包括的模块：scrapy, mongo, celery, rabbitmq，连接https://github.com/LiuRoy/spider_docker 进入spider_docker目录，执行命令： docker build --rm -t z 阅读全文

posted @ 2016-03-22 15:15 腩啵兔子阅读(2825) 评论(0) 推荐(0)

[置顶] scrapy 知乎用户信息爬虫

摘要：此项目的功能是爬取知乎用户信息以及人际拓扑关系，爬虫框架使用scrapy，数据存储使用mongo，下载这些数据感觉也没什么用，就当为大家学习scrapy提供一个例子吧。代码地址：https://github.com/LiuRoy/zhihu_spider，欢迎各位大神指出问题，另外知乎也欢迎大家关注阅读全文

posted @ 2016-03-20 11:44 腩啵兔子阅读(3880) 评论(2) 推荐(1)

公告