随笔分类 -  Python

well,welcome to my show!
摘要:内容 背景 准备 实践 结果 总结 引用 背景 老规矩,先上代码吧 代码所在: "https://github.com/BruceDone/darknet_demo" 最近在做深度学习相关的项目的时候,了解在现有的深度学习检测流派里面有one stage ,two stage 两种流派,one st 阅读全文
posted @ 2018-12-11 19:13 爱吃猫的鱼 阅读(6808) 评论(3) 推荐(0) 编辑
摘要:在Ubuntu下配置舒服的Python开发环境Ubuntu 提供了一个良好的 Python 开发环境,但如果想使我们的开发效率最大化,还需要进行很多定制化的安装和配置。下面的是我们团队开发人员推荐的一个安装和配置步骤,基于 Ubuntu 12.04 桌面版本标准安装。安装 Python 发布版本和 ... 阅读全文
posted @ 2016-01-13 13:11 爱吃猫的鱼 阅读(402) 评论(0) 推荐(0) 编辑
摘要:我们在用python处理中文的时候,或多或少会遇到这样一些错误常见错误1:SyntaxError: Non-ASCII character '\xe4' in file C常见错误2:UnicodeEncodeError: 'ascii' codec can't encode character... 阅读全文
posted @ 2015-12-03 16:25 爱吃猫的鱼 阅读(6121) 评论(0) 推荐(0) 编辑
摘要:转载请注明出处:http://www.cnblogs.com/codefish/p/4993809.html最近在群里频繁的被问到ajax和js的处理问题,我们都知道,现在很多的页面都是用动态加载的技术,这一方面带来了良好的页面体验,另一方面,在抓取时或者或少的带来了相当大的麻烦,因为我们知道直接g... 阅读全文
posted @ 2015-11-25 11:38 爱吃猫的鱼 阅读(7574) 评论(10) 推荐(5) 编辑
摘要:转载主注明出处:http://www.cnblogs.com/codefish/p/4968260.html 在爬虫中,我们遇到比较多需求就是文件下载以及图片下载,在其它的语言或者框架中,我们可能在经过数据筛选,然后异步的使用文件下载类来达到目的,Scrapy框架中本身已经实现了文件及图片下载的文... 阅读全文
posted @ 2015-11-16 11:00 爱吃猫的鱼 阅读(2162) 评论(2) 推荐(4) 编辑
摘要:转自:http://lesliezhu.github.io/public/2015-04-20-python-multi-process-thread.html目录1. GIL(Global Interpretor Lock,全局解释器锁)2. threading2.1. 创建线程2.2. 使用线程... 阅读全文
posted @ 2015-11-13 14:00 爱吃猫的鱼 阅读(4447) 评论(0) 推荐(0) 编辑
只有注册用户登录后才能阅读该文。
posted @ 2015-11-10 16:18 爱吃猫的鱼 阅读(234) 评论(0) 推荐(1) 编辑
摘要:最近逐渐打算将工作的环境转移到ubuntu下,突然发现对于我来说,这ubuntu对于我这种上上网,收收邮件,写写博客,写写程序的时实在是太合适了,除了刚接触的时候会不怎么完全适应命令行及各种权限管理,apt-get命令相当的方便,各种原先在windows下各种奇怪错误在ubuntu下都没有出现了... 阅读全文
posted @ 2015-11-09 12:21 爱吃猫的鱼 阅读(3962) 评论(2) 推荐(1) 编辑
只有注册用户登录后才能阅读该文。
posted @ 2015-11-06 14:17 爱吃猫的鱼 阅读(492) 评论(1) 推荐(0) 编辑
摘要:软件版本: redis-2.4.6-setup-64-bit.exe— Redis 2.4.6 Windows Setup (64-bit) 系统: win7 64bit 本篇的内容是为了给分布式下的爬虫做好预热的环境准备,我们知道单机的爬虫始终会有一个性能瓶颈,特别是对于是否爬过的URL来说,存... 阅读全文
posted @ 2015-11-05 14:51 爱吃猫的鱼 阅读(659) 评论(0) 推荐(0) 编辑
摘要:一,django是一个十分优秀的python web的框架,那框架的是什么? 假设我们不使用框架来进行编写,我们要用如下的代码进行web脚本: #!/usr/bin/env pythonimport MySQLdbprint "Content-Type: text/html\n"print "... 阅读全文
posted @ 2015-10-19 23:35 爱吃猫的鱼 阅读(388) 评论(0) 推荐(0) 编辑
摘要:加上你的准备的时间,估计30分钟完全够用了,因为最近在做爬虫管理平台,想着快速开发,没想到python web平台下有这么非常方便的框架,简洁而优雅。将自己的一些坑总结出来,方便给大家的使用。准备环境:系统:win7 or ubuntudjango版本:1.8.5python版本:2.7.6数据... 阅读全文
posted @ 2015-10-18 22:43 爱吃猫的鱼 阅读(3712) 评论(4) 推荐(1) 编辑
摘要:之前一直在研究scrapy下数据抓取,在研究ajax数据抓取时碰巧研究了一下selenium,确实很实用,不过只做scrapy下的数据抓取,不怎么合适,一是性能的损耗,一直需要开一个浏览器,二是对于爬虫来说,分析ajax的请求才是正事。好吧,说远了,今天来扯一下我对于自动化测试一些见解。 py... 阅读全文
posted @ 2015-09-22 18:35 爱吃猫的鱼 阅读(13580) 评论(6) 推荐(2) 编辑
摘要:本次探讨的主题是规则爬取的实现及命令行下的自定义参数的传递,规则下的爬虫在我看来才是真正意义上的爬虫。我们选从逻辑上来看,这种爬虫是如何工作的:我们给定一个起点的url link ,进入页面之后提取所有的ur 链接,我们定义一个规则,根据规则(用正则表达式来限制)来提取我们想要的连接形式,然后爬取这... 阅读全文
posted @ 2015-09-15 16:48 爱吃猫的鱼 阅读(3959) 评论(0) 推荐(1) 编辑
摘要:前段时间写脚本,一直使用的是pycharm ,无奈机器不配置实在不怎么样,我记得之前用过subline text,这是我用过的最酷炫的文本编辑器,参考了一下网上的文章,自己走了一些弯路,将心得写在这里,方便给需要帮助的人: 这是完成配置后的界面: 一,下载subline text 3 官网:h... 阅读全文
posted @ 2015-09-14 13:42 爱吃猫的鱼 阅读(34774) 评论(8) 推荐(3) 编辑
摘要:放假这段时间好好的思考了一下关于Scrapy的一些常用操作,主要解决了三个问题: 1.如何连续爬取 2.数据输出方式 3.数据库链接一,如何连续爬取: 思考:要达到连续爬取,逻辑上无非从以下的方向着手 1)预加载需要爬取的列表,直接到这个列表都处理完,相应的爬取工作都已经完成了。 2)从第一页开始... 阅读全文
posted @ 2015-09-07 15:35 爱吃猫的鱼 阅读(5063) 评论(3) 推荐(2) 编辑
摘要:本篇主要介绍对于一个爬虫框架的思考和,核心部件的介绍,以及常规的思考方法:一,猜想 我们说的爬虫,一般至少要包含几个基本要素: 1.请求发送对象(sender,对于request的封装,防止被封) 2.解析文档对象(将请求的网页当作是html文档还是字符串) 3.承载所需要的解析对象(标准格式的... 阅读全文
posted @ 2015-09-02 17:07 爱吃猫的鱼 阅读(1367) 评论(3) 推荐(0) 编辑
摘要:关于Scrapy的安装,网上一搜一大把,一个一个的安装说实话是有点麻烦,那有没有一键安装的?答案显然是有的,下面就是给神器的介绍: 主页:http://conda.pydata.org/docs/ 下载地址:http://continuum.io/downloads 两个版本,64位和32位,根... 阅读全文
posted @ 2015-09-01 12:41 爱吃猫的鱼 阅读(582) 评论(0) 推荐(1) 编辑
摘要:比如你抽取右边的活动代码段如下:import re #正则类from urllib import urlopen #提取内容类#打开链接webpage = urlopen("http://www.douban.com")#提取读取内容info = webpage.read()#正则匹配party = re.findall("<a.href=\"http://www.douban.com/online/[0-9]+.\">(.{1,50})</a>",info)if len(party)>0: for x 阅读全文
posted @ 2013-02-18 23:15 爱吃猫的鱼 阅读(532) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示