随笔分类 - Python
well,welcome to my show!
摘要:内容 背景 准备 实践 结果 总结 引用 背景 老规矩,先上代码吧 代码所在: "https://github.com/BruceDone/darknet_demo" 最近在做深度学习相关的项目的时候,了解在现有的深度学习检测流派里面有one stage ,two stage 两种流派,one st
阅读全文
摘要:在Ubuntu下配置舒服的Python开发环境Ubuntu 提供了一个良好的 Python 开发环境,但如果想使我们的开发效率最大化,还需要进行很多定制化的安装和配置。下面的是我们团队开发人员推荐的一个安装和配置步骤,基于 Ubuntu 12.04 桌面版本标准安装。安装 Python 发布版本和 ...
阅读全文
摘要:我们在用python处理中文的时候,或多或少会遇到这样一些错误常见错误1:SyntaxError: Non-ASCII character '\xe4' in file C常见错误2:UnicodeEncodeError: 'ascii' codec can't encode character...
阅读全文
摘要:转载请注明出处:http://www.cnblogs.com/codefish/p/4993809.html最近在群里频繁的被问到ajax和js的处理问题,我们都知道,现在很多的页面都是用动态加载的技术,这一方面带来了良好的页面体验,另一方面,在抓取时或者或少的带来了相当大的麻烦,因为我们知道直接g...
阅读全文
摘要:转载主注明出处:http://www.cnblogs.com/codefish/p/4968260.html 在爬虫中,我们遇到比较多需求就是文件下载以及图片下载,在其它的语言或者框架中,我们可能在经过数据筛选,然后异步的使用文件下载类来达到目的,Scrapy框架中本身已经实现了文件及图片下载的文...
阅读全文
摘要:转自:http://lesliezhu.github.io/public/2015-04-20-python-multi-process-thread.html目录1. GIL(Global Interpretor Lock,全局解释器锁)2. threading2.1. 创建线程2.2. 使用线程...
阅读全文
只有注册用户登录后才能阅读该文。
摘要:最近逐渐打算将工作的环境转移到ubuntu下,突然发现对于我来说,这ubuntu对于我这种上上网,收收邮件,写写博客,写写程序的时实在是太合适了,除了刚接触的时候会不怎么完全适应命令行及各种权限管理,apt-get命令相当的方便,各种原先在windows下各种奇怪错误在ubuntu下都没有出现了...
阅读全文
只有注册用户登录后才能阅读该文。
摘要:软件版本: redis-2.4.6-setup-64-bit.exe— Redis 2.4.6 Windows Setup (64-bit) 系统: win7 64bit 本篇的内容是为了给分布式下的爬虫做好预热的环境准备,我们知道单机的爬虫始终会有一个性能瓶颈,特别是对于是否爬过的URL来说,存...
阅读全文
摘要:一,django是一个十分优秀的python web的框架,那框架的是什么? 假设我们不使用框架来进行编写,我们要用如下的代码进行web脚本: #!/usr/bin/env pythonimport MySQLdbprint "Content-Type: text/html\n"print "...
阅读全文
摘要:加上你的准备的时间,估计30分钟完全够用了,因为最近在做爬虫管理平台,想着快速开发,没想到python web平台下有这么非常方便的框架,简洁而优雅。将自己的一些坑总结出来,方便给大家的使用。准备环境:系统:win7 or ubuntudjango版本:1.8.5python版本:2.7.6数据...
阅读全文
摘要:之前一直在研究scrapy下数据抓取,在研究ajax数据抓取时碰巧研究了一下selenium,确实很实用,不过只做scrapy下的数据抓取,不怎么合适,一是性能的损耗,一直需要开一个浏览器,二是对于爬虫来说,分析ajax的请求才是正事。好吧,说远了,今天来扯一下我对于自动化测试一些见解。 py...
阅读全文
摘要:本次探讨的主题是规则爬取的实现及命令行下的自定义参数的传递,规则下的爬虫在我看来才是真正意义上的爬虫。我们选从逻辑上来看,这种爬虫是如何工作的:我们给定一个起点的url link ,进入页面之后提取所有的ur 链接,我们定义一个规则,根据规则(用正则表达式来限制)来提取我们想要的连接形式,然后爬取这...
阅读全文
摘要:前段时间写脚本,一直使用的是pycharm ,无奈机器不配置实在不怎么样,我记得之前用过subline text,这是我用过的最酷炫的文本编辑器,参考了一下网上的文章,自己走了一些弯路,将心得写在这里,方便给需要帮助的人: 这是完成配置后的界面: 一,下载subline text 3 官网:h...
阅读全文
摘要:放假这段时间好好的思考了一下关于Scrapy的一些常用操作,主要解决了三个问题: 1.如何连续爬取 2.数据输出方式 3.数据库链接一,如何连续爬取: 思考:要达到连续爬取,逻辑上无非从以下的方向着手 1)预加载需要爬取的列表,直接到这个列表都处理完,相应的爬取工作都已经完成了。 2)从第一页开始...
阅读全文
摘要:本篇主要介绍对于一个爬虫框架的思考和,核心部件的介绍,以及常规的思考方法:一,猜想 我们说的爬虫,一般至少要包含几个基本要素: 1.请求发送对象(sender,对于request的封装,防止被封) 2.解析文档对象(将请求的网页当作是html文档还是字符串) 3.承载所需要的解析对象(标准格式的...
阅读全文
摘要:关于Scrapy的安装,网上一搜一大把,一个一个的安装说实话是有点麻烦,那有没有一键安装的?答案显然是有的,下面就是给神器的介绍: 主页:http://conda.pydata.org/docs/ 下载地址:http://continuum.io/downloads 两个版本,64位和32位,根...
阅读全文
摘要:比如你抽取右边的活动代码段如下:import re #正则类from urllib import urlopen #提取内容类#打开链接webpage = urlopen("http://www.douban.com")#提取读取内容info = webpage.read()#正则匹配party = re.findall("<a.href=\"http://www.douban.com/online/[0-9]+.\">(.{1,50})</a>",info)if len(party)>0: for x
阅读全文