Python - 随笔分类 - 爱吃猫的鱼

[深度学习] 使用Darknet YOLO 模型破解中文验证码点击识别

摘要：内容背景准备实践结果总结引用背景老规矩，先上代码吧代码所在: "https://github.com/BruceDone/darknet_demo" 最近在做深度学习相关的项目的时候，了解在现有的深度学习检测流派里面有one stage ,two stage 两种流派，one st 阅读全文

posted @ 2018-12-11 19:13 爱吃猫的鱼阅读(6948) 评论(3) 推荐(0)

转[开发环境配置]在Ubuntu下配置舒服的Python开发环境

摘要：在Ubuntu下配置舒服的Python开发环境Ubuntu 提供了一个良好的 Python 开发环境，但如果想使我们的开发效率最大化，还需要进行很多定制化的安装和配置。下面的是我们团队开发人员推荐的一个安装和配置步骤，基于 Ubuntu 12.04 桌面版本标准安装。安装 Python 发布版本和 ... 阅读全文

posted @ 2016-01-13 13:11 爱吃猫的鱼阅读(427) 评论(0) 推荐(0)

[python基础]关于中文编码和解码那点事儿

摘要：我们在用python处理中文的时候，或多或少会遇到这样一些错误常见错误1:SyntaxError: Non-ASCII character '\xe4' in file C常见错误2:UnicodeEncodeError: 'ascii' codec can't encode character... 阅读全文

posted @ 2015-12-03 16:25 爱吃猫的鱼阅读(6151) 评论(0) 推荐(0)

(9)分布式下的爬虫Scrapy应该如何做-关于ajax抓取的处理(一)

摘要：转载请注明出处：http://www.cnblogs.com/codefish/p/4993809.html最近在群里频繁的被问到ajax和js的处理问题，我们都知道，现在很多的页面都是用动态加载的技术，这一方面带来了良好的页面体验，另一方面，在抓取时或者或少的带来了相当大的麻烦，因为我们知道直接g... 阅读全文

posted @ 2015-11-25 11:38 爱吃猫的鱼阅读(7609) 评论(10) 推荐(5)

(8)分布式下的爬虫Scrapy应该如何做-图片下载(源码放送)

摘要：转载主注明出处：http://www.cnblogs.com/codefish/p/4968260.html 在爬虫中，我们遇到比较多需求就是文件下载以及图片下载，在其它的语言或者框架中，我们可能在经过数据筛选，然后异步的使用文件下载类来达到目的，Scrapy框架中本身已经实现了文件及图片下载的文... 阅读全文

posted @ 2015-11-16 11:00 爱吃猫的鱼阅读(2182) 评论(2) 推荐(4)

【转】Python中的GIL、多进程和多线程

摘要：转自：http://lesliezhu.github.io/public/2015-04-20-python-multi-process-thread.html目录1. GIL(Global Interpretor Lock,全局解释器锁)2. threading2.1. 创建线程2.2. 使用线程... 阅读全文

posted @ 2015-11-13 14:00 爱吃猫的鱼阅读(4464) 评论(0) 推荐(0)

(7)分布式下的爬虫Scrapy应该如何做-关于伪装和防Ban的那点事儿

只有注册用户登录后才能阅读该文。

posted @ 2015-11-10 16:18 爱吃猫的鱼阅读(234) 评论(0) 推荐(1)

python下的orm基本操作(1)--Mysql下的CRUD简单操作(含源码DEMO)

摘要：最近逐渐打算将工作的环境转移到ubuntu下，突然发现对于我来说，这ubuntu对于我这种上上网，收收邮件，写写博客，写写程序的时实在是太合适了，除了刚接触的时候会不怎么完全适应命令行及各种权限管理，apt-get命令相当的方便，各种原先在windows下各种奇怪错误在ubuntu下都没有出现了... 阅读全文

posted @ 2015-11-09 12:21 爱吃猫的鱼阅读(3994) 评论(2) 推荐(1)

(6)分布式下的爬虫Scrapy应该如何做-关于实时Debug的那些事儿

只有注册用户登录后才能阅读该文。

posted @ 2015-11-06 14:17 爱吃猫的鱼阅读(493) 评论(1) 推荐(0)

(5)分布式下的爬虫Scrapy应该如何做-windows下的redis的安装与配置

摘要：软件版本： redis-2.4.6-setup-64-bit.exe— Redis 2.4.6 Windows Setup (64-bit) 系统： win7 64bit 本篇的内容是为了给分布式下的爬虫做好预热的环境准备，我们知道单机的爬虫始终会有一个性能瓶颈，特别是对于是否爬过的URL来说，存... 阅读全文

posted @ 2015-11-05 14:51 爱吃猫的鱼阅读(676) 评论(0) 推荐(0)

django book 阅读笔记

摘要：一，django是一个十分优秀的python web的框架，那框架的是什么？假设我们不使用框架来进行编写，我们要用如下的代码进行web脚本： #!/usr/bin/env pythonimport MySQLdbprint "Content-Type: text/html\n"print "... 阅读全文

posted @ 2015-10-19 23:35 爱吃猫的鱼阅读(399) 评论(0) 推荐(0)

30分钟快速搭建Web CRUD的管理平台--django神奇魔法

摘要：加上你的准备的时间，估计30分钟完全够用了，因为最近在做爬虫管理平台，想着快速开发，没想到python web平台下有这么非常方便的框架，简洁而优雅。将自己的一些坑总结出来，方便给大家的使用。准备环境：系统：win7 or ubuntudjango版本：1.8.5python版本：2.7.6数据... 阅读全文

posted @ 2015-10-18 22:43 爱吃猫的鱼阅读(3769) 评论(4) 推荐(1)

python下的自动化测试--selenium 验证码输入问题

摘要：之前一直在研究scrapy下数据抓取，在研究ajax数据抓取时碰巧研究了一下selenium，确实很实用，不过只做scrapy下的数据抓取，不怎么合适，一是性能的损耗，一直需要开一个浏览器，二是对于爬虫来说，分析ajax的请求才是正事。好吧，说远了，今天来扯一下我对于自动化测试一些见解。 py... 阅读全文

posted @ 2015-09-22 18:35 爱吃猫的鱼阅读(13628) 评论(6) 推荐(2)

(4)分布式下的爬虫Scrapy应该如何做-规则自动爬取及命令行下传参

摘要：本次探讨的主题是规则爬取的实现及命令行下的自定义参数的传递，规则下的爬虫在我看来才是真正意义上的爬虫。我们选从逻辑上来看，这种爬虫是如何工作的：我们给定一个起点的url link ，进入页面之后提取所有的ur 链接，我们定义一个规则，根据规则(用正则表达式来限制)来提取我们想要的连接形式，然后爬取这... 阅读全文

posted @ 2015-09-15 16:48 爱吃猫的鱼阅读(3987) 评论(0) 推荐(1)

【实用】如何将sublime text 3 打造成实用的python IDE 环境

摘要：前段时间写脚本，一直使用的是pycharm ，无奈机器不配置实在不怎么样，我记得之前用过subline text，这是我用过的最酷炫的文本编辑器，参考了一下网上的文章，自己走了一些弯路，将心得写在这里，方便给需要帮助的人：这是完成配置后的界面：一，下载subline text 3 官网:h... 阅读全文

posted @ 2015-09-14 13:42 爱吃猫的鱼阅读(34834) 评论(8) 推荐(3)

(3)分布式下的爬虫Scrapy应该如何做-递归爬取方式，数据输出方式以及数据库链接

摘要：放假这段时间好好的思考了一下关于Scrapy的一些常用操作，主要解决了三个问题： 1.如何连续爬取 2.数据输出方式 3.数据库链接一，如何连续爬取：思考：要达到连续爬取，逻辑上无非从以下的方向着手 1)预加载需要爬取的列表，直接到这个列表都处理完，相应的爬取工作都已经完成了。 2)从第一页开始... 阅读全文

posted @ 2015-09-07 15:35 爱吃猫的鱼阅读(5099) 评论(3) 推荐(2)

(2)分布式下的爬虫Scrapy应该如何做-关于对Scrapy的反思和核心对象的介绍

摘要：本篇主要介绍对于一个爬虫框架的思考和，核心部件的介绍，以及常规的思考方法：一，猜想我们说的爬虫，一般至少要包含几个基本要素： 1.请求发送对象(sender,对于request的封装，防止被封) 2.解析文档对象(将请求的网页当作是html文档还是字符串) 3.承载所需要的解析对象(标准格式的... 阅读全文

posted @ 2015-09-02 17:07 爱吃猫的鱼阅读(1390) 评论(3) 推荐(0)

(1)分布式下的爬虫Scrapy应该如何做-安装

摘要：关于Scrapy的安装，网上一搜一大把，一个一个的安装说实话是有点麻烦，那有没有一键安装的？答案显然是有的，下面就是给神器的介绍：主页：http://conda.pydata.org/docs/ 下载地址:http://continuum.io/downloads 两个版本，64位和32位，根... 阅读全文

posted @ 2015-09-01 12:41 爱吃猫的鱼阅读(587) 评论(0) 推荐(1)

python常见示例->web简单示例

摘要：比如你抽取右边的活动代码段如下:import re #正则类from urllib import urlopen #提取内容类#打开链接webpage = urlopen("http://www.douban.com")#提取读取内容info = webpage.read()#正则匹配party = re.findall("<a.href=\"http://www.douban.com/online/[0-9]+.\">(.{1,50})</a>",info)if len(party)>0: for x 阅读全文

posted @ 2013-02-18 23:15 爱吃猫的鱼阅读(546) 评论(0) 推荐(0)

爱吃猫的鱼

===GitHub:https://github.com/BruceDone=== ===mysite:brucedone.com===

随笔分类 - Python

公告