一个人的天空@

2013年10月16日

摘要：【请初学者作为参考，不建议高手看这个浪费时间】上一篇文章里介绍了scrapy的主要优点及linux下的安装方式，此篇文章将简要介绍scrapy的爬取过程，本文大部分内容源于scrapy文档，翻译并加上了笔者自己的理解。忘记scrapy，一般所说的爬虫工作分为两个部分，downoader 和 parser：downloader输入是url列表，输出抓取到的rawdata，可能时候是html源代码，也可能是json，xml格式的数据。parser输入是第一部分输出的rawdata，根据已知的规则提取所需的info图1. 简单爬虫图1所示的是最简单的爬虫，不考虑解析url，并把rawdata中的ur 阅读全文

posted @ 2013-10-16 18:03 一个人的天空@ 阅读(1297) 评论(0) 推荐(0) 编辑

【scrapy】使用方法概要（一）(转)

摘要：【请初学者作为参考，不建议高手看这个浪费时间】工作中经常会有这种需求，需要抓取互联网上的数据。笔者就经常遇到这种需求，一般情况下会临时写个抓取程序，但是每次遇到这种需求的时候，都几乎要重头写，特别是面临需要抓取大数量网页，并且被抓取网站有放抓取机制的时候，处理起来就会很麻烦。无意中接触到了一个开源的抓取框架scrapy，按照introduction做了第一个dirbot爬虫，觉得很方便，就小小研究了一下，并在工作中用到过几次。scrapy的文档是英文的，网上相关的说明很少，使用的过程中也遇到过很多问题，大部分都是在stack overflow上找到的解答，看来这个工具国外的同行们用的会更多些。阅读全文

posted @ 2013-10-16 18:02 一个人的天空@ 阅读(1411) 评论(0) 推荐(0) 编辑

【scrapy】使用方法概要（四）(转)

摘要：【请初学者作为参考，不建议高手看这个浪费时间】上一篇文章，我们抓取到了一大批代理ip，本篇文章介绍如何实现downloaderMiddleware，达到随即使用代理ip对目标网站进行抓取的。抓取的目标网站是现在炙手可热的旅游网站www.qunar.com,目标信息是qunar的所有seo页面，及页面的seo相关信息。qunar并没有一般网站具有的 robots.txt文件，所以无法利用列表进行抓取，但是，可以发现，qunar的seo页面主要部署在http://www.qunar.com/routes/下，这个页面为入口文件，由此页面及此页面上所有带有routes的链接开始递归的抓取所有带有ro 阅读全文

posted @ 2013-10-16 18:01 一个人的天空@ 阅读(1048) 评论(0) 推荐(0) 编辑

【scrapy】使用方法概要（三）(转)

摘要：请初学者作为参考，不建议高手看这个浪费时间】前两篇大概讲述了scrapy的安装及工作流程。这篇文章主要以一个实例来介绍scrapy的开发流程，本想以教程自带的dirbot作为例子，但感觉大家应该最先都尝试过这个示例，应该都很熟悉，这里不赘述，所以，将用笔者自己第一个较为完整的抓取程序作为示例作为讲解。首先，要大规模抓取一个网站的内容，必要的资源便是代理ip这一资源，如果不使用代理ip，又追求抓取的速度，很可能会被被抓网站发现行踪并封掉抓取机，所以抓取大量可用的代理ip便是我们第一个任务。大概这个爬虫要实现以下三个功能：1. 抓取代理ip，端口信息2. 验证代理ip，判断其透明性3. 将可用的代阅读全文

posted @ 2013-10-16 18:00 一个人的天空@ 阅读(5148) 评论(1) 推荐(0) 编辑

2013年10月12日

windows命令行快捷操作

摘要： net use \\ip\ipc$ " " /user:" " 建立IPC空链接 net use \\ip\ipc$ "密码" /user:"用户名" 建立IPC非空链接 net use h: \\ip\c$ "密码" /user:"用户名" 直接登陆后映射对方C：到本地为H: net use h: \\ip\c$ 登陆后映射对方C：到本地为H: net use \\ip\ipc$ /del 删除IPC链接 net use h: /del 删除映射对方到本地的为H:的映射 n 阅读全文

posted @ 2013-10-12 11:46 一个人的天空@ 阅读(895) 评论(0) 推荐(0) 编辑

2013年9月25日

HTML/CSS/Javascript代码在线压缩、格式化(美化)工具

摘要： CSS 格式化ProCSSor - http://procssor.com/CSS 压缩CSS Compressor - http://www.cssdrive.com/index.php/main/csscompressorHTML 格式化Tabifier - http://tools.arantius.com/tabifierHTML 压缩Compress HTML - http://www.textfixer.com/html/compress-html-compression.phpJavascript 格式化Online javascript beautifier - http:// 阅读全文

posted @ 2013-09-25 16:12 一个人的天空@ 阅读(636) 评论(0) 推荐(0) 编辑

关闭IE8的首次运行自定义设置

摘要：方法一：顺着IE8的提示，一步一步的了解看完或设置完等的，它“推荐”的你应该做的事，然后重新设置首页就行了。方法二：开始->运行->输入：gpedit.msc->用户配置->管理模板->windows组件->InternetExplorer->双击下面的"阻止执行首次运行自定义设置"->选择"已启用"，复选"直接转到主页"。方法三：打开记事本输入 WindowsRegistryEditorVersion5.00 [HKEY_CURRENT_USER\Software\Policies\ 阅读全文

posted @ 2013-09-25 15:54 一个人的天空@ 阅读(1633) 评论(0) 推荐(0) 编辑

2013年9月22日

Duplicate Elimination in Scrapy(转)

摘要：之前介绍 Scrapy的时候提过 Spider Trap ，实际上，就算是正常的网络拓扑，也是很复杂的相互链接，虽然我当时给的那个例子对于我感兴趣的内容是可以有一个线性顺序依次爬下来的，但是这样的情况在真正的网络结构中通常是少之又少，一但链接网络出现环路，就无法进行拓扑排序而得出一个依次遍历的顺序了，所以 duplicate elimination 可以说是每一个 non-trivial 的必备组件之一，这样就算在遍历的过程中遇到环路也不用怕，排重组件会检测到已经访问过的地址，从而避免在环路上无限地循环下去。最简单的办法也就是每次抓取页面的时候记录下 URL ，然后每次抓取新的 URL 之前先阅读全文

posted @ 2013-09-22 23:21 一个人的天空@ 阅读(4403) 评论(1) 推荐(4) 编辑

python中的__all__和__slots__

摘要： python两个有趣属性__all__可用于模块导入时限制，如：from module import *此时被导入模块若定义了__all__属性，则只有all内指定的属性、方法、类可被导入~若没定义，则模块内的所有将被导入。__slots__用于限定类属性，如：class A(object): __slots__ = ['var']此时外部调用时，如：a = A()a.var = 4 #不会报错a.other = 4 #此时则会抛出异常AttributeError 阅读全文

posted @ 2013-09-22 22:12 一个人的天空@ 阅读(790) 评论(1) 推荐(1) 编辑

2013年9月21日

Redis在Windows+linux平台下的安装配置(转)

摘要： window平台Redis安装下载地址: http://code.google.com/p/servicestack/wiki/RedisWindowsDownload Redis文件夹有以下几个文件redis-server.exe：服务程序redis-check-dump.exe：本地数据库检查redis-check-aof.exe：更新日志检查redis-benchmark.exe：性能测试，用以模拟同时由N个客户端发送M个 SETs/GETs 查询 (类似于 Apache 的ab 工具). 指定redis的配置文件，如没有指定，则使用默认设置解压目录:\>redis-serve 阅读全文

posted @ 2013-09-21 10:10 一个人的天空@ 阅读(347) 评论(1) 推荐(0) 编辑

Redis配置文件参数说明

摘要：配置文件参数说明:1. Redis默认不是以守护进程的方式运行，可以通过该配置项修改，使用yes启用守护进程daemonize no2. 当Redis以守护进程方式运行时，Redis默认会把pid写入/var/run/redis.pid文件，可以通过pidfile指定pidfile /var/run/redis.pid3. 指定Redis监听端口，默认端口为6379，作者在自己的一篇博文中解释了为什么选用6379作为默认端口，因为6379在手机按键上MERZ对应的号码，而MERZ取自意大利歌女Alessia Merz的名字port 63794. 绑定的主机地址bind 127.0.0.15.当阅读全文

posted @ 2013-09-21 10:03 一个人的天空@ 阅读(27431) 评论(1) 推荐(2) 编辑

2013年9月16日

Win8开机直接进桌面方法

摘要：最新的Win8系统由于新增开始屏幕（UI）界面，专门为触摸设备准备，并且很多喜欢尝鲜的电脑爱好者朋友在我们传统的电脑上安装了Win8系统，不少PC用户开始都不喜欢Win8开机后进入UI界面而非传统的电脑桌面，对于Win8系统优秀与否我们暂且不讨论，大家实际使用过自有定论，下面本文主要与大家介绍下Win8怎么直接进入桌面，而不是开机进入开始屏幕。 Win8怎么进入桌面 Win8开机直接进桌面方法对于平板电脑或者支持触摸的笔记本或者超级本而言，Win8电脑开机直接进入开始屏幕的触摸界面或许很有必要，但对于我们传统的非触摸电脑而言，开机进入传统的电脑桌面也非常必要，但Win8系统在开机过程中，并没有阅读全文

posted @ 2013-09-16 19:01 一个人的天空@ 阅读(2710) 评论(0) 推荐(0) 编辑

2013年9月11日

Apache的443端口被占用解决方法(转)

摘要：今天想做PHP程序，结果启动Apache的时候控制台报443端口被占用。原因是我的虚拟机VMware占用443端口用于连接远程服务器的。其实出现这些状况很正常。因为不同的程序很有可能同时需要一个端口维持其服务。这里写给入门者告诉大家解决方法。首先，443端口是Https端口，Apache作为本地服务器当然会启动它，但是该端口被占用，我的是被VMware占用，也有可能被Skype等程序占用，因此做法就很简单就是修改端口。进入Apache的安装目录，搜索httpd-ssl.conf，右击文本打开。寻找443替换成其他不常用的端口号，比如442。接下来就可以正常启动Apache了。还有一些情况比如电阅读全文

posted @ 2013-09-11 15:47 一个人的天空@ 阅读(25681) 评论(2) 推荐(0) 编辑

Windows netstat 查看端口、进程占用

摘要：目标：在Windows环境下，用netstat命令查看某个端口号是否占用，为哪个进程所占用.操作：操作分为两步：（1）查看该端口被那个PID所占用;方法一：有针对性的查看端口，使用命令Netstat –ano|findstr “”,如图，最后一列为PID。图中的端口号为1068，所对应的PID为3840。方法二：查看所有的，然后找到对应的端口和PID。第一幅图中的5列就是上面(a)图对应的5列（2）查看该PID对应的进程名称。方法一：一直用命令查找，tasklist|findstr “”从(c)图可以看出，PID为3840所对应的进程名字为msnmsgr.exe。方法二：用任务管理器查看。调出阅读全文

posted @ 2013-09-11 15:45 一个人的天空@ 阅读(114073) 评论(1) 推荐(6) 编辑

2013年9月10日

InvalidateRect(转)

摘要： ///===================该段是自己总结的一个小结=================================InvalidateRect()函数的作用是设置一个无效区域，并发送一个WM_PAINT消息到消息队列中，不过这个消息在众多的消息之中优先级比较级。在VC++编程中，对无效区域的处理方式是：在OnPaint()中绘图，不管它绘制了什么图形，有一点应该明白，有效区域是绘制不上去图形的，或者是尽管绘制上去了，但也不会显示出来。总之就是在有效区域上绘制的图形不能生效。换一种说法就是：在OnPaint()中绘图，不管它绘制了什么图形，只有设置为无效区域的区域才会显示它所阅读全文

posted @ 2013-09-10 13:53 一个人的天空@ 阅读(5554) 评论(0) 推荐(0) 编辑

公告