Fork me on GitHub

06 2015 档案

摘要:转载自:http://www.ibm.com/developerworks/cn/linux/l-cn-pythondebugger/Debug 对于任何开发人员都是一项非常重要的技能,它能够帮助我们准确的定位错误,发现程序中的 bug。python 提供了一系列 debug 的工具和包,可供我们选... 阅读全文
posted @ 2015-06-28 11:46 秋楓 阅读(75607) 评论(0) 推荐(1) 编辑
摘要:本文转载自:http://blog.pluskid.org/?p=381 之前介绍 Scrapy的时候提过 Spider Trap ,实际上,就算是正常的网络拓扑,也是很复杂的相互链接,虽然我当时给的那个例子对于我感兴趣的内容是可以有一个线性顺序依次爬下来的,但是这样的情况在真正的网络结构中通... 阅读全文
posted @ 2015-06-27 10:32 秋楓 阅读(916) 评论(0) 推荐(0) 编辑
摘要:这是一篇几年前写下的文档,最近打算根据这篇文档重写一下kettle插件的教程。结果各种理由,一推再推。今天索性将这篇文档发布出来,分享给大家,例子等有空再补上。这是一篇基于kettle3.2基础上完成的kettle插件文档。然而现在最新版的kettle的界面已经完全变了样了,但是那些组件还是那么... 阅读全文
posted @ 2015-06-26 11:52 秋楓 阅读(17505) 评论(0) 推荐(2) 编辑
摘要:这是一个简单的php加phpquery实现抓取京东商品分类页内容的简易爬虫。phpquery可以非常简单地帮助你抽取想要的html内容,phpquery和jquery非常类似,可以说是几乎一样;如果你有jquery的基础的话你可以迅速地上手。 1、下载phpquery并置于web根目录下的ph... 阅读全文
posted @ 2015-06-22 08:23 秋楓 阅读(5595) 评论(1) 推荐(1) 编辑
摘要:如果管理的站点和服务器较多的情况下,每次修改配置文件都相当痛苦。因而想到了用shell脚本来批量生成配置文件和配置数据。下面这个脚本是为了批量生成nagios监控配置文件的一个shell脚本程序。其原理是事先定义一个shell脚本模板,然后每个需要监控的站点复制一份模板替换掉模板文件里面的变量。... 阅读全文
posted @ 2015-06-21 16:53 秋楓 阅读(6136) 评论(0) 推荐(1) 编辑
摘要:在日常的网站发布中很多情况下都无法做到一个IP对应一个站点,在IP4的情况下IP的资源是相对有限的。然而作为最流行的Apache自然也考虑到这种情况,那么接下来看看apache服务器怎么配置一个IP多个站点。 在httpd.conf中找到 "# Virtual hosts",并添加如下行 ... 阅读全文
posted @ 2015-06-20 15:58 秋楓 阅读(2539) 评论(0) 推荐(0) 编辑
摘要:这是一篇收集在日志里的文档,当初查看服务器sshd日志发现很多不明IP尝试登陆,因此想用什么办法阻止这样的事情发生。网上找了下用denyhosts可以解决这样的问题,因而也就将其收集在日志里了。由于时间较久远,找不到原文的出处,如果你知道原文出处,可以联系我加上。好了,入正题。 Denyhos... 阅读全文
posted @ 2015-06-20 15:23 秋楓 阅读(3389) 评论(0) 推荐(0) 编辑
摘要:这是一篇记录在日志里面的文章,今儿趁有时间整理整理。这篇文章记录了整个服务器切换的具体步骤和实施细则,一些小网站的搬迁和服务器的迁移可以做个参考。同时也记录下,方便自己的查阅。这是一个php+mysql写的网站,前期用的windows2003服务器。后来由于业务需要,将其更换为linux的vps... 阅读全文
posted @ 2015-06-20 15:04 秋楓 阅读(2259) 评论(0) 推荐(2) 编辑
摘要:试想一下,如果有10G数据,或者更多;怎么才能够快速地去重呢?你会说将数据导入到数据库(mysql等)进行去重,或者用java写个程序进行去重,或者用Hadoop进行处理。如果是大量的数据要写入数据库也不是一件容易的事情,首先你需要开发一个程序将数据写入数据库,然后再用数据库的select di... 阅读全文
posted @ 2015-06-18 18:17 秋楓 阅读(12216) 评论(9) 推荐(2) 编辑
摘要:前面我们介绍了scrapy爬虫防屏蔽的技巧,前面用的是禁用cookies、动态设置user agent、代理IP和VPN等一系列的措施来达到防屏蔽的效果。然而官方文档还提到了利用Google cache和第三方平台crawlera来做爬虫防屏蔽。本文章着重介绍下利用第三方平台crawlera来避免爬虫被ban的具体方法。 阅读全文
posted @ 2015-06-16 23:33 秋楓 阅读(17836) 评论(11) 推荐(2) 编辑
摘要:如果我们有10个定制的spider,甚至更多。此时我们怎么快速地让这些spider运行起来呢?通过shell脚本是一种方式,官方也给出了scrapy同时运行多个脚本的方法。然而这些方法感觉都比较笨拙,同时也是为了学习一下scrapy是怎么自定义命令的。因此本文通过自定义scrapy命令的方式来快速运行多个spider。 阅读全文
posted @ 2015-06-16 16:27 秋楓 阅读(38555) 评论(11) 推荐(2) 编辑
摘要:现在很多网站设置了禁止爬虫抓取的策略,那如何让你的scrapy爬虫不在被禁用呢?本文章主要通过一系列的策略做到尽可能避免爬虫被ban。抓取的时候使用随机的user agent、禁用cookies、随机切换代理IP和下载延迟等等的策略来避免网站的反爬虫。 阅读全文
posted @ 2015-06-14 22:50 秋楓 阅读(40039) 评论(21) 推荐(15) 编辑
摘要:前面小试了一下scrapy抓取博客园的博客(您可在此查看scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据),但是前面抓取的数据时保存为json格式的文本文件中的。这很显然不满足我们日常的实际应用,接下来看下如何将抓取的内容保存在常见的mysql数据库中吧。 说明:所有的操... 阅读全文
posted @ 2015-06-12 18:58 秋楓 阅读(26614) 评论(13) 推荐(4) 编辑
摘要:在安装完scrapy以后,相信大家都会跃跃欲试想定制一个自己的爬虫吧?我也不例外,下面详细记录一下定制一个scrapy工程都需要哪些步骤。如果你还没有安装好scrapy,又或者为scrapy的安装感到头疼和不知所措,可以参考下前面的文章安装python爬虫scrapy踩过的那些坑和编程外的思考。... 阅读全文
posted @ 2015-06-10 20:04 秋楓 阅读(13925) 评论(6) 推荐(5) 编辑
摘要:python如何将json格式的数据快速的转化成指定格式的数据呢?或者转换成sql文件?下面的例子是将json格式的数据准换成以#_#分割的文本数据,也可用于生成sql文件。[root@bogon tutorial]# vi json2txt.py #-*- coding: UTF-8 -*-imp... 阅读全文
posted @ 2015-06-10 15:35 秋楓 阅读(12726) 评论(0) 推荐(0) 编辑
摘要:测试文件[root@bogon ~]# cat >testjasonjasonjasonfffffjason按 Ctr + D保存1、sort -u[root@bogon ~]# sort -u testfffffjason2、uniq[root@bogon ~]# uniq testjasonff... 阅读全文
posted @ 2015-06-10 15:15 秋楓 阅读(21456) 评论(0) 推荐(1) 编辑
摘要:这些天应朋友的要求抓取某个论坛帖子的信息,网上搜索了一下开源的爬虫资料,看了许多对于开源爬虫的比较发现开源爬虫scrapy比较好用。但是以前一直用的java和php,对python不熟悉,于是花一天时间粗略了解了一遍python的基础知识。然后就开干了,没想到的配置一个运行环境就花了我一天时间。... 阅读全文
posted @ 2015-06-06 21:07 秋楓 阅读(139145) 评论(9) 推荐(12) 编辑
摘要:本文转载自:http://coolshell.cn/articles/1379.htmlBash是Linux操作系统的默认Shell脚本。Shell是用来处理操作系统和用户交互的一个程序。Shell的脚本可以帮助用户自动化地和操作系统进行交互。你也可以理解为一种脚本式的编程。即然有编程,那么,程序的... 阅读全文
posted @ 2015-06-03 15:40 秋楓 阅读(462) 评论(0) 推荐(0) 编辑
摘要:本文转载自:https://www.ibm.com/developerworks/cn/linux/l-cn-shell-debug/Shell脚本调试技术本文全面系统地介绍了shell脚本调试技术,包括使用echo, tee, trap等命令输出关键信息,跟踪变量的值,在脚本中植入调试钩子,使用“... 阅读全文
posted @ 2015-06-03 15:38 秋楓 阅读(498) 评论(0) 推荐(0) 编辑
摘要:shell脚本编程基础之练习篇。1、编写一个脚本使我们在写一个脚本时自动生成”#!/bin/bash”这一行和注释信息。#!/bin/bashif [ $# -ne 1 ]then echo "请输入一个参数" exitelse echo "参数正确" ... 阅读全文
posted @ 2015-06-02 23:04 秋楓 阅读(1974) 评论(0) 推荐(0) 编辑
摘要:1、 FP(Fast Projection)此索引为默认的索引形式,在创建表时系统自动设置此索引。 特点:用于SELECT、LIKE '%sys%'、SUM(A+B)、JOIN操作等语句。 此类型索引也是唯一可用于BIT数据类型的索引。 FP索引可以优化索引,将小于255的唯一值的索引压缩到1... 阅读全文
posted @ 2015-06-02 11:04 秋楓 阅读(821) 评论(0) 推荐(0) 编辑
摘要:在使用kettle进行数据分析和清洗时日志非常多而且杂乱,使用原有的日志有时找不到异常的位置,有时日志不够详细,说简单一点就是日志不是我们想要的。因而对kettle日志进行相应的管理就想得尤为重要了。大家都知道java最常用的日志管理包log4j可以很好地实现java日志的管理,然而kettle... 阅读全文
posted @ 2015-06-02 10:51 秋楓 阅读(10386) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示