摘要:
试想一下,如果有10G数据,或者更多;怎么才能够快速地去重呢?你会说将数据导入到数据库(mysql等)进行去重,或者用java写个程序进行去重,或者用Hadoop进行处理。如果是大量的数据要写入数据库也不是一件容易的事情,首先你需要开发一个程序将数据写入数据库,然后再用数据库的select di... 阅读全文
摘要:
前面我们介绍了scrapy爬虫防屏蔽的技巧,前面用的是禁用cookies、动态设置user agent、代理IP和VPN等一系列的措施来达到防屏蔽的效果。然而官方文档还提到了利用Google cache和第三方平台crawlera来做爬虫防屏蔽。本文章着重介绍下利用第三方平台crawlera来避免爬虫被ban的具体方法。 阅读全文
摘要:
如果我们有10个定制的spider,甚至更多。此时我们怎么快速地让这些spider运行起来呢?通过shell脚本是一种方式,官方也给出了scrapy同时运行多个脚本的方法。然而这些方法感觉都比较笨拙,同时也是为了学习一下scrapy是怎么自定义命令的。因此本文通过自定义scrapy命令的方式来快速运行多个spider。 阅读全文
摘要:
现在很多网站设置了禁止爬虫抓取的策略,那如何让你的scrapy爬虫不在被禁用呢?本文章主要通过一系列的策略做到尽可能避免爬虫被ban。抓取的时候使用随机的user agent、禁用cookies、随机切换代理IP和下载延迟等等的策略来避免网站的反爬虫。 阅读全文
摘要:
前面小试了一下scrapy抓取博客园的博客(您可在此查看scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据),但是前面抓取的数据时保存为json格式的文本文件中的。这很显然不满足我们日常的实际应用,接下来看下如何将抓取的内容保存在常见的mysql数据库中吧。 说明:所有的操... 阅读全文
摘要:
在安装完scrapy以后,相信大家都会跃跃欲试想定制一个自己的爬虫吧?我也不例外,下面详细记录一下定制一个scrapy工程都需要哪些步骤。如果你还没有安装好scrapy,又或者为scrapy的安装感到头疼和不知所措,可以参考下前面的文章安装python爬虫scrapy踩过的那些坑和编程外的思考。... 阅读全文
摘要:
python如何将json格式的数据快速的转化成指定格式的数据呢?或者转换成sql文件?下面的例子是将json格式的数据准换成以#_#分割的文本数据,也可用于生成sql文件。[root@bogon tutorial]# vi json2txt.py #-*- coding: UTF-8 -*-imp... 阅读全文
摘要:
测试文件[root@bogon ~]# cat >testjasonjasonjasonfffffjason按 Ctr + D保存1、sort -u[root@bogon ~]# sort -u testfffffjason2、uniq[root@bogon ~]# uniq testjasonff... 阅读全文
摘要:
这些天应朋友的要求抓取某个论坛帖子的信息,网上搜索了一下开源的爬虫资料,看了许多对于开源爬虫的比较发现开源爬虫scrapy比较好用。但是以前一直用的java和php,对python不熟悉,于是花一天时间粗略了解了一遍python的基础知识。然后就开干了,没想到的配置一个运行环境就花了我一天时间。... 阅读全文
摘要:
本文转载自:http://coolshell.cn/articles/1379.htmlBash是Linux操作系统的默认Shell脚本。Shell是用来处理操作系统和用户交互的一个程序。Shell的脚本可以帮助用户自动化地和操作系统进行交互。你也可以理解为一种脚本式的编程。即然有编程,那么,程序的... 阅读全文
摘要:
本文转载自:https://www.ibm.com/developerworks/cn/linux/l-cn-shell-debug/Shell脚本调试技术本文全面系统地介绍了shell脚本调试技术,包括使用echo, tee, trap等命令输出关键信息,跟踪变量的值,在脚本中植入调试钩子,使用“... 阅读全文
摘要:
shell脚本编程基础之练习篇。1、编写一个脚本使我们在写一个脚本时自动生成”#!/bin/bash”这一行和注释信息。#!/bin/bashif [ $# -ne 1 ]then echo "请输入一个参数" exitelse echo "参数正确" ... 阅读全文
摘要:
1、 FP(Fast Projection)此索引为默认的索引形式,在创建表时系统自动设置此索引。 特点:用于SELECT、LIKE '%sys%'、SUM(A+B)、JOIN操作等语句。 此类型索引也是唯一可用于BIT数据类型的索引。 FP索引可以优化索引,将小于255的唯一值的索引压缩到1... 阅读全文
摘要:
在使用kettle进行数据分析和清洗时日志非常多而且杂乱,使用原有的日志有时找不到异常的位置,有时日志不够详细,说简单一点就是日志不是我们想要的。因而对kettle日志进行相应的管理就想得尤为重要了。大家都知道java最常用的日志管理包log4j可以很好地实现java日志的管理,然而kettle... 阅读全文
摘要:
mysql主从复制相信已经用得很多了,但是由于工作原因一直没怎么用过。趁着这段时间相对空闲,也就自己实现一遍。尽管互联网上已有大把类似的文章,但是自身实现的仍然值得记录。环境:主服务器:centos 6.0 mysql 5.1.67-log IP:192.168.0.107从服务器:centos... 阅读全文