【Python】 - 随笔分类 - 午时的海

Linux统计文件个数

摘要：查看某个文件夹下的文件个数用ls列目录,用grep过虑,再用wc统计即可用ls -l列出后, 每一行对应一个文件或目录, 如果第一个字母为’-'则为普通文件, 若为’d'则为子目录 + +grep过虑规则中用’^'指明开头模式 wc -l指明进行行统计(因为每一行对应一个文件) 所以统计某个文件夹下普通文件的个数可用 ls -l | grep "^-" |wc -l... 阅读全文

posted @ 2016-05-10 10:16 午时的海阅读(353) 评论(0) 推荐(0)

python string与list互转

摘要：因为python的read和write方法的操作对象都是string。而操作二进制的时候会把string转换成list进行解析，解析后重新写入文件的时候，还得转换成string。阅读全文

posted @ 2016-04-27 14:31 午时的海阅读(1472) 评论(0) 推荐(0)

Python中请使用isinstance()判断变量类型

摘要：一、isinstance() 在Python中可以使用type()与isinstance()这两个函数判断对象类型，而isinstance()函数的使用上比type更加方便。执行结果：二、isinstance 和 type的区别 isinstance 和 type的区别在于：代码如下: cla 阅读全文

posted @ 2016-04-27 14:28 午时的海阅读(528) 评论(0) 推荐(0)

xpath提取多个标签下的text

摘要：在写爬虫的时候，经常会使用xpath进行数据的提取，对于如下的代码：使用xpath提取是非常方便的。假设网页的源代码在selector中：就可以把“大家好！”提取到data变量中去。然而如果遇到下面这段代码呢？如果使用：只能提取到“美女，”；如果使用：又只能提取到“你的微信是多少？” 阅读全文

posted @ 2016-04-27 11:09 午时的海阅读(3881) 评论(0) 推荐(0)

python遍历数组的两种方法

摘要：第一种，最常用的，通过for in遍历数组 1 2 3 4 5 6 7 8 colours = ["red","green","blue"] for colour in colours: print colour # red # green # blue 1 2 3 4 5 6 7 8 colour 阅读全文

posted @ 2016-04-26 19:27 午时的海阅读(11780) 评论(1) 推荐(0)

selenium webdriver的各种driver

摘要：selenium官方加上第三方宣布支持的驱动有很多种；除了PC端的浏览器之外，还支持iphone、Android的driver；大概记录一下selenium支持的各种driver的用途与说明。 selenium可支持的PC浏览器驱动包括： FF driver【包含在各自语言的客户端里】 safari 阅读全文

posted @ 2016-04-22 10:51 午时的海阅读(380) 评论(0) 推荐(0)

Scrapy and Selenium

摘要：How to scrapy js? scrapy结合webkit抓取js生成的页面 http://www.cnblogs.com/Safe3/archive/2011/10/19/2217965.html pip install -U selenium Selenium IDEhttp://docs 阅读全文

posted @ 2016-04-21 13:58 午时的海阅读(571) 评论(0) 推荐(0)

scrapy和selenium结合抓取动态网页

摘要：1、安装python (我用的是2.7版本的) 2、安装scrapy: 详情请参考 http://blog.csdn.net/wukaibo1986/article/details/8167590 (提示，能下载源码安装的就避免用pip install **) 安装过程中遇到python扩展问题”u 阅读全文

posted @ 2016-04-21 11:01 午时的海阅读(4037) 评论(0) 推荐(0)

Python处理JSON

摘要：Python处理JSON （如果阅读效果不佳，可戳这里）概念序列化（Serialization）：将对象的状态信息转换为可以存储或可以通过网络传输的过程，传输的格式可以是JSON、XML等。反序列化就是从存储区域（JSON，XML）读取反序列化对象的状态，重新创建该对象。 JSON（JavaSc 阅读全文

posted @ 2016-04-20 12:07 午时的海阅读(427) 评论(0) 推荐(0)

Python的getattr()

摘要：Python的getattr(),setattr(),delattr(),hasattr() getattr()函数是Python自省的核心函数，具体使用大体如下：获取对象引用getattrGetattr用于返回一个对象属性，或者方法 class A: def __init__(self): se 阅读全文

posted @ 2016-04-12 15:42 午时的海阅读(1190) 评论(0) 推荐(0)

同时运行多个scrapy爬虫的几种方法（自定义scrapy项目命令）

摘要：试想一下，前面做的实验和例子都只有一个spider。然而，现实的开发的爬虫肯定不止一个。既然这样，那么就会有如下几个问题：1、在同一个项目中怎么创建多个爬虫的呢？2、多个爬虫的时候是怎么将他们运行起来呢？说明：本文章是基于前面几篇文章和实验的基础上完成的。如果您错过了，或者有疑惑的地方可以在此查看阅读全文

posted @ 2016-04-08 14:36 午时的海阅读(785) 评论(0) 推荐(0)

Python：文件的读取、创建、追加、删除、清空

摘要：一、用Python创建一个新文件，内容是从0到9的整数, 每个数字占一行：#python>>>f=open('f.txt','w') # r只读，w可写，a追加>>>for i in range(0,10):f.write(str(i)+'\n'). . .>>> f.close()二、文件内容追加阅读全文

posted @ 2016-04-08 10:45 午时的海阅读(4249) 评论(0) 推荐(0)

python version 2.7 required,which was not found in the registry

摘要：安装PIL-1.1.7.win32-py2.7的时候，不能再注册表中识别出来python2.7 方法：新建一个register.py 文件，把一下代码贴进去，保存 (代码来自：http://effbot.org/zone/python-register.htm) 显示“python 2.7 is n 阅读全文

posted @ 2016-04-05 18:13 午时的海阅读(245) 评论(0) 推荐(0)

get-pip.py 安装

摘要：http://www.pip-installer.org/en/latest/installing.html$ curl http://pypi.python.org/packages/source/d/distribute/distribute-0.6.28.tar.gz解压，然后进入目录，执行：阅读全文

posted @ 2016-04-05 17:35 午时的海阅读(20731) 评论(0) 推荐(0)

Scrapy入门教程

摘要：Python 版本要注意。此Scrapy版本为0.14 在这篇入门教程中，我们假定你已经安装了Scrapy。如果你还没有安装，那么请参考安装指南。我们将使用开放目录项目(dmoz)作为抓取的例子。这篇入门教程将引导你完成如下任务： Scrapy是由Python编写的。如果你是Python新手，阅读全文

posted @ 2016-04-05 16:41 午时的海阅读(576) 评论(0) 推荐(0)

午时的海

随笔分类 - 【Python】

公告