摘要: 使用cmd创建一个scrapy项目: scrapy startproject project_name (project_name 必须以字母开头,只能包含字母、数字以及下划线<underscorce>) 项目目录层级如下: 声明Item 声明我们可能用到的所有字段,包括管理字段等。管理字段可以让我 阅读全文
posted @ 2019-01-21 12:01 程序猿Time 阅读(1004) 评论(0) 推荐(0) 编辑
摘要: scrapy的最通用的爬虫流程:UR2IM U:URL R2:Request 以及 Response I:Item M:More URL 在scrapy shell中打开服务器一个网页 cmd中执行:scrapy shell http://www.baidu.com (可以使用exit()退出) 此 阅读全文
posted @ 2019-01-20 18:49 程序猿Time 阅读(198) 评论(0) 推荐(0) 编辑
摘要: windows下安装scrapy 依次执行下列操作: pip install wheel pip install lxml pip install PyOpenssl 安装Microsoft visual c++ build tools pip install twisted 当此处提示错误时,安装 阅读全文
posted @ 2019-01-20 18:06 程序猿Time 阅读(134) 评论(0) 推荐(0) 编辑
摘要: HTML的三大概念:标签、元素以及属性 标签:尖括号中的文本 例:<head>……</head> 标签通常成对出现 元素:标签中的所有内容 元素中可包含元素 属性:标签的特殊标注等 例:<a href="http:\\www.baidu.com">……</a> 其中,href部分称为属性 使用XPa 阅读全文
posted @ 2019-01-19 10:37 程序猿Time 阅读(973) 评论(0) 推荐(0) 编辑
摘要: 计算时间差时,注意天数差引发的问题,获取天数差为 此处,需谨记date2>date1,以保证结果的正确性 具体应用如下: 注意:strftime()与strptime()的不同 阅读全文
posted @ 2019-01-19 09:46 程序猿Time 阅读(195) 评论(0) 推荐(0) 编辑
摘要: 1 #-*-coding:utf8-*- 2 import os 3 import subprocess 4 import shutil 5 import psutil 6 import time 7 8 9 #查找指定文件名称和查找范围的文件路径 10 def search(name, path): 11 name = name.lower() 12 fo... 阅读全文
posted @ 2018-10-15 01:34 程序猿Time 阅读(1028) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2018-09-29 20:34 程序猿Time 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 以爬取搜狗图片为例,网页特点:采用“瀑布流”的方式加载图片,图片的真实地址存放在XHR中 使用方法二时,如果使用参数allow_redirects=False,容易导致下载内容为空的情况;如果不使用该参数(默认是True),则容易导致页面重定向过多的错误。具体使用时,根据情况选择是否使用 阅读全文
posted @ 2018-09-08 21:51 程序猿Time 阅读(2587) 评论(0) 推荐(0) 编辑
摘要: 爬取起点中文网某本小说实例: 阅读全文
posted @ 2018-09-06 14:14 程序猿Time 阅读(739) 评论(0) 推荐(0) 编辑
摘要: Python的错误异常在大部分IDE编辑器中则可以直接显示出来,便于开发人员的调试及修改工作,对初学者也比较友好。 Python中包含错误和异常两种情况,错误主要是常见的语法错误SyntaxError,并且在错误提示中会有倒三角箭头的修改指示位置;python中的另外一种错误提醒叫做异常,指的是在语 阅读全文
posted @ 2018-08-22 21:35 程序猿Time 阅读(665) 评论(0) 推荐(0) 编辑