上一页 1 2 3 4 5 6 7 ··· 11 下一页
摘要: Scrapy-Redis 架构分析 scrapy任务调度是基于文件系统,这样只能在单机执行crawl。 scrapy-redis将待抓取request请求信息和数据items信息的存取放到redis queue里,使多台服务器可以同时执行crawl和items process,大大提升了数据爬取和处 阅读全文
posted @ 2019-05-02 14:27 点点花飞谢 阅读(265) 评论(0) 推荐(0) 编辑
摘要: linux下递归删除目录下所有exe文件 (1) "." 表示从当前目录开始递归查找 (2) “ -name '*.exe' "根据名称来查找,要查找所有以.exe结尾的文件夹或者文件 (3) " -type f "查找的类型为文件 (4) "-print" 输出查找的文件目录名 (5) 最主要的是 阅读全文
posted @ 2019-05-02 13:10 点点花飞谢 阅读(840) 评论(0) 推荐(0) 编辑
摘要: 1、一个众所周知的问题,Ajax直接请求普通文件存在跨域无权限访问的问题,甭管你是静态页面、动态网页、web服务、WCF,只要是跨域请求,一律不准。 2、不过我们又发现,Web页面上调用js文件时则不受是否跨域的影响(不仅如此,我们还发现凡是拥有”src”这个属性的标签都拥有跨域的能力,比如<\sc 阅读全文
posted @ 2019-04-29 17:51 点点花飞谢 阅读(208) 评论(0) 推荐(0) 编辑
摘要: Django后端向前端直接传html语言防止转义的方法(2种) 目的,为了让前端对后端传输的这种方式不转义 1.使用mark_safe() 2.使用safe过滤器 阅读全文
posted @ 2019-04-29 15:59 点点花飞谢 阅读(867) 评论(0) 推荐(0) 编辑
摘要: pycharm .sqlite文件拖动到Database里面为空 查资料得到解决方法: 阅读全文
posted @ 2019-04-29 11:38 点点花飞谢 阅读(478) 评论(0) 推荐(1) 编辑
摘要: 原因: 在django2.0后,定义外键和一对一关系的时候需要加on_delete选项,此参数为了避免两个表里的数据不一致问题,不然会报错:TypeError: __init__() missing 1 required positional argument: 'on_delete'举例说明:us 阅读全文
posted @ 2019-04-29 11:25 点点花飞谢 阅读(146) 评论(0) 推荐(0) 编辑
摘要: pip更新了所有插件,发现了按平常编码遇到些问题,记录下。 Django错误 django.core.exceptions.ImproperlyConfigured: Application labels aren't unique, duplicates: XXX(application name 阅读全文
posted @ 2019-04-29 11:18 点点花飞谢 阅读(619) 评论(0) 推荐(0) 编辑
摘要: 第一部分 Python基础篇(80题) 为什么学习Python? 通过什么途径学习的Python? Python和Java、PHP、C、C#、C++等其他语言的对比? 简述解释型和编译型编程语言? Python解释器种类以及特点? 位和字节的关系? b、B、KB、MB、GB 的关系? 请至少列举5个 阅读全文
posted @ 2019-04-27 09:31 点点花飞谢 阅读(295) 评论(0) 推荐(0) 编辑
摘要: 作者:武沛齐 出处:http://www.cnblogs.com/wupeiqi/ 本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接。 1、进入官网 2、下载 官网下载:http://kindeditor.net/down.php 本地下载:ht 阅读全文
posted @ 2019-04-27 09:15 点点花飞谢 阅读(640) 评论(0) 推荐(0) 编辑
摘要: 作者:武沛齐 出处:http://www.cnblogs.com/wupeiqi/ 本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接。 概述 对于WEB应用程序:用户浏览器发送请求,服务器接收并处理请求,然后返回结果,往往返回就是字符串(HTML 阅读全文
posted @ 2019-04-27 09:08 点点花飞谢 阅读(207) 评论(0) 推荐(0) 编辑
摘要: 转自: 作者:武沛齐 出处:http://www.cnblogs.com/wupeiqi/ 本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接。 阅读全文
posted @ 2019-04-27 09:06 点点花飞谢 阅读(250) 评论(0) 推荐(0) 编辑
摘要: ####PC端UA #Opera "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60" "Opera/8.0 (Windows NT 5.1; U; en)" "Mozilla/5.0 (Wind... 阅读全文
posted @ 2019-04-26 19:22 点点花飞谢 阅读(7266) 评论(0) 推荐(0) 编辑
摘要: Scrapy logger 在每个spider实例中提供了一个可以访问和使用的实例,方法如下: 方法二: 该记录器是使用spider的名称创建的,当然也可以应用到任意项目中 只需使用logging.getLogger函数获取其名称即可使用其记录器: so anyway:我们也可以使用__name__ 阅读全文
posted @ 2019-04-26 15:27 点点花飞谢 阅读(2772) 评论(0) 推荐(1) 编辑
摘要: Model 到目前为止,当我们的程序涉及到数据库相关操作时,我们一般都会这么搞: 创建数据库,设计表结构和字段 使用 MySQLdb 来连接数据库,并编写数据访问层代码 业务逻辑层去调用数据访问层执行数据库操作 import MySQLdb def GetList(sql): db = MySQLd 阅读全文
posted @ 2019-04-24 19:52 点点花飞谢 阅读(799) 评论(0) 推荐(0) 编辑
摘要: 项目地址:https://hr.tencent.com/ 步骤一、分析网站结构和待爬取内容 以下省略一万字 步骤二、上代码(不能略了) 1、配置items.py 2、配置settings.py 配置mongo 切记注册ITEM_PIPELINES ITEM_PIPELINES = { # 'hr_t 阅读全文
posted @ 2019-04-22 15:35 点点花飞谢 阅读(383) 评论(0) 推荐(0) 编辑
摘要: 安装完成scrapy后爬取部分信息已经不能满足躁动的心了,那么试试http://quotes.toscrape.com/整站数据爬取 第一部分 项目创建 1、进入到存储项目的文件夹,执行指令 scrapy startproject quotetutorial ,新建一个项目quotetutorial 阅读全文
posted @ 2019-04-21 16:57 点点花飞谢 阅读(311) 评论(0) 推荐(0) 编辑
摘要: 爬取步骤:# 1、#找到url地址 # url = "https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0" # 2、解析URL,得到网页源码 # 3、从网页源代码里提取数据 # 4、保存数据 # -*- co... 阅读全文
posted @ 2019-04-18 19:09 点点花飞谢 阅读(318) 评论(0) 推荐(0) 编辑
摘要: 在使用Scrapy开发爬虫时,通常需要创建一个Scrapy项目。通过如下命令即可创建 Scrapy 项目: scrapy startproject ZhipinSpider 在上面命令中,scrapy 是Scrapy 框架提供的命令;startproject 是 scrapy 的子命令,专门用于创建 阅读全文
posted @ 2019-04-17 23:08 点点花飞谢 阅读(5779) 评论(0) 推荐(0) 编辑
摘要: 除将爬取到的信息写入文件中之外,程序也可通过修改 Pipeline 文件将数据保存到数据库中。为了使用数据库来保存爬取到的信息,在 MySQL 的 python 数据库中执行如下 SQL 语句来创建 job_inf 数据表: 然后将 Pipeline 文件改为如下形式,即可将爬取到的信息保存到 My 阅读全文
posted @ 2019-04-17 23:05 点点花飞谢 阅读(2950) 评论(1) 推荐(0) 编辑
摘要: 爬虫的本质就是“抓取”第二方网站中有价值的数据,因此,每个网站都会或多或少地采用一些反爬虫技术来防范爬虫。比如前面介绍的通过 User-Agent 请求头验证是否为浏览器、使用 JavaScript 动态加载资源等,这些都是常规的反爬虫手段。下面针对更强的反爬虫技术提供一些解决方案。 IP 地址验证 阅读全文
posted @ 2019-04-17 23:00 点点花飞谢 阅读(752) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 11 下一页