五杀摇滚小拉夫

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
  188 随笔 :: 0 文章 :: 19 评论 :: 99707 阅读

09 2018 档案

摘要:链接 Navicat 阅读全文
posted @ 2018-09-27 17:47 五杀摇滚小拉夫 阅读(222) 评论(0) 推荐(0) 编辑

摘要:链接地址:https://blog.csdn.net/yuanxiang01/article/details/78787823 阅读全文
posted @ 2018-09-27 17:38 五杀摇滚小拉夫 阅读(214) 评论(0) 推荐(0) 编辑

摘要:执行结果如图: 运行结果如图: 执行结果如图: 阅读全文
posted @ 2018-09-26 18:21 五杀摇滚小拉夫 阅读(135) 评论(0) 推荐(0) 编辑

摘要:scrapy crawl nbzj 执行结果如下 由于设置deloy为 1s 所以速度会比较慢,采集237142条数据。 阅读全文
posted @ 2018-09-26 13:58 五杀摇滚小拉夫 阅读(2370) 评论(1) 推荐(0) 编辑

摘要:这几天一直都再用scrapy写网站数据采集的爬虫,这里我就选一个写过的爬虫来记录一下。杭州造价网:http://183.129.219.195:8081/bs/hzzjb/web/list这里出现的主要问题就是:1. 这里我的代码会出现一些问题,内存溢出,由于程序一直在运行,内存一直在增加(未释放内存,有待改进),就会导致爬虫程序假死等待。2. yield scrapy.FormRequest(... 阅读全文
posted @ 2018-09-25 17:15 五杀摇滚小拉夫 阅读(352) 评论(0) 推荐(0) 编辑

摘要:邮件通知这一部分是我们组大佬写的,主要是为了解决人工去检查网站是否更新的问题做到自动化通知,那个邮件通知的代码,我之前也没写过,过两天看一下代码是如何实现的再写随笔。 阅读全文
posted @ 2018-09-25 16:55 五杀摇滚小拉夫 阅读(164) 评论(0) 推荐(0) 编辑

摘要:温州数据采集这里采集网站数据是下载pdf:http://wzszjw.wenzhou.gov.cn/col/col1357901/index.html(涉及的问题就是scrapy 文件的下载设置,之前没用scrapy下载文件,所以弄了很久才弄好,网上很多不过写的都不完善。)主要重点就是设置: 1.piplines.py 文件下载代码 这部分可以直接拿来用不需要修改。2.就是下载文件的url要... 阅读全文
posted @ 2018-09-25 16:50 五杀摇滚小拉夫 阅读(210) 评论(0) 推荐(0) 编辑

摘要:网站数据监控:思路:对网站数据字段监控并做MD5加密存入到数据,为了后期监控数据是否更新作比对,然后邮件通知,存入四个字段。 引入的包:md5_tools.py # -*- coding:utf-8 -*-import hashlib# md5 加密def md5_encode(md5): md5 = md5 hash = hashlib.md5() hash.update(... 阅读全文
posted @ 2018-09-25 16:24 五杀摇滚小拉夫 阅读(169) 评论(0) 推荐(0) 编辑

摘要:Scrapy 对接 Selenium(参考代码网址,https://github.com/Python3WebSpider/ScrapySeleniumTest) 此文就是参考书上的代码拿下来跑,作为借鉴,很多地方都不是很理解,也是我第一次使用mongodb入库数据,一直用的都是mysql对mongodb这种关系型数据库用的并不多,今天就是拿代码跑一下理解作者的整个思路有待消化。主要核心: Do... 阅读全文
posted @ 2018-09-18 17:33 五杀摇滚小拉夫 阅读(801) 评论(0) 推荐(0) 编辑

摘要:Studio 3T 链接地址:https://pan.baidu.com/s/1X-Sqk50Xm76NJIZOz0ehFw 密码:td2a安装配置成功链接本地如图所示: 阅读全文
posted @ 2018-09-18 16:21 五杀摇滚小拉夫 阅读(387) 评论(2) 推荐(0) 编辑

摘要:2.连接MongoDB 未开启服务 连接成功!!!!! 打开mongodb.exe 阅读全文
posted @ 2018-09-18 13:34 五杀摇滚小拉夫 阅读(157) 评论(0) 推荐(0) 编辑

摘要:对于scrapy的部署方式1.Scrapyd 安装扩展组件,远程控制scrapy任务,包括部署源代码,启动任务,监听任务。scrapy-client 、scrapyd api 协助完成部署和监听操作。2.Docker集群部署,将爬虫制作成Docker镜像,主机安装Docker,直接运行爬虫,无需考虑配置环境,版本问题。简述Docker的作用:Docker 是一种容器技术,可将应用和环境打包,形成... 阅读全文
posted @ 2018-09-18 10:12 五杀摇滚小拉夫 阅读(157) 评论(0) 推荐(0) 编辑

摘要:由于App没有像浏览器一样直观的后台请求工具,主要用一些抓包技术抓取数据。(目前也在学习安装,参考书籍。)首先呢,一些简单的接口通过Charles或mitmproxy分析,找出规律,直接用程序去抓取就行。但是遇到麻烦的接口,就需要用到mitmdump对接python来对抓取到的请求和响应进行实时处理和保存。规模性的采集,可以借助工具appium,自动化模拟app的点击、下拉操作。一.安装Char... 阅读全文
posted @ 2018-09-17 16:49 五杀摇滚小拉夫 阅读(440) 评论(0) 推荐(0) 编辑

摘要:pymysql、pymongo、redis-py安装1.将数据存入mysql借助pymysql2.和MongoDB进行交互,借助pymongopip3 install pymysql(pip 安装对应包) 阅读全文
posted @ 2018-09-17 16:16 五杀摇滚小拉夫 阅读(284) 评论(0) 推荐(0) 编辑

摘要:将 E:\Soft\soft\phantomjs-2.1.1-windows\bin 加入到环境变量path里面(也可以直接把可执行文件phantomjs.exe放到python的scripts文件夹) 3.运行phantomjs 如图: 4.py文件 运行结果如下: 阅读全文
posted @ 2018-09-17 15:39 五杀摇滚小拉夫 阅读(305) 评论(0) 推荐(0) 编辑

摘要:2.spider引用 md5_tool.py 对获取标签内容加密确保入库的唯一性(后期对网站监控比对的字段对象 MD5的值) 4.setting.py 配置 5.items.py 字段属性 6.数据库建表 7.执行爬虫文件 scrapy crawl wenzhou 由于我之前已经测试如过库,数据库已 阅读全文
posted @ 2018-09-14 19:07 五杀摇滚小拉夫 阅读(284) 评论(0) 推荐(0) 编辑

摘要:代码保密 哈哈哈!密码:******** 涉及到工作暂时保密! 阅读全文
posted @ 2018-09-13 16:20 五杀摇滚小拉夫 阅读(153) 评论(0) 推荐(0) 编辑

摘要:scrapy-splash是一个scrapy中支持的javascript渲染的工具。 scrapy-splash安装分为两部分。一个是splash服务的安装,具体是通过docker,安装之后,会启动一个splash服务,我们可以通过它的接口实现JavaScript的加载。另一个是scrapy-splash的python库的安装,安装之后可在scrapy中使用splash服务。 1.scrapy-... 阅读全文
posted @ 2018-09-13 15:36 五杀摇滚小拉夫 阅读(155) 评论(0) 推荐(0) 编辑

摘要:这就安装成功了!!! 阅读全文
posted @ 2018-09-13 15:17 五杀摇滚小拉夫 阅读(190) 评论(0) 推荐(0) 编辑

摘要:2.下载完成双击安装 3.安装成功后进入Mongodb的安装目录,在bin目录下创建统计目录data。进入data文件夹,新建子文件夹来存储数据目录。 4.命令行运行Mongodb mongod --dbpath "E:\MongoDB\Server\4.0\data\db" 5.在bin目录新建l 阅读全文
posted @ 2018-09-13 14:42 五杀摇滚小拉夫 阅读(140) 评论(0) 推荐(0) 编辑

摘要:3.打开浏览器 输入:127.0.0.1:5000(如下图) 阅读全文
posted @ 2018-09-13 13:56 五杀摇滚小拉夫 阅读(134) 评论(0) 推荐(0) 编辑

摘要:6.然后创建主机管理 127.0.0.1 6800 7.这里需要注意的是还需要在命令行 开启scrapyd 8.找到你的gerapy文件夹下project 将你的爬虫项目放进去 就可以在 127.0.0.1:8000 中找到 9.点击deploy部署 爬虫程序就开始运行了 详情可看 csdn链接:h 阅读全文
posted @ 2018-09-12 18:48 五杀摇滚小拉夫 阅读(1079) 评论(0) 推荐(0) 编辑

摘要:2. 在浏览器打开127.0.0.1:6800/ 3. scrapy.cfg 设置 4. 遇到问题: scrapyd-deploy 不是内部命令 编辑 两个配置文件 @echo off"C:\Users\Administrator\AppData\Local\Programs\Python\Pyth 阅读全文
posted @ 2018-09-12 17:48 五杀摇滚小拉夫 阅读(261) 评论(0) 推荐(0) 编辑

摘要:勾选监控,双击你要看的数据就能进入到文章界面,底部会有信息提示是否更新,有更新会有弹出框在右下栏出现。 阅读全文
posted @ 2018-09-12 15:43 五杀摇滚小拉夫 阅读(569) 评论(0) 推荐(0) 编辑

摘要:#转 registered_capital 注册资本 #接下来就是重点了 数据入库更新(这里我是直接自己写好的没来的及修改的代码 三个是写在一起的) 阅读全文
posted @ 2018-09-11 19:50 五杀摇滚小拉夫 阅读(500) 评论(0) 推荐(0) 编辑

摘要:链接:https://pan.baidu.com/s/1cu_eYN1GnW5EwVYrXMJbEg 密码:advq 阅读全文
posted @ 2018-09-07 11:22 五杀摇滚小拉夫 阅读(208) 评论(0) 推荐(0) 编辑

摘要:查询多表(子查询)匹配 SELECT*from data_names WHERE `Name` not in (SELECT search_name FROM qichacha ); 可用链接数据库查询代码: 阅读全文
posted @ 2018-09-07 10:49 五杀摇滚小拉夫 阅读(147) 评论(0) 推荐(0) 编辑

摘要:我日常常用的两个代理: 一、风讯代理 http://www.gzkangyun.com/ 操作界面: 二、智连代理 综合感觉吧,还是智连好用一点,ip质量相对好一点,价格也便宜,不过一个ip基本上的存活时间都是在几分钟左右,不过运气好也能用到存活时间长的。 但是,再怎么换ip爬取网站仍是会检测到异常 阅读全文
posted @ 2018-09-07 08:55 五杀摇滚小拉夫 阅读(213) 评论(0) 推荐(0) 编辑

摘要:首先 1.登录阿布云官网注册账号 https://www.abuyun.com/ 2.注册完账号向客服申请代理服务器,就能查看自己申请的试用版 3.接下来客服会给官方接口文档(参考) 4.根据接口文档类型将代理服务器配置到自己的代码中去 5.下面是我自己测试的编写的request代码: 阅读全文
posted @ 2018-09-06 15:23 五杀摇滚小拉夫 阅读(1129) 评论(0) 推荐(0) 编辑

摘要:部署scrapy爬虫项目到6800上 启动scrapyd 出现问题 1: scrapyd-deloy -l 未找到相关命令 scrapyd-deploy -l 可以看到当前部署的爬虫项目,但是当我输入这段命令的时候显示这个命令不存在或者有错误、不合法之类的。 解决办法: 添加配置文件 scrapy. 阅读全文
posted @ 2018-09-05 13:46 五杀摇滚小拉夫 阅读(190) 评论(0) 推荐(0) 编辑

摘要:1.创建爬虫项目: scrapy startproject tutorial 2.创建 spider cd tutorial scrapy genspider quotes quotes.toscrape.com 如下图: 3. quotes.py _________________________ 阅读全文
posted @ 2018-09-04 15:40 五杀摇滚小拉夫 阅读(270) 评论(0) 推荐(0) 编辑

摘要:(为编写完善能拿下来数据) 企查查代码数据如下: 阅读全文
posted @ 2018-09-04 15:16 五杀摇滚小拉夫 阅读(685) 评论(0) 推荐(0) 编辑

摘要:#这里数字转换主要是为了解决网站返回虚假数据的问题,但写完才发现网站的数字是有自己的一套机制的,而不是固定的,因此不好解决,那就当回顾一下re匹配知识吧。 1 str="1332-31-15" 2 3 4 # print(str[:-5]) 5 # print(str1[:-5]) 6 7 8 import re 9 10 11 # print(A) 12 # pr... 阅读全文
posted @ 2018-09-04 15:10 五杀摇滚小拉夫 阅读(170) 评论(0) 推荐(0) 编辑

摘要:!!!!本节就是解决天眼查爬虫问题:!!!!(看完有建议和想法的话记得交流一下) 主要思路 绕过验证,使用代理ip,间接的通过手机端mbaidu.com 通过字符串拼接的方式获取搜索天眼查网页数据。 重点: 1.这里我采用的是python3+selenium+chromedriver写的代码,主要问 阅读全文
posted @ 2018-09-04 15:01 五杀摇滚小拉夫 阅读(5334) 评论(3) 推荐(1) 编辑

点击右上角即可分享
微信分享提示