公告

昵称：五杀摇滚小拉夫
园龄： 6年7个月
粉丝： 22
关注： 0

+加关注

随笔档案

09 2018 档案

16.Ubuntu安装mysql及win7安装mysql

摘要：链接 Navicat 阅读全文

posted @ 2018-09-27 17:47 五杀摇滚小拉夫阅读(222) 评论(0) 推荐(0) 编辑

15.unbuntu下安装vmware-tools

摘要：链接地址：https://blog.csdn.net/yuanxiang01/article/details/78787823 阅读全文

posted @ 2018-09-27 17:38 五杀摇滚小拉夫阅读(214) 评论(0) 推荐(0) 编辑

14.json文件读取

摘要：执行结果如图：运行结果如图：执行结果如图：阅读全文

posted @ 2018-09-26 18:21 五杀摇滚小拉夫阅读(135) 评论(0) 推荐(0) 编辑

34.scrapy解决爬虫翻页问题

摘要：scrapy crawl nbzj 执行结果如下由于设置deloy为 1s 所以速度会比较慢，采集237142条数据。阅读全文

posted @ 2018-09-26 13:58 五杀摇滚小拉夫阅读(2370) 评论(1) 推荐(0) 编辑

33.scrapy采集网站表单数据

摘要：这几天一直都再用scrapy写网站数据采集的爬虫，这里我就选一个写过的爬虫来记录一下。杭州造价网：http://183.129.219.195:8081/bs/hzzjb/web/list这里出现的主要问题就是：1. 这里我的代码会出现一些问题，内存溢出，由于程序一直在运行，内存一直在增加（未释放内存，有待改进），就会导致爬虫程序假死等待。2. yield scrapy.FormRequest(... 阅读全文

posted @ 2018-09-25 17:15 五杀摇滚小拉夫阅读(352) 评论(0) 推荐(0) 编辑

32.网站数据监控邮件通知

摘要：邮件通知这一部分是我们组大佬写的，主要是为了解决人工去检查网站是否更新的问题做到自动化通知，那个邮件通知的代码，我之前也没写过，过两天看一下代码是如何实现的再写随笔。阅读全文

posted @ 2018-09-25 16:55 五杀摇滚小拉夫阅读(164) 评论(0) 推荐(0) 编辑

31.网站数据监控-2（scrapy文件下载）

摘要：温州数据采集这里采集网站数据是下载pdf：http://wzszjw.wenzhou.gov.cn/col/col1357901/index.html（涉及的问题就是scrapy 文件的下载设置，之前没用scrapy下载文件，所以弄了很久才弄好，网上很多不过写的都不完善。）主要重点就是设置： 1.piplines.py 文件下载代码这部分可以直接拿来用不需要修改。2.就是下载文件的url要... 阅读全文

posted @ 2018-09-25 16:50 五杀摇滚小拉夫阅读(210) 评论(0) 推荐(0) 编辑

31.网站数据监控-1

摘要：网站数据监控：思路：对网站数据字段监控并做MD5加密存入到数据，为了后期监控数据是否更新作比对，然后邮件通知，存入四个字段。引入的包：md5_tools.py # -*- coding:utf-8 -*-import hashlib# md5 加密def md5_encode(md5): md5 = md5 hash = hashlib.md5() hash.update(... 阅读全文

posted @ 2018-09-25 16:24 五杀摇滚小拉夫阅读(169) 评论(0) 推荐(0) 编辑

30.Scrapy 对接 Selenium

摘要：Scrapy 对接 Selenium（参考代码网址，https://github.com/Python3WebSpider/ScrapySeleniumTest）此文就是参考书上的代码拿下来跑，作为借鉴，很多地方都不是很理解，也是我第一次使用mongodb入库数据，一直用的都是mysql对mongodb这种关系型数据库用的并不多，今天就是拿代码跑一下理解作者的整个思路有待消化。主要核心： Do... 阅读全文

posted @ 2018-09-18 17:33 五杀摇滚小拉夫阅读(801) 评论(0) 推荐(0) 编辑

29.Mongodb可视化工具 Studio 3t

摘要：Studio 3T 链接地址：https://pan.baidu.com/s/1X-Sqk50Xm76NJIZOz0ehFw 密码：td2a安装配置成功链接本地如图所示：阅读全文

posted @ 2018-09-18 16:21 五杀摇滚小拉夫阅读(387) 评论(2) 推荐(0) 编辑

28.Mongodb问题解决

摘要：2.连接MongoDB 未开启服务连接成功！！！！！打开mongodb.exe 阅读全文

posted @ 2018-09-18 13:34 五杀摇滚小拉夫阅读(157) 评论(0) 推荐(0) 编辑

27.Docker集群部署

摘要：对于scrapy的部署方式1.Scrapyd 安装扩展组件，远程控制scrapy任务，包括部署源代码，启动任务，监听任务。scrapy-client 、scrapyd api 协助完成部署和监听操作。2.Docker集群部署，将爬虫制作成Docker镜像，主机安装Docker，直接运行爬虫，无需考虑配置环境，版本问题。简述Docker的作用：Docker 是一种容器技术，可将应用和环境打包，形成... 阅读全文

posted @ 2018-09-18 10:12 五杀摇滚小拉夫阅读(157) 评论(0) 推荐(0) 编辑

摘要：由于App没有像浏览器一样直观的后台请求工具，主要用一些抓包技术抓取数据。（目前也在学习安装，参考书籍。）首先呢，一些简单的接口通过Charles或mitmproxy分析，找出规律，直接用程序去抓取就行。但是遇到麻烦的接口，就需要用到mitmdump对接python来对抓取到的请求和响应进行实时处理和保存。规模性的采集，可以借助工具appium,自动化模拟app的点击、下拉操作。一.安装Char... 阅读全文

posted @ 2018-09-17 16:49 五杀摇滚小拉夫阅读(440) 评论(0) 推荐(0) 编辑

26.pymysql、pymongo、redis-py安装

摘要：pymysql、pymongo、redis-py安装1.将数据存入mysql借助pymysql2.和MongoDB进行交互，借助pymongopip3 install pymysql（pip 安装对应包）阅读全文

posted @ 2018-09-17 16:16 五杀摇滚小拉夫阅读(284) 评论(0) 推荐(0) 编辑

25.安装配置phantomjs

摘要：将 E:\Soft\soft\phantomjs-2.1.1-windows\bin 加入到环境变量path里面（也可以直接把可执行文件phantomjs.exe放到python的scripts文件夹） 3.运行phantomjs 如图： 4.py文件运行结果如下：阅读全文

posted @ 2018-09-17 15:39 五杀摇滚小拉夫阅读(305) 评论(0) 推荐(0) 编辑

24.网站更新数据监控-1

摘要：2.spider引用 md5_tool.py 对获取标签内容加密确保入库的唯一性(后期对网站监控比对的字段对象 MD5的值) 4.setting.py 配置 5.items.py 字段属性 6.数据库建表 7.执行爬虫文件 scrapy crawl wenzhou 由于我之前已经测试如过库，数据库已阅读全文

posted @ 2018-09-14 19:07 五杀摇滚小拉夫阅读(284) 评论(0) 推荐(0) 编辑

2.博客随笔加密！！！

摘要：代码保密哈哈哈！密码：******** 涉及到工作暂时保密！阅读全文

posted @ 2018-09-13 16:20 五杀摇滚小拉夫阅读(153) 评论(0) 推荐(0) 编辑

17.scrapy-splash安装-2

摘要：scrapy-splash是一个scrapy中支持的javascript渲染的工具。 scrapy-splash安装分为两部分。一个是splash服务的安装，具体是通过docker,安装之后，会启动一个splash服务，我们可以通过它的接口实现JavaScript的加载。另一个是scrapy-splash的python库的安装，安装之后可在scrapy中使用splash服务。 1.scrapy-... 阅读全文

posted @ 2018-09-13 15:36 五杀摇滚小拉夫阅读(155) 评论(0) 推荐(0) 编辑

17.docker及scrapy-splash安装-1

摘要：这就安装成功了！！！阅读全文

posted @ 2018-09-13 15:17 五杀摇滚小拉夫阅读(190) 评论(0) 推荐(0) 编辑

16.Mongodb安装

摘要：2.下载完成双击安装 3.安装成功后进入Mongodb的安装目录，在bin目录下创建统计目录data。进入data文件夹，新建子文件夹来存储数据目录。 4.命令行运行Mongodb mongod --dbpath "E:\MongoDB\Server\4.0\data\db" 5.在bin目录新建l 阅读全文

posted @ 2018-09-13 14:42 五杀摇滚小拉夫阅读(140) 评论(0) 推荐(0) 编辑

23.pyspider安装

摘要：3.打开浏览器输入：127.0.0.1:5000（如下图）阅读全文

posted @ 2018-09-13 13:56 五杀摇滚小拉夫阅读(134) 评论(0) 推荐(0) 编辑

22.Windows及linux下gerapy使用

摘要：6.然后创建主机管理 127.0.0.1 6800 7.这里需要注意的是还需要在命令行开启scrapyd 8.找到你的gerapy文件夹下project 将你的爬虫项目放进去就可以在 127.0.0.1:8000 中找到 9.点击deploy部署爬虫程序就开始运行了详情可看 csdn链接：h 阅读全文

posted @ 2018-09-12 18:48 五杀摇滚小拉夫阅读(1079) 评论(0) 推荐(0) 编辑

21.scrapy爬虫部署

摘要：2. 在浏览器打开127.0.0.1:6800/ 3. scrapy.cfg 设置 4. 遇到问题： scrapyd-deploy 不是内部命令编辑两个配置文件 @echo off"C:\Users\Administrator\AppData\Local\Programs\Python\Pyth 阅读全文

posted @ 2018-09-12 17:48 五杀摇滚小拉夫阅读(261) 评论(0) 推荐(0) 编辑

12.利用kakatips对网站数据信息监控

摘要：勾选监控，双击你要看的数据就能进入到文章界面，底部会有信息提示是否更新，有更新会有弹出框在右下栏出现。阅读全文

posted @ 2018-09-12 15:43 五杀摇滚小拉夫阅读(569) 评论(0) 推荐(0) 编辑

11.启信宝数据二次筛选解密（字符串的分割与拼接及正则匹配）-2

摘要：#转 registered_capital 注册资本 #接下来就是重点了数据入库更新（这里我是直接自己写好的没来的及修改的代码三个是写在一起的）阅读全文

posted @ 2018-09-11 19:50 五杀摇滚小拉夫阅读(500) 评论(0) 推荐(0) 编辑

10.Ubuntu操作系统及python2.7、3.5 exe

摘要：链接：https://pan.baidu.com/s/1cu_eYN1GnW5EwVYrXMJbEg 密码：advq 阅读全文

posted @ 2018-09-07 11:22 五杀摇滚小拉夫阅读(208) 评论(0) 推荐(0) 编辑

9.数据库多表一起查询

摘要：查询多表（子查询）匹配 SELECT*from data_names WHERE `Name` not in (SELECT search_name FROM qichacha ); 可用链接数据库查询代码：阅读全文

posted @ 2018-09-07 10:49 五杀摇滚小拉夫阅读(147) 评论(0) 推荐(0) 编辑

8.代理ip使用

摘要：我日常常用的两个代理：一、风讯代理 http://www.gzkangyun.com/ 操作界面：二、智连代理综合感觉吧，还是智连好用一点，ip质量相对好一点，价格也便宜，不过一个ip基本上的存活时间都是在几分钟左右，不过运气好也能用到存活时间长的。但是，再怎么换ip爬取网站仍是会检测到异常阅读全文

posted @ 2018-09-07 08:55 五杀摇滚小拉夫阅读(213) 评论(0) 推荐(0) 编辑

7.阿布云代理服务器试用

摘要：首先 1.登录阿布云官网注册账号 https://www.abuyun.com/ 2.注册完账号向客服申请代理服务器，就能查看自己申请的试用版 3.接下来客服会给官方接口文档（参考） 4.根据接口文档类型将代理服务器配置到自己的代码中去 5.下面是我自己测试的编写的request代码：阅读全文

posted @ 2018-09-06 15:23 五杀摇滚小拉夫阅读(1129) 评论(0) 推荐(0) 编辑

1.scrapyd部署相关问题

摘要：部署scrapy爬虫项目到6800上启动scrapyd 出现问题 1： scrapyd-deloy -l 未找到相关命令 scrapyd-deploy -l 可以看到当前部署的爬虫项目，但是当我输入这段命令的时候显示这个命令不存在或者有错误、不合法之类的。解决办法：添加配置文件 scrapy. 阅读全文

posted @ 2018-09-05 13:46 五杀摇滚小拉夫阅读(190) 评论(0) 推荐(0) 编辑

20.Scrapy日常练手

摘要：1.创建爬虫项目： scrapy startproject tutorial 2.创建 spider cd tutorial scrapy genspider quotes quotes.toscrape.com 如下图： 3. quotes.py _________________________ 阅读全文

posted @ 2018-09-04 15:40 五杀摇滚小拉夫阅读(270) 评论(0) 推荐(0) 编辑

6.requests编写企查查爬虫

摘要：（为编写完善能拿下来数据）企查查代码数据如下：阅读全文

posted @ 2018-09-04 15:16 五杀摇滚小拉夫阅读(685) 评论(0) 推荐(0) 编辑

5.正则数字转换

摘要：#这里数字转换主要是为了解决网站返回虚假数据的问题，但写完才发现网站的数字是有自己的一套机制的，而不是固定的，因此不好解决，那就当回顾一下re匹配知识吧。 1 str="1332-31-15" 2 3 4 # print(str[:-5]) 5 # print(str1[:-5]) 6 7 8 import re 9 10 11 # print(A) 12 # pr... 阅读全文

posted @ 2018-09-04 15:10 五杀摇滚小拉夫阅读(170) 评论(0) 推荐(0) 编辑

4-2.绕过登录的方式采集天眼查数据

摘要：！！！！本节就是解决天眼查爬虫问题：！！！！（看完有建议和想法的话记得交流一下）主要思路绕过验证，使用代理ip，间接的通过手机端mbaidu.com 通过字符串拼接的方式获取搜索天眼查网页数据。重点： 1.这里我采用的是python3+selenium+chromedriver写的代码，主要问阅读全文

posted @ 2018-09-04 15:01 五杀摇滚小拉夫阅读(5334) 评论(3) 推荐(1) 编辑

五杀摇滚小拉夫

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

09 2018 档案