公告

随笔档案

10 2018 档案

摘要：2.Androoid 开发环境配置所需：下载配置Android SDK 直接下载 Android Studio 下载地址：https://developer.android.com/studio/index.html?jl=zh-cn 安装配置 Android studio 下载配置 Sdk 参阅读全文

posted @ 2018-10-31 18:27 五杀摇滚小拉夫阅读(308) 评论(0) 推荐(0) 编辑

2.App爬取相关库的安装（安装mitmproxy）

摘要：1.选择下载Windows下得exe安装包 mitmproxy-4.0.1-Windows-installer.exe (我选择的是) 下载完双击安装。安装成功之后如图： 2.证书配置 mitmproxy想要获取https请求就需要设置证书，mitmproxy在安装之后会提供一套CA证书，只要客阅读全文

posted @ 2018-10-30 21:58 五杀摇滚小拉夫阅读(563) 评论(0) 推荐(0) 编辑

1.App爬取相关库的安装（安装Charles及手机端证书安装配置）

摘要：3.安装证书点击安装证书如图点击第二项‘将所有证书放入下列存储’ 点击浏览选择第二项‘受信任的根证书颁发机构’ 再点击确定下一步会跳出安装成功的提示。二、手机端证书安装配置 1.安装之前需要查看 charles代理是否开启操作如图下一步就=就是将手机和电脑连在同一局域网下本机手机阅读全文

posted @ 2018-10-30 20:28 五杀摇滚小拉夫阅读(323) 评论(0) 推荐(0) 编辑

21.xpath定位中id 、starts-with、contains、text()和last() 的用法

摘要：<input id="su" class="bg s_btn btnhover" value="百度一下" type="submit"/> //*[@id='su'] 获取id 的属性为'su' 的值或 //input[contains(@class,'bg s_btn')] <a href="h 阅读全文

posted @ 2018-10-26 17:04 五杀摇滚小拉夫阅读(337) 评论(0) 推荐(0) 编辑

20.多线程.join()和setDaemon()的使用

摘要：主线程A中，创建了子线程B，并且在主线程A中调用了B.setDaemon(),这个的意思是，把主线程A设置为守护线程，这时候，要是主线程A执行结束了，就不管子线程B是否完成,一并和主线程A退出. 这就是setDaemon方法的含义，这基本和join是相反的。此外，还有个要特别注意的：必须在star 阅读全文

posted @ 2018-10-25 16:07 五杀摇滚小拉夫阅读(654) 评论(0) 推荐(0) 编辑

19.python设置单线程和多线程

摘要：1.单线程实例: 代码如下： from time import ctime,sleep def music(A): for i in range(2): print ("I was listening to %s. %s" % (A, ctime())) sleep(1) def eat(B): for i in range(2): ... 阅读全文

posted @ 2018-10-25 15:31 五杀摇滚小拉夫阅读(468) 评论(0) 推荐(0) 编辑

1.Hadoop简单理解与总结。

摘要：2.Hadoop的框架最核心的设计就是： HDFS： HDFS为海量的数据提供了存储 MapReduce： MapReduce则为海量的数据提供了计算 3.Hadoop的优点：【高可靠性】：假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。【高效性】：以并阅读全文

posted @ 2018-10-25 14:14 五杀摇滚小拉夫阅读(878) 评论(0) 推荐(0) 编辑

42.scrapy爬取数据入库mongodb

摘要：scrapy爬虫采集数据存入mongodb采集效果如图： 1.首先开启服务切换到mongodb的bin目录下命令：mongod --dbpath e:\data\db 另开黑窗口命令：mongo.exe 2.连接可视化工具 studio—3t 建立本地连接如图： 3.代码如下采集的是玻璃网站产品数据 http://www.boliwang.co... 阅读全文

posted @ 2018-10-25 12:34 五杀摇滚小拉夫阅读(605) 评论(0) 推荐(0) 编辑

18.os模块获取url后缀

摘要：针对文件下载文件重命名文件后缀的获取，此方式只适用url里有后缀的情况（其它的要根据情况去用类似方式获取字段后缀）。 import os A="http://www.铜陵市建筑工程信息网.com/App_Files/Files/价格信息2018.3期.docx_440910582001.docx" B=os.path.splitext(A) print(B) print(B[1]) 阅读全文

posted @ 2018-10-24 15:53 五杀摇滚小拉夫阅读(298) 评论(0) 推荐(0) 编辑

41.配置完善爬虫代码文件及图片下载文件重命名问题-2

摘要：解决图片下载重命名保存本地,直接上代码（在原来代码做了一定的修改）。总结：主要就是添加配置一个内置的函数，对保存的东西进行修改再存储，主要问题还是再piplines的设置里面。效果如图： hm5988.py # -*- coding: utf-8 -*- import scrapy from hm5988_web.items import Hm5988WebItem class Hm... 阅读全文

posted @ 2018-10-24 11:40 五杀摇滚小拉夫阅读(466) 评论(0) 推荐(0) 编辑

40.配置完善爬虫代码文件及图片下载文件重命名问题-1

摘要：这里是直接拿之前未配置代码做修改，主要问题就是在piplines中添加修改配置文件(先解决文件下载问题，图片其实也类似) 效果如图：北京造价信息网站爬虫 bjjs.py # -*- coding: utf-8 -*- import scrapy import re from bjjs_web.items import BjjsWebItem class BjjsSpider(scr... 阅读全文

posted @ 2018-10-24 11:32 五杀摇滚小拉夫阅读(561) 评论(0) 推荐(0) 编辑

17.常见排序算法

摘要：时间复杂度：O(n²) 空间复杂度：O(1) 稳定性：稳定 2.选择排序时间复杂度：O(n²) 空间复杂度：O(1) 稳定性：不稳定 3.冒泡排序时间复杂度：O(n²) 空间复杂度：O(1) 稳定性：稳定阅读全文

posted @ 2018-10-24 09:47 五杀摇滚小拉夫阅读(131) 评论(0) 推荐(0) 编辑

39.爬虫管理模块总结

摘要：—————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————— 阅读全文

posted @ 2018-10-23 14:24 五杀摇滚小拉夫阅读(267) 评论(0) 推荐(0) 编辑

38.spiderkeeper的配置

摘要：配置spiderkeeper管理scrapy爬虫 1.安装所需文件包pip install spiderkeeper pip install scrapyd pip install scrapy_client 2.切换到scrapy文件目录下打包文件(生蛋)。 3.开启scrapyd服务，开启spiderkeeper服务。 4.进入127.0.0.1:5000 输入默认账号... 阅读全文

posted @ 2018-10-23 11:31 五杀摇滚小拉夫阅读(580) 评论(0) 推荐(0) 编辑

37.scrapy解决翻页及采集杭州造价网站材料数据

摘要：1.目标采集地址: http://183.129.219.195:8081/bs/hzzjb/web/list2.这里的翻页还是较为简单的，只要模拟post请求发送data包含关键参数就能获取下一页页面信息。获取页面标签信息的方法不合适，是之前写的，应该用xpath匹配整个table数据获取父类选择器再去二次匹配子类标签数据。3.采集结果如下： #hzzjb.py # -*- coding... 阅读全文

posted @ 2018-10-19 09:43 五杀摇滚小拉夫阅读(421) 评论(0) 推荐(0) 编辑

36.scrapy框架采集全球玻璃网数据

摘要：1.采集目标地址 https://www.glass.cn/gongying/sellindex.aspx 网站比较简单，没什么大的需要注意的问题。2.通过分析测试 https://www.glass.cn/gongying/a_l_p1_ky/ 等价于目标采集网站首页，只需设置{}.format 翻页这个完整比较简单，就是获取一下页码，再做一下翻页，循环采集页面跳转url，再进入url采集页... 阅读全文

posted @ 2018-10-18 15:35 五杀摇滚小拉夫阅读(329) 评论(1) 推荐(0) 编辑

五杀摇滚小拉夫

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

10 2018 档案