五杀摇滚小拉夫

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理
上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 19 下一页

2018年10月25日

摘要: 1.单线程实例: 代码如下: from time import ctime,sleep def music(A): for i in range(2): print ("I was listening to %s. %s" % (A, ctime())) sleep(1) def eat(B): for i in range(2): ... 阅读全文
posted @ 2018-10-25 15:31 五杀摇滚小拉夫 阅读(459) 评论(0) 推荐(0) 编辑

摘要: 2.Hadoop的框架最核心的设计就是: HDFS: HDFS为海量的数据提供了存储 MapReduce: MapReduce则为海量的数据提供了计算 3.Hadoop的优点: 【高可靠性】:假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。 【高效性】:以并 阅读全文
posted @ 2018-10-25 14:14 五杀摇滚小拉夫 阅读(866) 评论(0) 推荐(0) 编辑

摘要: scrapy爬虫采集数据存入mongodb采集效果如图: 1.首先开启服务切换到mongodb的bin目录下 命令:mongod --dbpath e:\data\db 另开黑窗口 命令:mongo.exe 2.连接可视化工具 studio—3t 建立本地连接 如图: 3.代码如下 采集的是玻璃网站产品数据 http://www.boliwang.co... 阅读全文
posted @ 2018-10-25 12:34 五杀摇滚小拉夫 阅读(593) 评论(0) 推荐(0) 编辑

2018年10月24日

摘要: 针对文件下载文件重命名文件后缀的获取,此方式只适用url里有后缀的情况(其它的要根据情况去用类似方式获取字段后缀)。 import os A="http://www.铜陵市建筑工程信息网.com/App_Files/Files/价格信息2018.3期.docx_440910582001.docx" B=os.path.splitext(A) print(B) print(B[1]) 阅读全文
posted @ 2018-10-24 15:53 五杀摇滚小拉夫 阅读(296) 评论(0) 推荐(0) 编辑

摘要: 解决图片下载重命名保存本地,直接上代码(在原来代码做了一定的修改)。总结:主要就是添加配置一个内置的函数,对保存的东西进行修改再存储,主要问题还是再piplines的设置里面。效果如图: hm5988.py # -*- coding: utf-8 -*- import scrapy from hm5988_web.items import Hm5988WebItem class Hm... 阅读全文
posted @ 2018-10-24 11:40 五杀摇滚小拉夫 阅读(460) 评论(0) 推荐(0) 编辑

摘要: 这里是直接拿之前未配置代码做修改,主要问题就是在piplines中添加修改配置文件(先解决文件下载问题,图片其实也类似) 效果如图: 北京造价信息网站爬虫 bjjs.py # -*- coding: utf-8 -*- import scrapy import re from bjjs_web.items import BjjsWebItem class BjjsSpider(scr... 阅读全文
posted @ 2018-10-24 11:32 五杀摇滚小拉夫 阅读(555) 评论(0) 推荐(0) 编辑

摘要: 时间复杂度:O(n²) 空间复杂度:O(1) 稳定性:稳定 2.选择排序 时间复杂度:O(n²) 空间复杂度:O(1) 稳定性:不稳定 3.冒泡排序 时间复杂度:O(n²) 空间复杂度:O(1) 稳定性:稳定 阅读全文
posted @ 2018-10-24 09:47 五杀摇滚小拉夫 阅读(127) 评论(0) 推荐(0) 编辑

2018年10月23日

摘要: —————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————————— 阅读全文
posted @ 2018-10-23 14:24 五杀摇滚小拉夫 阅读(266) 评论(0) 推荐(0) 编辑

摘要: 配置spiderkeeper管理scrapy爬虫 1.安装所需文件包pip install spiderkeeper pip install scrapyd pip install scrapy_client 2.切换到scrapy文件目录下打包文件(生蛋)。 3.开启scrapyd服务,开启spiderkeeper服务。 4.进入127.0.0.1:5000 输入默认账号... 阅读全文
posted @ 2018-10-23 11:31 五杀摇滚小拉夫 阅读(574) 评论(0) 推荐(0) 编辑

2018年10月19日

摘要: 1.目标采集地址: http://183.129.219.195:8081/bs/hzzjb/web/list2.这里的翻页还是较为简单的,只要模拟post请求发送data包含关键参数就能获取下一页页面信息。获取页面标签信息的方法不合适,是之前写的,应该用xpath匹配整个table数据获取父类选择器再去二次匹配子类标签数据。3.采集结果如下: #hzzjb.py # -*- coding... 阅读全文
posted @ 2018-10-19 09:43 五杀摇滚小拉夫 阅读(417) 评论(0) 推荐(0) 编辑

上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 19 下一页