摘要: 用过aws的人,都知道s3存储东西贼方便。 他的上传有两个方法, 第一个是get_object(),是将文件的内容赋值给body,进行上传,并设置存储桶为上传文件为公开 response = s3.put_object(Bucket=bucket_tmp, Key=file_key, Body=co 阅读全文
posted @ 2019-12-26 15:54 WangHello 阅读(2885) 评论(0) 推荐(0) 编辑
摘要: 当我们写代码时,都会碰到这样那样子的乱码问题,有时候在网络上面搜索半天也不一定可以解决,今天根据我的经历,总结一下。 (1)首先呢,不管怎么样我们写代码养成一个好习惯,在头部主动添加以下,代码会省掉不少麻烦 #!/usr/bin/env python# -*- coding: utf-8 -*-im 阅读全文
posted @ 2019-12-26 15:33 WangHello 阅读(5404) 评论(0) 推荐(0) 编辑
摘要: 最近使用lambda和apigateway编写接口用例,提供rest api。 首先我先稍微说一下概念,lambda是编写的代码,我用的python语言来编码,然后将lambda与api-gateway绑定,当我们调用api接口的时候,会执行lambda函数,python的lambda函数入口走de 阅读全文
posted @ 2019-07-24 17:02 WangHello 阅读(2993) 评论(0) 推荐(0) 编辑
摘要: 亚马逊的lambda跟api_dateway搭配编写接口测试,看了文档发现时间29秒必须出结果,否则超时,像我们爬虫数据比较多的,多爬点数据就容易超时,那应该怎么办呢。 于是我挑了一个轻量级的进行简单学习--tonador 这边我写一个接口用来提取介词短语进行接口测试。--正好最近要进行提取介词短语 阅读全文
posted @ 2019-06-04 18:21 WangHello 阅读(2237) 评论(0) 推荐(0) 编辑
摘要: 相信很多人写完接口,不管是post还是get请求自己脚本去调用都是正常返回,但是到前端调用就会碰到各种各样的问题,如下图所展示,我这边是python环境。 这时候有两种改法: 第一种是把请求头的两个参数进行设置,修改请求头的返回结果 但是上面那种修改之后发现可以使用了,只能是在前端的本地进行调试,换 阅读全文
posted @ 2019-05-20 15:59 WangHello 阅读(23009) 评论(0) 推荐(0) 编辑
摘要: 爬虫返回实时接口的数据,首先要有接口,我们使用api_gateway创建接口,lambda作为函数进来传参调用,来,干活! 首先我们要创建函数的入门lambda: (登入具有 AWS 管理控制台访问权限的平台即可 2、设置一些lambda的参数设置 1)设置超时时间 2)网络信息设置,配置子网 然后 阅读全文
posted @ 2019-05-10 14:20 WangHello 阅读(1576) 评论(0) 推荐(0) 编辑
摘要: 在爬虫中cookie是非常有用的,可以解决反爬,封号等问题。接下来我们来说说获取cookie的集中方式。 这里采用python2.7,本来我都是用python3.6的,来了公司之后,公司适用版本2.7,就2.7咯,反正就写法上面有一些区别 第一种:mechanize 首先我们要使用mechanize 阅读全文
posted @ 2019-04-15 12:05 WangHello 阅读(81631) 评论(0) 推荐(0) 编辑
摘要: 最近想获取亚马逊的一些cookie信息,之前采用scrapy来获取的cookie信息可以获取的不多,刚刚开始还可以用,后面太多失效的,还是使用selenium跑一遍cookie发现完美的成活率。但是有一个问题,太消耗资源,而且放在服务器也不好搭环境,就想着使用htmlunit来干活,又省资源,又快速 阅读全文
posted @ 2019-04-11 20:15 WangHello 阅读(1059) 评论(0) 推荐(0) 编辑
摘要: 今天早上把所有的事情做完了,然后感觉挺无聊的,就写一篇破解验证码的文章吧,而且看到很多网站推荐的破解这类的验证码成功的概率都很低。 这是为什么呢?因为我们模拟机器要做的不太有规律--不能一次直接拖过去; 做到上一条可能还是会失败为什么呢--要配置我们的请求头,不然会认为你是爬虫! 在我们不管是做自动 阅读全文
posted @ 2019-02-01 10:53 WangHello 阅读(2442) 评论(0) 推荐(0) 编辑
摘要: 简单粗暴,不说别的废话,今天我们使用scrapy来爬 https://www.tous.com/us-en/jewelry 这个站的产品信息。 先来了解一下 scrapy这个爬虫框架 看下面的图片 上面可能说的比较专业术语一些,没那么通俗易懂,下面是我总结的,其实很简单只要记住: 1、item定义一 阅读全文
posted @ 2019-01-17 17:26 WangHello 阅读(363) 评论(0) 推荐(0) 编辑