WangHello

2019年12月26日

摘要：用过aws的人，都知道s3存储东西贼方便。他的上传有两个方法, 第一个是get_object(),是将文件的内容赋值给body,进行上传，并设置存储桶为上传文件为公开 response = s3.put_object(Bucket=bucket_tmp, Key=file_key, Body=co 阅读全文

posted @ 2019-12-26 15:54 WangHello 阅读(2885) 评论(0) 推荐(0) 编辑

python的一些乱码处理

摘要：当我们写代码时，都会碰到这样那样子的乱码问题，有时候在网络上面搜索半天也不一定可以解决，今天根据我的经历，总结一下。（1）首先呢，不管怎么样我们写代码养成一个好习惯，在头部主动添加以下，代码会省掉不少麻烦 #!/usr/bin/env python# -*- coding: utf-8 -*-im 阅读全文

posted @ 2019-12-26 15:33 WangHello 阅读(5404) 评论(0) 推荐(0) 编辑

2019年7月24日

lambda与api-gateway的那些事--aws

摘要：最近使用lambda和apigateway编写接口用例，提供rest api。首先我先稍微说一下概念，lambda是编写的代码，我用的python语言来编码，然后将lambda与api-gateway绑定，当我们调用api接口的时候，会执行lambda函数，python的lambda函数入口走de 阅读全文

posted @ 2019-07-24 17:02 WangHello 阅读(2993) 评论(0) 推荐(0) 编辑

2019年6月4日

python写api接口测试之tornador

摘要：亚马逊的lambda跟api_dateway搭配编写接口测试，看了文档发现时间29秒必须出结果，否则超时，像我们爬虫数据比较多的，多爬点数据就容易超时，那应该怎么办呢。于是我挑了一个轻量级的进行简单学习--tonador 这边我写一个接口用来提取介词短语进行接口测试。--正好最近要进行提取介词短语阅读全文

posted @ 2019-06-04 18:21 WangHello 阅读(2237) 评论(0) 推荐(0) 编辑

2019年5月20日

前端调用接口之跨域问题

摘要：相信很多人写完接口，不管是post还是get请求自己脚本去调用都是正常返回，但是到前端调用就会碰到各种各样的问题，如下图所展示，我这边是python环境。这时候有两种改法：第一种是把请求头的两个参数进行设置，修改请求头的返回结果但是上面那种修改之后发现可以使用了，只能是在前端的本地进行调试，换阅读全文

posted @ 2019-05-20 15:59 WangHello 阅读(23009) 评论(0) 推荐(0) 编辑

2019年5月10日

创建接口调用--lambda与api_gateway结合

摘要：爬虫返回实时接口的数据，首先要有接口，我们使用api_gateway创建接口，lambda作为函数进来传参调用，来，干活！首先我们要创建函数的入门lambda: (登入具有 AWS 管理控制台访问权限的平台即可 2、设置一些lambda的参数设置 1）设置超时时间 2）网络信息设置,配置子网然后阅读全文

posted @ 2019-05-10 14:20 WangHello 阅读(1576) 评论(0) 推荐(0) 编辑

2019年4月15日

获取cookie的几种方式

摘要：在爬虫中cookie是非常有用的，可以解决反爬，封号等问题。接下来我们来说说获取cookie的集中方式。这里采用python2.7，本来我都是用python3.6的，来了公司之后，公司适用版本2.7，就2.7咯，反正就写法上面有一些区别第一种：mechanize 首先我们要使用mechanize 阅读全文

posted @ 2019-04-15 12:05 WangHello 阅读(81631) 评论(0) 推荐(0) 编辑

2019年4月11日

python使用无界面浏览器htmlunit干活遇到的bug已解决

摘要：最近想获取亚马逊的一些cookie信息，之前采用scrapy来获取的cookie信息可以获取的不多，刚刚开始还可以用，后面太多失效的，还是使用selenium跑一遍cookie发现完美的成活率。但是有一个问题，太消耗资源，而且放在服务器也不好搭环境，就想着使用htmlunit来干活，又省资源，又快速阅读全文

posted @ 2019-04-11 20:15 WangHello 阅读(1059) 评论(0) 推荐(0) 编辑

2019年2月1日

selenium破解小滑块验证码

摘要：今天早上把所有的事情做完了，然后感觉挺无聊的，就写一篇破解验证码的文章吧，而且看到很多网站推荐的破解这类的验证码成功的概率都很低。这是为什么呢？因为我们模拟机器要做的不太有规律--不能一次直接拖过去；做到上一条可能还是会失败为什么呢--要配置我们的请求头，不然会认为你是爬虫！在我们不管是做自动阅读全文

posted @ 2019-02-01 10:53 WangHello 阅读(2442) 评论(0) 推荐(0) 编辑

2019年1月17日

scrapy抓取全站产品，存储数据到mongo，下载产品源码以及图片，生成excel，以及采用scrapy+redis分布式实现过程

摘要：简单粗暴，不说别的废话，今天我们使用scrapy来爬 https://www.tous.com/us-en/jewelry 这个站的产品信息。先来了解一下 scrapy这个爬虫框架看下面的图片上面可能说的比较专业术语一些，没那么通俗易懂，下面是我总结的，其实很简单只要记住： 1、item定义一阅读全文

posted @ 2019-01-17 17:26 WangHello 阅读(363) 评论(0) 推荐(0) 编辑

公告