摘要:正常如下:
阅读全文
|
11 2018 档案
摘要:request.url : https://touch.dujia.qunar.com/list?modules=list%2CbookingInfo%2CactivityDetail&dep=%E5%B9%BF%E5%B7%9E&query=%E5%8E%A6%E9%97%A8%E8%87%AA%
阅读全文
摘要:认证key是访问api的钥匙 可以看到免费的用户只能访问一个服务器节点: 执行效果如下: 代码报错: 是由于网站把这个借口给关闭了,已经无法使用,但调用api接口的方式大概就是这样。 模拟获取请求参数拼接请求url去获取数据,其实就和使用代理ip差不多。
阅读全文
摘要:这里是完整的工商信息采集代码,不过此程序需要配合代理ip软件使用。问题:1.网站对ip之前没做限制,但是采集了一段时间就被检测到设置了反爬,每个ip只能访问十多次左右就被限制访问。2.网站对请求头的检测识别解决:1.配合代理ip软件(风讯代理)设置自动切换ip时间,执行爬虫程序。2.中间件设置随机user-agent采集结果:正常采集速度一天大概采集1万条数据左右。问题:切换ip会造成程序断网一...
阅读全文
摘要:{'downloader/exception_count': 199, 'downloader/exception_type_count/twisted.internet.error.NoRouteError': 192, 'downloader/exception_type_count/twist
阅读全文
摘要:首先分析:目的:采集链家网站二手房数据1.先分析一下二手房主界面信息,显示情况如下:url = https://gz.lianjia.com/ershoufang/pg1/显示总数据量为27589套,但是页面只给返回100页的数据,每页30条数据,也就是只给返回3000条数据。 2.再看一下筛选条件的情况:100万以下(775):https://gz.lianjia.com/ershouf...
阅读全文
摘要:这里就能抓取到相应的数据包,就可以分析里面的数据信息。
阅读全文
摘要:正则 :规则表达式一般在匹配非结构化的数据时用的比较多,结构化的数据一般用xpath,bs4。但具体使用起来都是视情况而定,相对而言。正则规则平时涉及最多也就是匹配邮箱,电话,及特殊字符串。规则相对用的少一些,也只是大概了解。网上教程总结规则,这里直接拿下来收藏:非打印字符: 字符描述 \cx 匹配由x指明的控制字符。例如, \cM 匹配一个 Control-M 或回车符。x 的值必须为 ...
阅读全文
摘要:采集速询网站数据:网站地址:http://www.suxun0752.com/index.html网站是需要账号登录才给返回信息的,我这里是直接拿的登录后的cookies请求的数据,cookies我也给了注释,没做深层的采集只是试采集了某一月份的。简单分析一下 :1.首先要先拿到cookies这样你才有权限去访问返回的数据。2.分析页面翻页请求的参数,及需要筛选的标签年份、月份等。把这几个参数综...
阅读全文
摘要:2.打开appium,配置Desired Capabilities 参数: Appium驱动打开微信App 参数配置如下: start session 报错: appium 内置驱动打开京东app 配置参数如下: start session 报错: 这里报的错误还能看懂找不到手机端的app包,上边的
阅读全文
摘要:链接:https://pan.baidu.com/s/1KomTDV2_o1dEDvlimrd5HQ 提取码:5yn2 2.抓包工具 Fiddler: 链接:https://pan.baidu.com/s/1iCmqClhbS4jSEg20nUszsg 提取码:d8bj 3.mitmproxy:抓包
阅读全文
摘要:SDK manager.exe双击打开 ...........................安装等待............................. 配置 android-sdk环境变量 新建 变量名:ANDROID_HOME 变量值为sdk路径:D:\Android\android-s
阅读全文
摘要:下载包下载完成双击安装:
阅读全文
摘要:3.配置Android手机通过数据线和运行的Appium的PC相连,打开手机端USB调试功能确保可以连接到手机。 adb在上一节已经配置安装完成(参照上一节)。 cmd输入adb命令测试连接情况: adb devices -l (连接成功如下图所示,我用的是小米5x) 这里获取的连接信息配置要用到。
阅读全文
摘要:运行设备的shell(多种命令行),进行各种操作; 管理模拟器或移动设备的端口映射; 计算机和设备之间的文件传入/传出; 将本地apk软件安装在模拟器或移动设备中
阅读全文
摘要:通过账号登录获取cookies,模拟登录(前提有天眼查账号),会员账号可查看5000家,普通只是100家,同时也要设置一定的反爬措施以防账号被封。拿有权限的账号去获取cookies,去访问页面信息,不过这样呢感觉还是不合适,因为之前也采集过都是避开登录和验证码的问题,因为这些数据只是人家网站让不让你拿,该怎样去拿的问题。这里只是简单地做一下测试,实际采集会遇到各种问题的,这里只是个解题思路仅供参...
阅读全文
摘要:对页面信息进行简单抓取:需要注意的问题 : auth-sign 和 auth 都是有一定的时效性,还有url原url是https这里要改为http请求。 这参数的问题需要通过mitmdump去获取请求的具体参数并将之取出,不用手动去截获分析http请求和响应,写好请求和相应的处理逻辑,通过python实现二次操作。后期通过appium模拟人为操作去滑动请求刷新界面,得到相应再做处理。 impo...
阅读全文
摘要:由上边的两图可以看到请求的一个过程,这里每次单击拖动只会更新10条数据(数据包含在data{}里),下面就要对请求的header参数进行分析。 3.经过分析 主要参数包含 结果如图: 4.进入单个tag的详情页: 评论 5.能力有限,目前只能分析到这几步,采集每一项tag的具体东西还没做完善,后期的
阅读全文
摘要:手机浏览访问 http://httpbin.org/get 效果如图:
阅读全文
摘要:windows 版本 双击安装 mitmproxy-ca.p12 按着引导安装,安装成功后会提示证书导入成功。 2.手机端 android手机上,同样需要将 mitmproxy-ca.cert.pem 文件发送到手机上。 这里通过访问 mitm.it 网站下载文件 失败,就选择通过邮件的方式发送给手
阅读全文
|