上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 18 下一页
摘要: #### 现状, 就是爬取数据的时候,单ip是不可能快速获得数据了, 现在常用的ip反爬,就是按照你访问的频率,如果识别到就封你的ip,更多的是封一段时间,比如一小时,比如几天,也有永久封禁, 但是现在大公司,屏蔽ip的成本变得很大,因为有的一个ip,不是一个人在用,而是一个公司,一个小区在用一个i 阅读全文
posted @ 2021-09-22 17:02 技术改变命运Andy 阅读(620) 评论(0) 推荐(0) 编辑
摘要: 第一种方法: 输入ipconfig 第二种方法 查看网络设置, 阅读全文
posted @ 2021-09-22 13:49 技术改变命运Andy 阅读(1619) 评论(0) 推荐(0) 编辑
摘要: # time模块 time模块是一个内置模块,非常的重要,非常的常用, ``` time模块的方法列表: altzone asctime ctime daylight get_clock_info gmtime localtime,返回的是结构化时间,struct_time,有一个参数,秒时间戳,如 阅读全文
posted @ 2021-09-22 10:46 技术改变命运Andy 阅读(76) 评论(0) 推荐(0) 编辑
摘要: 采集免费ip,制作自己的代理ip池 第一步,选择一个免费代理ip的网站,把他们网站的所有ip都爬取下来, http://www.66ip.cn/index.html https://seofangfa.com/proxy/ https://ip.jiangxianli.com/ http://www 阅读全文
posted @ 2021-09-22 07:39 技术改变命运Andy 阅读(1561) 评论(0) 推荐(0) 编辑
摘要: #### 首先是如何能避免封ip? 然后是封了ip怎么办? ### 如何避免封ip, 1,ua方面,尽量模拟浏览器的访问,比如useragent,尽量使用不同的ua,可以增加随机选择ua的功能,频繁切换UserAgent(模拟浏览器访问) 2,频率访问,降低采集频率,时间设置长一些,访问时间采用随机 阅读全文
posted @ 2021-09-22 07:00 技术改变命运Andy 阅读(241) 评论(0) 推荐(0) 编辑
摘要: # 接口文档的管理问题 有一个现实的问题,就是接口文档的管理问题, Flask 是一个以自由度高、灵活性强著称的 Python Web 框架。但高灵活性也意味着无尽的代码维护成本、高自由度意味着代码质量更依赖程序员自身而没有一致的标准和规范。因此团队内开发时 Flask 项目更需要建立代码和文档规范 阅读全文
posted @ 2021-09-20 08:22 技术改变命运Andy 阅读(45) 评论(0) 推荐(0) 编辑
摘要: # 背景 我们会发现有时候它需要与父组件进行交互。例如,将博客文章的文字能够放大,而页面的其余部分仍使用默认字号。 # 组件事件 这个事件不是用户点击行为的处理,那是用户事件, 这个组件事件是为了给组件之间传递数据的,老版本的vue也叫做自定义事件,现在叫组件事件 这两个区别你要搞清楚, # 一,事 阅读全文
posted @ 2021-09-14 05:21 技术改变命运Andy 阅读(52) 评论(0) 推荐(0) 编辑
摘要: # 存储过程 那么什么是存储过程呢?怎么创建、查看和删除存储过程呢?存储过程有什么优点? 存储过程:类似于函数(方法),简单的说存储过程是为了完成某个数据库中的特定功能而编写的语句集合, 该语句集包括SQL语句(对数据的增删改查)、条件语句和循环语句等。 ``` 1. 查看现有的存储过程 show 阅读全文
posted @ 2021-09-13 23:12 技术改变命运Andy 阅读(424) 评论(0) 推荐(0) 编辑
摘要: #### 首先是要安装nodejs, ### Pycharm环境配置这里需要说明一下!!! PyCharm 必须要为 专业版 ,社区版的我试过了几个版本,都不可以进行以下操作!!! 1,在Settings - Plugins里边,搜索NodeJS,然后点击下载; #### 2,在Settings - 阅读全文
posted @ 2021-09-13 22:52 技术改变命运Andy 阅读(1001) 评论(0) 推荐(0) 编辑
摘要: # 前言 这集来聊什么是 Nodejs , 看看 Node.js 是为了解决什么样的痛点而生的, 为啥说它是一个 JS 的运行环境, 以及 npm 是什么, 为何能引发了 Web 开发的革命。 # 什么是 Nodejs ## Node.js 的诞生 Node.js 是2009的时候由大神 Ryan 阅读全文
posted @ 2021-09-13 22:43 技术改变命运Andy 阅读(132) 评论(0) 推荐(0) 编辑
摘要: # 网络超时 插件管理 -->高级 >升级站点 输入 http://mirror.esuni.jp/jenkins/updates/update-center.json,提交 》 立即获取, ![](https://img2023.cnblogs.com/blog/1854922/202306/18 阅读全文
posted @ 2021-09-13 22:32 技术改变命运Andy 阅读(872) 评论(0) 推荐(0) 编辑
摘要: # npm介绍 npm 是世界上最大软件包仓库 最后来聊 npm 。Node.js 引发了前后端开发的爆发,尤其是前端。 JS 开发者众多,所以贡献开源代码的人就非常多,所有这些凝结成了 npm 这个世界上最大的软件包仓库。 npm 是 Node Package Manager 的缩写,意思是 No 阅读全文
posted @ 2021-09-13 22:18 技术改变命运Andy 阅读(187) 评论(0) 推荐(0) 编辑
摘要: scrapy.Request(url[,callback,method="GET",headers,body,cookies,meta,dont_filter=False]) 参数meta说明: 1)meta是一个字典,主要用于解析函数之间传递值; 2)Request对象接受一个meta参数,即一个 阅读全文
posted @ 2021-09-12 05:57 技术改变命运Andy 阅读(194) 评论(0) 推荐(0) 编辑
摘要: 设置delay有起码两个好处, 一个是对被爬对象表示礼貌, 另一个是爬的太快,很多服务器会封ip,或限制访问。 效果:每x秒左右来一个request 先建立一个项目来找CONCURRENT_REQUESTS与DOWNLOAD_DELAY的联系 大致给出粗略代码: jianshuspider.py: 阅读全文
posted @ 2021-09-12 05:11 技术改变命运Andy 阅读(945) 评论(0) 推荐(0) 编辑
摘要: #### 做分布式爬虫和搜索引擎对于服务器配置有什么要求? 实验室要做主题爬虫,附带简单的搜索查询功能,现在要租用10~20台服务器,不知道什么配置好。我们之前使用了三台服务器(租用的阿里云),用nutch1.7+hdfs爬取8000个URL(两层深度)用了两个多小时,第三层达到了40万用了3天还没 阅读全文
posted @ 2021-09-12 05:04 技术改变命运Andy 阅读(1628) 评论(0) 推荐(0) 编辑
摘要: #### Python很强大,熟练的程序员可以在5分钟内写出一个有价值的爬虫,比如: - 抓取股票信息 - 抓取笑话 - 抓取商品信息 但大部分被抓的网站不是任你抓取的木鸡,有抓就有反抗! 这是一场网站和程序员之间的一种博弈!都是程序员,何必呢?程序员何必为难程序员! 凡是博弈,就一定不易!因为道高 阅读全文
posted @ 2021-09-12 04:20 技术改变命运Andy 阅读(262) 评论(0) 推荐(0) 编辑
摘要: ####you-get是一个开源的python第三方模块, 安装 pip install you-get You-Get是GitHub上一个评分很高的python项目,作为一款精巧的命令行应用程序,可以很方便地从web网站下载视频。其下载的视频文件可以直接打开播放,不需要安装特定的网络浏览器,也免去 阅读全文
posted @ 2021-09-12 03:05 技术改变命运Andy 阅读(589) 评论(0) 推荐(0) 编辑
摘要: #### ### 这个爬虫中间件,的process_start_request方法,可以监控到有多少个爬虫启动,启动了多少个url, 因为所有的爬虫,都会通过这个中间件的, 我们可以在这个上面做文章,来监控这个爬虫的情况, ### 这两个是控制输入和输出的, 输出的信息,可以把每一个页面,的每一个记 阅读全文
posted @ 2021-09-12 01:09 技术改变命运Andy 阅读(51) 评论(0) 推荐(0) 编辑
摘要: ### 官方文档:https://docs.python.org/zh-cn/3/library/urllib.request.html#module-urllib.request # urllib模块介绍: 一共是四块, urllib.request - 打开和读取 URL。 urllib.err 阅读全文
posted @ 2021-09-11 22:40 技术改变命运Andy 阅读(29) 评论(0) 推荐(0) 编辑
摘要: ### 这是使用的urllib, #### 使用requests下载图片 import requests # 这是一个图片的url url = 'http://yun.itheima.com/Upload/Images/20170614/594106ee6ace5.jpg' response = r 阅读全文
posted @ 2021-09-11 22:39 技术改变命运Andy 阅读(114) 评论(0) 推荐(0) 编辑
摘要: ### # 序列化是什么? 现在的序列化都是转向一个字符串数据类型, 我们说的序列就是字符串, # 为什么要千方百计的转换成为字符串呢? 是为了存储和传递 如果一个字典{"k":"v"}为什么要转成字符串 1,我往文件或者数据库里面写内容的时候是不能写入字典的,可以写入字符串, 2,还有在网络上传输 阅读全文
posted @ 2021-09-11 05:05 技术改变命运Andy 阅读(68) 评论(0) 推荐(0) 编辑
摘要: #### 进入虚拟环境,里面安装了scrapy, 进入命令行,输入命令,scrapy shell 'https://scrapy.org' --nolog,执行后,会自动将指定 url 的网页下载下来, 注意一点:不要在你的爬虫项目文件夹下面执行这个命令,会报错的, 会弹出交互页面, 然后你就可以使 阅读全文
posted @ 2021-09-11 03:12 技术改变命运Andy 阅读(106) 评论(0) 推荐(0) 编辑
摘要: #### 在爬虫里面,使用yield,就是协程异步的体现, 所以我干保证,面试的时候一定会涉及到线程,涉及到协程,的使用,这个必须要深刻的理解, #### 必须要搞定这个线程协程,然后还有就是这个框架,然后你才能自定义,才能扩展这个框架, ##### 阅读全文
posted @ 2021-09-11 02:40 技术改变命运Andy 阅读(49) 评论(0) 推荐(0) 编辑
摘要: 1,要想达到日爬取千万,这种大规模的爬取,使用分布式是必须的, 关于可以使用RabbitMQ消息队列代替Redis。 关于celery的使用, 2,关于资源问题,数据去重问题,使用布隆过滤去重,几乎也是达成了共识, 3,另外就是代码健壮性要强!高可用、高扩展、高性能你可以都不知道,也没多大关系。但是 阅读全文
posted @ 2021-09-09 02:17 技术改变命运Andy 阅读(205) 评论(0) 推荐(0) 编辑
摘要: 爬虫 DATA/URL 去重 舆情业务必须紧盯网站是否有新的内容发布,要求是越快越好,但由于各项软硬件限制,通常会要求在 30 分钟内或者 15 分钟内监听到新内容。要实现对目标网站内容变化的监听,那么我们可以选择的比较好的方式就是轮询。不停地访问网页,并且判断是否有“新内容”出现,如果有的话就执行 阅读全文
posted @ 2021-09-09 01:42 技术改变命运Andy 阅读(137) 评论(0) 推荐(0) 编辑
摘要: ###### 可以通过以下几种方式: 1.开启多个命令行,分别执行scrapy cralw xxxx 2.编写一个脚本,写入以下代码,执行工程下的所有爬虫: from scrapy.utils.project import get_project_settings from scrapy.crawl 阅读全文
posted @ 2021-09-09 00:01 技术改变命运Andy 阅读(567) 评论(0) 推荐(0) 编辑
摘要: #### 统计几千个csv文件的行数,并统计 使用单线程完成 使用进程完成 使用线程完成 使用协程完成 #### 检索几千个文件,查询里面包含XXX字段的行, 使用单线程完成 使用进程完成 使用线程完成 使用协程完成 ### 抓取邮箱,并且存储起来, 递归的使用, 定时器的使用,定时把队列清空,写入 阅读全文
posted @ 2021-09-06 18:26 技术改变命运Andy 阅读(40) 评论(0) 推荐(0) 编辑
摘要: ### 使用内置函数help,查看帮助文档的时候,如何自由的操作帮助文档 #### 第一个问题,帮助文档怎么查看, 进入ipython解释器,使用help(命令)就可以了 查看某一个命令,help(str) 查看某一个函数的方法,help(str.split) 第二个问题,帮助文档很长怎么操作 按q 阅读全文
posted @ 2021-09-04 18:55 技术改变命运Andy 阅读(313) 评论(0) 推荐(0) 编辑
摘要: #### 新建一个python虚拟环境,然后安装selenium 新建一个python项目, #### from selenium import webdriver driver = webdriver.Chrome() driver.get("https://www.baidu.com") ### 阅读全文
posted @ 2021-09-02 15:57 技术改变命运Andy 阅读(442) 评论(0) 推荐(0) 编辑
摘要: ####大规模抓取的抓取效率和抓取技巧问题 这个话题,只在大规模的时候有用,抓取几十个网页,其实差别不大,不需要这个问题, ### 第一个问题, 输入url,到返回数据发生了什么 这个你面试可以说是一个经典的面试题, 对这个问题越了解,你越能优化大规模的抓取,考验的是你的综合能力, ### 客户端发 阅读全文
posted @ 2021-08-31 02:43 技术改变命运Andy 阅读(106) 评论(0) 推荐(0) 编辑
摘要: #### 有时候app抓不到包,这不是工具的问题,而是你没有搞清楚网络协议, ### 网络协议 网络协议,比如http协议,这是全球通用的,大家约定好的,你要开发软件,就要遵守这个协议, 浏览器都是只能抓到应用层, ### TCP/IP五层模型五层协议:应用层:用户使用的应用程序都归属于应用层,作用 阅读全文
posted @ 2021-08-25 10:00 技术改变命运Andy 阅读(6703) 评论(1) 推荐(1) 编辑
摘要: ### 具体怎么使用这个frida来逆向,来hook? 下面讲解一个案例: ## ### 分析这个题目: 第一步:这个是打开apk进入了这个页面,主界面有一个输入框,输入按钮,所以这个按钮应该是在apk的主界面, 第二步,我就要进入主界面的源码,看看源码, 第三步,既然要看源码,所以先apk反编译, 阅读全文
posted @ 2021-08-24 09:32 技术改变命运Andy 阅读(690) 评论(0) 推荐(0) 编辑
摘要: #### hook技术 1,hook,java层,这个相对简单,都是java代码, 2,hook,native层,so库,这个难度大,里面都是汇编, #### frida框架介绍: frida是一个逆向框架, 目前逆向框架比较知名的有两个,Xposed,frida Xposed,是java开发的,要 阅读全文
posted @ 2021-08-24 09:06 技术改变命运Andy 阅读(2743) 评论(0) 推荐(1) 编辑
摘要: #### 模拟器的安装和使用 1,本来是想在mac上使用mumu模拟器,但是安装Xposed一直失败, 2,我尝试使用真机来进行脱壳,但是Xposed可以安装, 电脑adb连接真机的方法: 首先真机打开开发者模式,进入设置,打开关于手机,找到版本号,一直点击版本号,在点击过程中会提示“还有×次,直到 阅读全文
posted @ 2021-08-23 19:09 技术改变命运Andy 阅读(2596) 评论(0) 推荐(1) 编辑
摘要: # MuMu模拟器Mac版本连接adb adb kill-server && adb server && adb shell # 获取系统版本 获取系统版本命令:adb shell getprop ro.build.version.release 也可以直接在设置里面,查看 阅读全文
posted @ 2021-08-23 17:50 技术改变命运Andy 阅读(261) 评论(0) 推荐(0) 编辑
摘要: #### app加固原理 #### 首先是为什么要加固app? 加固,就是为了防止被很容易的被逆向,逆向就是说把app的源代码抠出来,比如游戏app,如果别人想要抄袭我,逆向之后,把代码拿去,然后就可以用,后台都有,这是很危险的, 所以要加固,让你难以逆向,这不是完全杜绝,而是相对比较难, ### 阅读全文
posted @ 2021-08-23 17:48 技术改变命运Andy 阅读(4901) 评论(0) 推荐(0) 编辑
摘要: #### shuqi.apk mumu模拟器 ### 正常的shuqi.apk,是在模拟器可以正常运行的, ### 首先第一步使用apktool.sh d shuqi.apk 反编译出来这个apk, ### 然后再次打包这个apk, 使用命令,apktool.sh b shuqi 会在产生一个dis 阅读全文
posted @ 2021-08-23 12:47 技术改变命运Andy 阅读(948) 评论(0) 推荐(0) 编辑
摘要: ### 要逆向app,就要知道这个app正向的流程, ### apk的启动加载 1,dex文件的加载流程, 安卓源代码, 首先要知道这个安卓虚拟机加载dex文件的,是有两层的, java层的dex加载逻辑 native层的dex加载逻辑 如果你要手动脱壳的话,就要了解这两个层次的东西, 2,点击图标 阅读全文
posted @ 2021-08-23 11:51 技术改变命运Andy 阅读(432) 评论(0) 推荐(0) 编辑
摘要: #### mac,使用jadx,反编译apk jadx是一个非常好用的android反编译gui工具。下面就来介绍下jadx工具。 首先给出jadx的github地址:https://github.com/skylot/jadx macos 安装: brew install jadx 打开jadx界 阅读全文
posted @ 2021-08-23 08:17 技术改变命运Andy 阅读(2800) 评论(0) 推荐(0) 编辑
摘要: ### 比赛第十题, ### 扣代码就是和时间斗争的过程,没有足够的耐心,扣不了代码, ## 比如识别文字,然后让你点击,这种js是解决不了的,只能是训练或者打码平台, #### ##### ### 最笨的办法就是二分法,一定能找出来,其实就是打印找错误的办法 ### #### ### 出现这样的混 阅读全文
posted @ 2021-08-22 16:51 技术改变命运Andy 阅读(1081) 评论(1) 推荐(2) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 18 下一页