05 2019 档案
摘要:1.scrapy:爬虫框架 -框架:集成了很多功能且具有很强通用性的一个项目模板 -如何学习框架:(重点:知道有哪些模块,会用就行) -学习框架的功能模板的具体使用. 功能:(1)异步爬取(自带buffer) (2)高性能的数据解析+持久化存储操作. 2.scrapy环境安装: 3.scrapy数据
阅读全文
摘要:1. 2.单线程多任务异步协程回顾 运行的得到下面的结果: <html> <head> <script> location.replace(location.href.replace("https://","http://")); </script> </head> <body> <noscript
阅读全文
摘要:超级鹰(更简单的操作验证) 1.12306自动登录 # Author: studybrother sun from selenium import webdriver import time from selenium.webdriver import ActionChains from PIL i
阅读全文
摘要:1.selenium是什么? http://blog.csdn.net/huilan_same/article/details/51896672 http://blog.csdn.net/huilan_same/article/details/51896672 (1)演示程序 前戏:加载驱动程序(下
阅读全文
摘要:1.测试学习 (2)单线程: 测试结果:需要6秒多 (2)开启线程池:测试结果是2秒多 测试结果: (3)在程序中是否可以一味的使用多线程,多进程? 推荐:单线程+异步协程(效率最高,用的人不是很多,大量爬取数据是会用到的) 下面了解一下 协程(go和python独有的概念),,协程不会占用很高的内
阅读全文
摘要:1.美团抓取回顾id是处理的核心问题!!! 2.回顾重点内容 (1)模拟登陆: --有时我们需要爬取基于当前用户的用户信息(需要登录后才可查看) --实现流程: --借助于珠宝工具,抓取点击登录按钮发起的post请求(url,参数(动态参数)) --携带cookie对其他子页面进行请求发送 注意:c
阅读全文
摘要:1.解决中文乱码的问题 (1)是否动态加载, (2)获取源码数据 彼岸图网: 第一页地址:http://pic.netbian.com/4kmeinv/ 第二页:http://pic.netbian.com/4kmeinv/index_2.html 第三页:http://pic.netbian.co
阅读全文
摘要:1.引子:什么是数据解析,为什么需要数据解析? 我们目前可以用浏览器自带的请求requests url进行相关的解析. 下面我们开始演示一下: 我们爬取一张图片,图片是一个网络资源 两种爬取图片的方式: 第一种图片形式的请求 第二种图片形式的请求: 一定要检查自己写的是否正确 2.数据解析 数据解析
阅读全文
摘要:1.解压安装就可以了 fiddler优点:抓取移动和PC机器的请求 2.首先进行证书的配置 如果不配置只能抓取http的请求,https不能抓取. 先选择,第一个"清空所有内容" fiddler本身就是一个代理服务器. 本机,先给fiddler,再给"百度代理服务器" 选择菜单栏里边的"Tools"
阅读全文
摘要:1.爬虫三种分类: 通用爬虫:爬取整个页面的数据 聚焦爬虫:爬取经过筛选过滤后的数据,基于一张页面的局部内容. 增量式爬虫:爬虫监测网站更新后的数据, 2.什么是UA检测,如何破解? UA检测:服务器会用来通过获取请求,通过请求获取请求头中的UA,通过判定UA的值,知道请求的载体身份标识. 将爬虫程
阅读全文
摘要:1.requests安装的问题 (1)如果requests没有安装,我们需要先安装这个模块,在cmd安装不了,我们可以在下面的位置,打开的窗体安装requests模块 pip install requests (2)pip要升级注意一下: 2.requests模块&&urllib模块 (1)什么是r
阅读全文
摘要:1.jupyter的基本使用方式 两种模式:code和markdown (1)code模式可以直接编写py代码 (2)markdown可以直接进行样式的指定 (3)双击可以重新进行编辑 (4)快捷键总结: (5)ipynb文件相当于是放在缓存中,没有先后顺序.缓存机制 2.第二种打开anaconda
阅读全文
摘要:D1 1.开篇&&简单介绍启动:https://www.cnblogs.com/studybrother/p/10931343.html 2.jupyter简单使用&&爬虫相关概念:https://www.cnblogs.com/studybrother/p/10932034.html 3.requ
阅读全文
摘要:1.第一阶段的内容 2.学习的方法? 思考,总结,重复 3.长大了意味着什么?家庭的责任,真的很重 4.数据分析&&数据清洗 numpy&&pandas&&matplotlib 实例: 人口普查数据分析 政治献金 机器学习入门初步了解(识别手写的数字) 5.数据结构: 二叉树,矩阵,队列,栈,堆等等
阅读全文
摘要:01jupyter环境安装:https://www.cnblogs.com/bobo-zhang/p/10057504.html anaconda介绍\安装及使用:知乎:https://zhuanlan.zhihu.com/p/32925500 02python网络爬虫之http和https协议:h
阅读全文
摘要:1.精确查找和模糊查找(term和match的区别) match经过分析(analyer)的, term是不经过分词,直接去倒排索引中查找精确的值. 2.建议器的简介(最左前缀或者自带的做) (1)直接用现成的 (2)不只是纠错,还有建议等等. (3)优点:用户体验,服务器减少请求(减少压力,太耗电
阅读全文
摘要:1.验证是否成功安装django 上图证明安装成功 2.打开客户端的pycharm,在terminal中打开窗体,什么都没输入,运行下面的命令 python manage.py runserver 在浏览器中输入:127.0.0.1:8000 3.查看django的版本
阅读全文
摘要:方法1:查看python版本 方法2:cmd框中查看的两种方式
阅读全文
摘要:1.13条必知必会 2. 参考人莱河:https://www.cnblogs.com/xudj/p/10486505.html
阅读全文
摘要:1.开心小爬爬 在爬取之前需要先安装requests模块和BeautifulSoup这两个模块 2.自定义models.py模块 写完上边的内容,需要在Terminal窗体中执行命令 3.前后端设计&&配置文件.
阅读全文
摘要:1.昨日内容回顾 es的基本操作:增删改查 es的两种查询方式: (1)query string (2)query DSL match match match_all sort bool:must,shoud,must_not(既不是,又不是,只要符合一个就可以),filter 分页 高亮 聚合:s
阅读全文
摘要:1.回顾 (1)es是什么? (2) (3) 简单操作 2.ES的增删改查(curd) (1)删除之前的数据&数据准备(创建数据) 运行上边的5个操作 (2)查找数据 (3)更新,只能更新一个,其他不能更新,(不建议使用) 上图是查看到的数据,下面恢复一下数据 (4)只更新指定字段,其他不做修改 是
阅读全文
摘要:1.elasticsearch的数据组织 (1)逻辑设计和物理设计 启动kibana可能会慢一些,点一个enter,尝试一下 逻辑设计包括:文档,类型,索引 物理设计包括:节点和分片 逻辑设计: 一个索引类型中,包含多个文档,比如文档1,文档2,... 当我们索引一篇文章时,可以通过下面的顺序找到(
阅读全文
摘要:问题1: es一闪即逝的问题?java的jdk环境变量没有配置好, JAVA_HOME没有配置好 必须在系统变量里面添加JAVA_HOME: C:\Program Files\Java\jre1.8.0_201 注意,不到bin 参考安装篇 问题2: 报上边的错误 kibana:Create ind
阅读全文
摘要:1.测试环境 2.启动的脚本run.py 3.elasticsearch和kibana是要启动的两个文件 首先,在cmd中安装pyinstaller模块 上图的命令可能会有一些警告,没有问题. 切换到上图的F盘下面的ELK文件夹下面,执行命令,执行run.py文件 执行上图可能会出现一些警告,这些没
阅读全文
摘要:elasticsearch.yml文件 打开上边的文件,我们看到下面的"集群"名称,节点名称 下图是文件的存储路径和日志路径 下面是监听的地址,默认是本机 下图指的是,集群是怎样搭建的,一种是默认的(在局域网内,起一个就是一个),我们需要统一对文件进行处理 也就是以单播或者广播的形式发行. 为了更清
阅读全文
摘要:1.ES和Kibana安装都是开箱即用的? 解压缩就可以用 elasticsearch解压缩之后,双击下图中的elasticsearch.bat,启动,kibana也是一样 双击之后, 我们看到上图有一个9300的端口. 出现上图,说明es已经启动了. 注意上边的地址是:127.0.0.1:9200
阅读全文
摘要:JRE: Java Runtime EnvironmentJDK:Java Development KitJRE顾名思义是java运行时环境,包含了java虚拟机,java基础类库。是使用java语言编写的程序运行所需要的软件环境,是提供给想运行java程序的用户使用的。JDK顾名思义是java开发
阅读全文
摘要:一.elasticsearch背景介绍 1.问题引入:搜索所有天安门相关的内容,大数据量的判断,加索引orm,歌词怎么做?等等问题,大公司上亿条数据怎样开发处理日志? 2.ELK框架,目前先学习E(elasticsearch) 3.Apache是http服务器,美国人发明的,Apache火起来之后,
阅读全文
摘要:建议:直接按照默认路径,下面有一个路径我有点小改动 java最新版本1.12 从官网上下载oracle官网上的jdk 1.双击这个jdk.exe 2.点击"是" 3.点击下图的"下一步" 4.修改路径(C:\Java\jdk1.8.0_201\),点击"下一步" 5.点击"下一步" 6.继续,点击"
阅读全文
摘要:DAY1.elasticsearch和kibana环境搭建以及简单介绍 A:环境搭建配置 (1)java虚拟机安装:https://www.cnblogs.com/studybrother/p/10896729.html (2)elasticsearch安装&&kibana安装:https://ww
阅读全文
摘要:1,这个我们需要授权 2.授予安全
阅读全文
摘要:1. 2.下面是一个远程控制工具 TeamViewer 人与人之间就是需要不断沟通交流,才会有所成长,victory!不断积累,一点点前行!
阅读全文
摘要:今日大纲 1.发布详情页面 2.前端页面获取分支信息 3.前端界面获取commit信息与tag信息 4.获取线上最新版本 5.发布之实现nginx下线 6.发布之实现server发布 7.前端页面按钮变更 8.更新剩余机器 9.回滚 10.最后优化小知识点 1.发布详情页面 2.前端页面获取分支信息
阅读全文
摘要:今日大纲: 1.计划任务前端页面 2.计划任务新增实现 3.计划任务编辑 4.项目详情 5.文件上传 6.replace模块介绍 1.计划任务前端页面 2.计划任务新增实现 3.计划任务编辑 4.项目详情 5.文件上传 6.replace模块介绍
阅读全文
摘要:今日大纲 1.命令展示前端页面实现(下面有个断点) 2.命令下发后端展示
阅读全文
摘要:1.主机的增删改查 2.初始化的增删改查 3.项目的增删改查
阅读全文
摘要:1.shell笔试题 # cat /etc/passwdroot:x:0:0:root:/root:/bin/bash bin:x:1:1:bin:/bin:/sbin/nologin daemon:x:2:2:daemon:/sbin:/sbin/nologin adm:x:3:4:adm:/va
阅读全文
摘要:1. 收件人:做这件事情的人 抄送人:只需要知道这件事就可以 主体:用一句话来概括内容.关于...的... 2. dear, all hi,all 3. 这是我,...详情请看附件 附件1-2个可以,直接上传,多个附件,打包上传,尽量选择zip打包,苹果系统默认是这个 有问题请及时联系我 4. 邮箱
阅读全文
摘要:今日大纲: 1.用户创建 2.前端优化 3.用户编辑 4.用户删除 5.ansible api介绍 1.用户创建 新建一个user_create.html的页面 <form class="form-horizontal" id="createForm" action="" method="post"
阅读全文
摘要:一个NB的网站: https://www.toolfk.com/ CDN:将用户的需求送到最近的节点:内容分发网络 有些是专门做CDN的工具 常用的markdown是需要知道的,短信有字数限制. websocket:客户端与服务器,http是客户端向服务端发消息,服务端是找不到客户端的,怎么办? w
阅读全文
摘要:1.https://github.com/leisurelicht/wtfpython-cn 2.https://github.com/StephanWagner/jBox jBox是一个jQuery插件,可以轻松创建可自定义的工具提示,模态窗口,图像库等。
阅读全文
摘要:1.假设山东省拿到了第三个网段,假设山东省有10个地级市 求: 第三个网段是10.16-10.23 原来划分32个省已经划分出了5位,现在划分10个,需要再划分出4位来 也就是: 5位 4 位 剩余的15位是可用的主机位 10.00000 000 0 0000000 0000000 开始=>结束 1
阅读全文
摘要:今日大纲: 1.前端页面介绍 2.发布流程 3.需求分析 4.表结构设计 5.前端页面设计 昨日内容回顾: 1.roles roles的操作顺序: 2.celery的三种操作? 今日内容: 1.前端页面介绍 最后项目的样式: 通过playbook,直接开始,初始化. 可以执行命令: 最重要的是发布.
阅读全文
摘要:1.ansible roles 2.nginx+uwsgi扩展 3.celery异步任务 4.celery延时任务 5.周期任务 6.celery与django结合 7.网络基础 8.celery监听目录
阅读全文
摘要:1.playbook剧本 2.playbook传参 3.setup模块介绍 4.playbook的tags 5.playbook的handlers&&templates模块 6.条件和循环when&&with_items
阅读全文
摘要:大纲: 1.file模块 2.fetch模块 3.yum&&pip模块 4.service模块 5.cron模块 6.user模块 7.group模块
阅读全文
摘要:大纲 1.系统安装与机器克隆 2.ansible介绍和host-pattern格式 3.command模块 4.shell模块 5.script模块 6.copy模块
阅读全文