随笔分类 - Web前后端
Web 前端和后端框架、数据库、爬虫
摘要:JavaScript简称JS,是一种浏览器解释型语言,嵌套在HTML文件中交给浏览器解释执行。主要用来实现网页的行为,用户交互及前后端的数据传输等。 JavaScript 组成 脚本可位于 HTML 的 <body> 或 <head> 部分中,通常的做法是把函数放入 <head> 部分中,或者放在页
阅读全文
摘要:jQuery是JS的工具库,对原生JS中的DOM操作、事件处理、包括数据处理和Ajax技术等进行封装,使用 . 链式写法,提供更完善,更便捷的方法。 再使用jquery之前,我们需要先引入jquery文件,才能使用jquery语法,导入jQ文件的方法有两种。 从 jquery.com 下载 jQue
阅读全文
摘要:作者:凌贤鹏 地址:https://www.cnblogs.com/LXP-Never/p/11235848.html CSS全称为层叠样式表(Cascading Style Sheets),与HTML相辅相成,CSS负责实现网页的排版布局与样式美化,使用CSS样式建议在当前文件夹下创建一个CSS文
阅读全文
摘要:作者:凌逆战 地址:https://www.cnblogs.com/LXP-Never/p/11229886.html HTML称为超文本标记语言,不属于编程语言的范畴,HTML使用标记标签来描述网页。HTML运行在浏览器上,由浏览器来解析。网页运行在浏览器上,是数据展示的载体。网页由浏览器、服务器
阅读全文
摘要:数据库是一个存储数据的仓库,主要用在:金融机构、游戏网站、购物网站、论坛网站,现在的主流数据库有:MySQL、SQL_Server、Oracle、Mariadb、DB2、MongoDB ... 那么我们在生产环境中,如何选择使用哪个数据库 1. 是否开源 开源软件:MySQL、Mariadb、Mon
阅读全文
摘要:爬取网站的思路 多级页面数据抓取 1、爬取一级页面,提取所需数据+链接,继续跟进 2、爬取二级页面,提取所需数据+链接,继续跟进 3、... 爬虫代码规范书写: 常见的反爬总结 基于User-Agent反爬 一般被关注的变量是userAgent和Referer和Cookie,可以考虑用浏览器中 1、
阅读全文
摘要:Fiddler抓包工具 配置Fiddler 配置浏览器代理 1、安装Proxy SwitchyOmega插件2、浏览器右上角:SwitchyOmega->选项->新建情景模式->AID1901(名字)->创建 输入 :HTTP:// 127.0.0.1 8888 点击 :应用选项3、点击右上角Swi
阅读全文
摘要:应用场景 1、多进程 :CPU密集程序2、多线程 :爬虫(网络I/O)、本地磁盘I/O 知识点回顾 队列 线程模块 小米应用商店抓取(多线程) 目标 实现步骤 1、确认是否为动态加载 1、页面局部刷新 2、右键查看网页源代码,搜索关键字未搜到,因此此网站为动态加载网站,需要抓取网络数据包分析 2、F
阅读全文
摘要:Web自动化测试工具,可运行在浏览器,根据指令操作浏览器,只是工具,必须与第三方浏览器结合使用,相比于之前学的爬虫只是慢了一点而已。而且这种方法爬取的东西不用在意时候ajax动态加载等反爬机制。因此找标签可以直接F12找,不用确定源码中是否存在。 安装 Linux: sudo pip3 instal
阅读全文
摘要:scrapy框架是异步处理框架,可配置和可扩展程度非常高,Python中使用最广泛的爬虫框架。 安装 Ubuntu安装 1、安装依赖包 2、安装scrapy框架 Windows安装 cmd命令行(管理员): python -m pip install Scrapy Scrapy框架五大组件 下载器中
阅读全文
摘要:cookie适用于抓取需要登录才能访问的页面网站 cookie和session机制 http协议为无连接协议,cookie: 存放在客户端浏览器,session: 存放在Web服务器 人人网登录案例 方法一:登录网站手动抓取Cookie 1、先登录成功1次,获取到携带登陆信息的Cookie 登录成功
阅读全文
摘要:正则解析模块re re模块使用流程 方法一 r_list=re.findall('正则表达式',html,re.S) 方法二 创建正则编译对象 pattern = re.compile('正则表达式',re.S)r_list = pattern.findall(html) 正则表达式元字符:http
阅读全文
摘要:控制台抓包 打开方式及常用选项 1、打开浏览器,F12打开控制台,找到Network选项卡 2、控制台常用选项 1、Network: 抓取网络数据包 1、ALL: 抓取所有的网络数据包 2、XHR:抓取异步加载的网络数据包 3、JS : 抓取所有的JS文件 2、Sources: 格式化输出并打断点调
阅读全文
摘要:常见的反爬机制及处理方式 1、Headers反爬虫 :Cookie、Referer、User-Agent 解决方案: 通过F12获取headers,传给requests.get()方法 2、IP限制 :网站根据IP地址访问频率进行反爬,短时间内进制IP访问 解决方案: 1、构造自己IP代理池,每次访
阅读全文
摘要:网络爬虫也称为网络蜘蛛、网络机器人,抓取网络的数据。其实就是用Python程序模仿人点击浏览器并访问网站,而且模仿的越逼真越好。一般爬取数据的目的主要是用来做数据分析,或者公司项目做数据测试,公司业务所需数据。而数据来源可以来自于公司内部数据,第三方平台购买的数据,还可以通过网络爬虫爬取数据。pyt
阅读全文
摘要:字符串常用方法 csv模块 作用:将爬取的数据存放到本地的csv文件中 使用流程 Windows中使用csv模块默认会在每行后面添加一个空行,使用newline=''可解决 with open('xxx.csv','w',newline='') as f: 猫眼电影top100抓取案例 确定URL网
阅读全文
摘要:地址和请求头参数--url和header res = requests.get(url,headers=headers) 向网站发起请求,并获取响应对象 参数 url :需要抓取的URL地址 headers : 请求头 timeout : 超时时间,超过时间会抛出异常 响应对象(res)属性 enc
阅读全文
摘要:文件存储 文件存储到数据库的方式 1. 存储路径 将文件在本地的路径以字符串形式存储到数据库 优点 : 节省数据库空间 缺点 : 当数据库或者文件位置发生变化时文件丢失。 2. 存储文件本身 以二进制方式将文件存储到数据库 优点:数据库和文件绑定存在 缺点 : 占用数据库空间大,存储效率低,结构化麻
阅读全文
摘要:修改操作符 $set 修改一个域,或者增加一个域 e.g. 修改功能,如果该域不存在则增加这个域 db.class0.update({age:20},{$set:{name:'小微'}}) $unuset 删除一个域 e.g. sex后面为空表示删除一个域 db.class0.update({nam
阅读全文
摘要:1、非关系型数据库和关系型数据库比较 1. 不是以关系模型构建的,结构自由 2. 非关系型数据库不保证数据的一致性 3. 非关系型数据库可以在处理高并发和海量数据时弥补关系型数据库的不足 4. 非关系型数据库在技术上没有关系型数据库成熟也没有sql语句的操作 2、mongoDB文档型数据库 创建数据
阅读全文