03 2024 档案
摘要:浮点数表示: 1.一般尾数用补码,阶码用移码表示 2.阶码的位数决定数的表示范围,位数越多范围越大 3.尾数的位数决定数的有效精度 4.对阶时,小数向大数看齐,小数右移 弗林分类 SISD 单指令但数据流 单处理器系统 SIMD 单指令多数据流 陈列处理机 并行处理机 超级向量处理机 MISD 多指
阅读全文
摘要:import pandas as pd # 读取数据 df = pd.read_csv('new_result_05.csv') # 行业分类与代码映射表 industry_mapping = { '农业': 'A01', '林业': 'A02', '畜牧业': 'A03', '采矿业': 'B',
阅读全文
摘要:import urllib.request, urllib.parse, urllib.error import json import hashlib import numpy as np import pandas as pd MyAK = '' MySK = '' lat=0.0 lng=0.
阅读全文
摘要:import pandas as pd import nltk from nltk.tokenize import word_tokenize from nltk.corpus import stopwords from nltk.stem import PorterStemmer from nlt
阅读全文
摘要:import urllib.request, urllib.parse, urllib.error import json import hashlib import numpy as np import pandas as pd MyAK = '' MySK = '' lat=0.0 lng=0.
阅读全文
摘要:import pandas as pd from sqlalchemy import create_engine # 从数据库中读取结果表数据到 DataFrame 中 engine = create_engine('mysql+pymysql://root:wwsa20030207@localho
阅读全文
摘要:import pandas as pd from sqlalchemy import create_engine # 从数据库中读取结果表数据到 DataFrame 中 engine = create_engine('mysql+pymysql://root:wwsa20030207@localho
阅读全文
摘要:import pandas as pd from sqlalchemy import create_engine # 从数据库中读取已经合并的数据到 DataFrame 中,假设这里的数据已经合并并写入到了名为 resulttable 的表中 engine = create_engine('mysq
阅读全文
摘要:信息系统的生命周期 立项阶段:做还是不做,企业全局,形成概念,需求分析 开发阶段: 运维阶段 消亡阶段 系统规划:系统设计任务书 系统分析:系统需求规格说明书,软件需求规格说明书,确认测试计划,系统测试计划,初步的用户手册 系统设计:架构设计文档,概要设计说明书,详细设计说明书 系统实施:单元测试
阅读全文
摘要:数据库模式: 三级模式 两级映射 外模式(视图)-用户模式 概念模式(关系表)- 模式 内模式(索引和文件)-物理模式/存储模式 数据库的设计过程:需求分析 概念结构设计 逻辑结构设计 物理设计 E-R模型: 需求分析 ->抽象数据 -> 设计局部ER模型 -> 合并局部模型消除冲突 ->重构优化消
阅读全文
摘要:1.水平切割发的规则和原理是:路由器从某个接口接收到的更新信息不允许在从这个接口发回去 优点:1.能够阻止路由环路的产生 2.减少路由器更新信息占用的链路带宽资源 2.一个url协议名://主机名.域名/目录名/文件名 几部分构成。xxxyftp.abc.com.cn xxxyftp就是主机名 3.
阅读全文
摘要:Tcp/Ip协议 DNS协议: 迭代查询:这个结果不一定是关系,也可以是线索,线索有可能是结果(根域名) 递归查询:必须回答目标ip与域名的关系(可以问别人) 网络规划与设计 逻辑网络设计:输出内容:逻辑网络设计图 Ip地址方案 安全方案 招聘和培训网络员工的具体说明 对软硬件,服务,员工和培训的费
阅读全文
摘要:进程管理 - 进程状态 三态与五态 进程管理 - 前趋图 进程的同步与互斥 互斥:同类资源竞争关系 同步:进程间的协作关系 进程管理 - pv操作 进程管理 - 死锁问题 2 16+10 26*5 131 页面置换算法: 最优算法(理想型,不现实) 随机算法 先进先出(FIFO)算法:有可能产生抖动
阅读全文
摘要:摘要:文章根据高性能网站建设指南,通过软件质量属性的六个一级指标,来讨论一个如何建立一个高性能的网站,主要强调了前端工程师的重要性以及前端建设对于一个的网站性能的重要性。 关键词:响应速率 请求 高性能 效率 在书中有几个令我印象深刻的数据,前端的问题可能消耗掉整体时间的80%,而HTML文档只占总
阅读全文
摘要:当页面动态变化时,对于各种事件,例如改变大小,滚动和鼠标移动。这些都会发送请求进行求值,这样就导致了求值进行的非常繁琐。 如何避免: 使用一次性表达式:将值设置成为固定值,去除css表达式 使用事件处理器:这样可以避免在无关事件发生时对表达式的求值。
阅读全文
摘要:脚本放在底部和样式放在页面顶部的道理差不多,因为脚本的下载不能并行,因为不能保证脚本按正确的顺序执行,所以,脚本下载会阻塞并行下载。
阅读全文
摘要:为什么要把样式表放在开头? 相信我们都遇到过一个现象就是,在等待页面加载过程中,页面会先白屏然后突然把所有的东西都加载出来了,这就是因为把样式表放在了最后,导致样式是最后加载的,而白屏是对无样式内容闪烁的一种弥补,那么什么是无样式内容闪烁,当页面的内容加载时,文字首先出现,然后是图片,最后又用样式重
阅读全文
摘要:规则一和规则三从减少不必要的http请求来缩短响应时间,规则二通过缩短距离来缩短响应时间,而压缩则是通过减少文件的大小来缩短响应时间。 用什么来进行压缩? 文章通过比较gzip,deflate。通过一系列的数据对比,gzip是目前最流行,最有效的压缩方法,gzip不仅被大多数的浏览器支持,而且其压缩
阅读全文
摘要:这个规则的主要观点在于缓存减少响应时间,我们是否有过这样的感觉,当你第一次访问一个网站和多次访问一个网站时,网站的加载速度是不一样的,这是因为当我们第一次访问的时候,加载了更多的http请求,就如同规则一那样,在理想情况下,我们不适用任何图片,任何脚本,任何样式的时候,他的加载速度是最快的。但这样不
阅读全文
摘要:刚开始通过不同的地理位置,网络请求速度不同这一现象,引出了如何加速组件的下载,在前面的序言中引出了,用户只有10%~20%的时间花在加载html页面内容的请求,其余的80%~90%都花在了组件的加载上,于是,如果缩短了组件的加载时间,就可以缩短用户请求的时间。于是,就引出了CDN(内容网络发布),根
阅读全文
摘要:http发送请求 在文章中的介绍了加速网页加载的方法之一,就是让http少发送请求,通过图片地图,图片内联,合并脚本和样式表,CSS Sprites的方法优化http发送请求。 1.图片地图:如果有五个需要请求的超链接,我们可以将这五个url放在一张图片上,这样的话就将五个请求转变为了一个请求,这就
阅读全文
摘要:代码 # Define here the models for your spider middleware # # See documentation in: # https://docs.scrapy.org/en/latest/topics/spider-middleware.html imp
阅读全文
摘要:背景:解析 站长素材首页的图片 看程序执行 在我执行完程序之后显示爬取成功 但是并没有爬取到图片 找错过程 把settings中的LOG_LEVEL = "ERROE"改成WARNING 就发现了警告信息 于是我又进行输出url 发现了本身爬取的url没有问题 但是用Request解析的时候就发现了
阅读全文
摘要:笔记 - 图片数据爬取之ImagesPipeline - 基于scrapy爬取字符串类型的数据和爬取图片类型的数据区别? - 字符串:只需要基于xpth进行解析且提交管道进行持久化存储 - 图片:xpath解析出图片src属性值。单独的对图片地址发起请求获取图片二进制类型的数据 - ImagesPi
阅读全文
摘要:- 五大核心组件: - 引擎(Engine) 用作于数据流处理 可以触发事务 - 调度器(Scheduler):请求对象去重 并压入队列,并在引擎再次请求的时候返回,可以想象成一个url的优先队列,由他来决定下一个要抓取的网址是什么,同时去除重复的网址 - 过滤器 - 队列 - 下载器(Downlo
阅读全文
摘要:-基于Spider的全站数据爬取 - 就是将一个网站上的所有数据全部爬取下来 - 实现方法: - 将所有页面的url添加到start_urls 列表 (不推荐) - 自行手动进行请求发送(推荐): -手动发送请求: - yield scrapy.Request(url=url,callback=se
阅读全文
摘要:笔记 如何将爬取到的数据一份存储到本地一份存储到数据库? - 创建一个管道类 - 爬虫文件提交到的item指挥给管道文件中的第一个被执行的管道类接收 - process_item方法中的return item表示将item提交给下一个管道类 在pipelines类中加入MysqlPiplines类
阅读全文
摘要:笔记 - 基于管道: - 编码流程 -数据解析 - 在item类中定义相关的属性 - 将解析的数据封装到item对象中 - 将item类型的对象提交给管道进行持久化存储 - 在管道类的process_item中要将其接收到的item对象中存储的数据进行持久化存储 - 在配置文件中开启管道 - 好处:
阅读全文
摘要:笔记 - 基于终端指令: - 要求:只可以将parse方法的返回值存储到本地的文本文件中 scrapy crawl dou -o ./douban.csv - 注意:持久化存储的类型只可以是'json', 'jsonlines', 'jsonl', 'jl', 'csv', 'xml', 'mars
阅读全文
摘要:import scrapy class DouSpider(scrapy.Spider): name = "dou" #allowed_domains = ["www.douban.com"] start_urls = ["https://www.douban.com/doulist/1136522
阅读全文
摘要:scrapy框架 - 什么是框架 - 就是集成了很多功能并且具有很强通用性的一个项目模板 - 如何学习框架 - 专门学习框架封装的各种功能的详细用法 - 什么是scrapy - 爬虫中封装好的一个明星框架。 - 功能:高性能的持久化存储,异步的数据下载,高性能的数据解析,分布式部署 - scrapy
阅读全文
摘要:- 超级鹰 -注册:普通用户 -登录:普通用户 -题分查询:充值 - 创建一个软件(id) - 下载实例代码 - 下载核心代码 利用超级鹰进行图片验证的模拟登录 from selenium import webdriver from selenium.webdriver.common.keys im
阅读全文
摘要:from selenium import webdriver from time import sleep from selenium.webdriver.chrome.options import Options from selenium.webdriver import ChromeOptio
阅读全文
摘要:from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.by import By from time import sleep web_
阅读全文