2024 年 3月随笔档案 - 会秃头的小白

计组

摘要：浮点数表示： 1.一般尾数用补码，阶码用移码表示 2.阶码的位数决定数的表示范围，位数越多范围越大 3.尾数的位数决定数的有效精度 4.对阶时，小数向大数看齐，小数右移弗林分类 SISD 单指令但数据流单处理器系统 SIMD 单指令多数据流陈列处理机并行处理机超级向量处理机 MISD 多指阅读全文

posted @ 2024-03-26 21:02 会秃头的小白阅读(12) 评论(0) 推荐(0) 编辑

大数据——添加行业代码

摘要：import pandas as pd # 读取数据 df = pd.read_csv('new_result_05.csv') # 行业分类与代码映射表 industry_mapping = { '农业': 'A01', '林业': 'A02', '畜牧业': 'A03', '采矿业': 'B', 阅读全文

posted @ 2024-03-26 21:00 会秃头的小白阅读(32) 评论(0) 推荐(0) 编辑

大数据——数据下钻到省市县

摘要：import urllib.request, urllib.parse, urllib.error import json import hashlib import numpy as np import pandas as pd MyAK = '' MySK = '' lat=0.0 lng=0. 阅读全文

posted @ 2024-03-25 22:58 会秃头的小白阅读(7) 评论(0) 推荐(0) 编辑

大数据——补充关键词

摘要：import pandas as pd import nltk from nltk.tokenize import word_tokenize from nltk.corpus import stopwords from nltk.stem import PorterStemmer from nlt 阅读全文

posted @ 2024-03-25 22:57 会秃头的小白阅读(6) 评论(0) 推荐(0) 编辑

大数据——调用百度地图接口进行规范

摘要：import urllib.request, urllib.parse, urllib.error import json import hashlib import numpy as np import pandas as pd MyAK = '' MySK = '' lat=0.0 lng=0. 阅读全文

posted @ 2024-03-25 22:57 会秃头的小白阅读(6) 评论(0) 推荐(0) 编辑

大数据——增加行政区编码列

摘要：import pandas as pd from sqlalchemy import create_engine # 从数据库中读取结果表数据到 DataFrame 中 engine = create_engine('mysql+pymysql://root:wwsa20030207@localho 阅读全文

posted @ 2024-03-25 22:56 会秃头的小白阅读(9) 评论(0) 推荐(0) 编辑

大数据——重复清洗

摘要：import pandas as pd from sqlalchemy import create_engine # 从数据库中读取结果表数据到 DataFrame 中 engine = create_engine('mysql+pymysql://root:wwsa20030207@localho 阅读全文

posted @ 2024-03-25 22:56 会秃头的小白阅读(3) 评论(0) 推荐(0) 编辑

大数据——合并表

摘要：import pandas as pd from sqlalchemy import create_engine # 从数据库中读取已经合并的数据到 DataFrame 中，假设这里的数据已经合并并写入到了名为 resulttable 的表中 engine = create_engine('mysq 阅读全文

posted @ 2024-03-25 22:55 会秃头的小白阅读(7) 评论(0) 推荐(0) 编辑

软件工程

摘要：信息系统的生命周期立项阶段：做还是不做，企业全局，形成概念，需求分析开发阶段：运维阶段消亡阶段系统规划：系统设计任务书系统分析：系统需求规格说明书，软件需求规格说明书，确认测试计划，系统测试计划，初步的用户手册系统设计：架构设计文档，概要设计说明书，详细设计说明书系统实施：单元测试阅读全文

posted @ 2024-03-24 22:21 会秃头的小白阅读(7) 评论(0) 推荐(0) 编辑

数据库

摘要：数据库模式：三级模式两级映射外模式（视图）-用户模式概念模式（关系表）- 模式内模式（索引和文件）-物理模式/存储模式数据库的设计过程：需求分析概念结构设计逻辑结构设计物理设计 E-R模型：需求分析 ->抽象数据 -> 设计局部ER模型 -> 合并局部模型消除冲突 ->重构优化消阅读全文

posted @ 2024-03-20 21:02 会秃头的小白阅读(5) 评论(0) 推荐(0) 编辑

计网和数据通信做题总结

摘要：1.水平切割发的规则和原理是：路由器从某个接口接收到的更新信息不允许在从这个接口发回去优点：1.能够阻止路由环路的产生 2.减少路由器更新信息占用的链路带宽资源 2.一个url协议名：//主机名.域名/目录名/文件名几部分构成。xxxyftp.abc.com.cn xxxyftp就是主机名 3. 阅读全文

posted @ 2024-03-20 21:01 会秃头的小白阅读(4) 评论(0) 推荐(0) 编辑

计算机网络

摘要：Tcp/Ip协议 DNS协议：迭代查询：这个结果不一定是关系，也可以是线索，线索有可能是结果（根域名）递归查询：必须回答目标ip与域名的关系（可以问别人）网络规划与设计逻辑网络设计：输出内容：逻辑网络设计图 Ip地址方案安全方案招聘和培训网络员工的具体说明对软硬件，服务，员工和培训的费阅读全文

posted @ 2024-03-20 20:59 会秃头的小白阅读(2) 评论(0) 推荐(0) 编辑

操作系统

摘要：进程管理 - 进程状态三态与五态进程管理 - 前趋图进程的同步与互斥互斥：同类资源竞争关系同步：进程间的协作关系进程管理 - pv操作进程管理 - 死锁问题 2 16+10 26*5 131 页面置换算法：最优算法（理想型，不现实）随机算法先进先出（FIFO）算法：有可能产生抖动阅读全文

posted @ 2024-03-19 17:28 会秃头的小白阅读(6) 评论(0) 推荐(0) 编辑

如何建设一个高性能的网站

摘要：摘要：文章根据高性能网站建设指南，通过软件质量属性的六个一级指标，来讨论一个如何建立一个高性能的网站，主要强调了前端工程师的重要性以及前端建设对于一个的网站性能的重要性。关键词：响应速率请求高性能效率在书中有几个令我印象深刻的数据，前端的问题可能消耗掉整体时间的80%，而HTML文档只占总阅读全文

posted @ 2024-03-11 17:27 会秃头的小白阅读(33) 评论(0) 推荐(0) 编辑

规则七：避免css表达式

摘要：当页面动态变化时，对于各种事件，例如改变大小，滚动和鼠标移动。这些都会发送请求进行求值，这样就导致了求值进行的非常繁琐。如何避免：使用一次性表达式：将值设置成为固定值，去除css表达式使用事件处理器：这样可以避免在无关事件发生时对表达式的求值。阅读全文

posted @ 2024-03-09 21:40 会秃头的小白阅读(3) 评论(0) 推荐(0) 编辑

规则六：将脚本放在底部

摘要：脚本放在底部和样式放在页面顶部的道理差不多，因为脚本的下载不能并行，因为不能保证脚本按正确的顺序执行，所以，脚本下载会阻塞并行下载。阅读全文

posted @ 2024-03-09 21:39 会秃头的小白阅读(6) 评论(0) 推荐(0) 编辑

规则五：将样式表放在开头

摘要：为什么要把样式表放在开头？相信我们都遇到过一个现象就是，在等待页面加载过程中，页面会先白屏然后突然把所有的东西都加载出来了，这就是因为把样式表放在了最后，导致样式是最后加载的，而白屏是对无样式内容闪烁的一种弥补，那么什么是无样式内容闪烁，当页面的内容加载时，文字首先出现，然后是图片，最后又用样式重阅读全文

posted @ 2024-03-09 21:39 会秃头的小白阅读(4) 评论(0) 推荐(0) 编辑

规则四：压缩组件

摘要：规则一和规则三从减少不必要的http请求来缩短响应时间，规则二通过缩短距离来缩短响应时间，而压缩则是通过减少文件的大小来缩短响应时间。用什么来进行压缩？文章通过比较gzip，deflate。通过一系列的数据对比，gzip是目前最流行，最有效的压缩方法，gzip不仅被大多数的浏览器支持，而且其压缩阅读全文

posted @ 2024-03-09 21:39 会秃头的小白阅读(5) 评论(0) 推荐(0) 编辑

规则三：使用Expires

摘要：这个规则的主要观点在于缓存减少响应时间，我们是否有过这样的感觉，当你第一次访问一个网站和多次访问一个网站时，网站的加载速度是不一样的，这是因为当我们第一次访问的时候，加载了更多的http请求，就如同规则一那样，在理想情况下，我们不适用任何图片，任何脚本，任何样式的时候，他的加载速度是最快的。但这样不阅读全文

posted @ 2024-03-09 21:38 会秃头的小白阅读(6) 评论(0) 推荐(0) 编辑

规则二：使用内容网络发布

摘要：刚开始通过不同的地理位置，网络请求速度不同这一现象，引出了如何加速组件的下载，在前面的序言中引出了，用户只有10%~20%的时间花在加载html页面内容的请求，其余的80%~90%都花在了组件的加载上，于是，如果缩短了组件的加载时间，就可以缩短用户请求的时间。于是，就引出了CDN（内容网络发布），根阅读全文

posted @ 2024-03-09 21:38 会秃头的小白阅读(10) 评论(0) 推荐(0) 编辑

规则一：减少http请求

摘要：http发送请求在文章中的介绍了加速网页加载的方法之一，就是让http少发送请求，通过图片地图，图片内联，合并脚本和样式表,CSS Sprites的方法优化http发送请求。 1.图片地图：如果有五个需要请求的超链接，我们可以将这五个url放在一张图片上，这样的话就将五个请求转变为了一个请求，这就阅读全文

posted @ 2024-03-06 22:03 会秃头的小白阅读(3) 评论(0) 推荐(0) 编辑

中间件

摘要：代码 # Define here the models for your spider middleware # # See documentation in: # https://docs.scrapy.org/en/latest/topics/spider-middleware.html imp 阅读全文

posted @ 2024-03-03 21:58 会秃头的小白阅读(4) 评论(0) 推荐(0) 编辑

问题：图片解析后url路径解析发生改变

摘要：背景：解析站长素材首页的图片看程序执行在我执行完程序之后显示爬取成功但是并没有爬取到图片找错过程把settings中的LOG_LEVEL = "ERROE"改成WARNING 就发现了警告信息于是我又进行输出url 发现了本身爬取的url没有问题但是用Request解析的时候就发现了阅读全文

posted @ 2024-03-03 21:02 会秃头的小白阅读(17) 评论(0) 推荐(0) 编辑

scrapy—图片解析（图片懒加载）

摘要：笔记 - 图片数据爬取之ImagesPipeline - 基于scrapy爬取字符串类型的数据和爬取图片类型的数据区别？ - 字符串：只需要基于xpth进行解析且提交管道进行持久化存储 - 图片：xpath解析出图片src属性值。单独的对图片地址发起请求获取图片二进制类型的数据 - ImagesPi 阅读全文

posted @ 2024-03-03 18:11 会秃头的小白阅读(83) 评论(0) 推荐(0) 编辑

scrapy 五大核心组件

摘要：- 五大核心组件： - 引擎(Engine) 用作于数据流处理可以触发事务 - 调度器(Scheduler)：请求对象去重并压入队列，并在引擎再次请求的时候返回，可以想象成一个url的优先队列，由他来决定下一个要抓取的网址是什么，同时去除重复的网址 - 过滤器 - 队列 - 下载器(Downlo 阅读全文

posted @ 2024-03-02 18:48 会秃头的小白阅读(14) 评论(0) 推荐(0) 编辑

scrapy——全站数据爬取

摘要：-基于Spider的全站数据爬取 - 就是将一个网站上的所有数据全部爬取下来 - 实现方法： - 将所有页面的url添加到start_urls 列表（不推荐） - 自行手动进行请求发送（推荐）： -手动发送请求： - yield scrapy.Request(url=url,callback=se 阅读全文

posted @ 2024-03-02 13:07 会秃头的小白阅读(32) 评论(0) 推荐(0) 编辑

scrapy——分别存储在文本文件和mysql数据库中

摘要：笔记如何将爬取到的数据一份存储到本地一份存储到数据库？ - 创建一个管道类 - 爬虫文件提交到的item指挥给管道文件中的第一个被执行的管道类接收 - process_item方法中的return item表示将item提交给下一个管道类在pipelines类中加入MysqlPiplines类阅读全文

posted @ 2024-03-02 12:40 会秃头的小白阅读(8) 评论(0) 推荐(0) 编辑

scrapy——基于管道持久化存储

摘要：笔记 - 基于管道： - 编码流程 -数据解析 - 在item类中定义相关的属性 - 将解析的数据封装到item对象中 - 将item类型的对象提交给管道进行持久化存储 - 在管道类的process_item中要将其接收到的item对象中存储的数据进行持久化存储 - 在配置文件中开启管道 - 好处：阅读全文

posted @ 2024-03-02 12:07 会秃头的小白阅读(14) 评论(0) 推荐(0) 编辑

scrapy——终端持久化存储

摘要：笔记 - 基于终端指令： - 要求：只可以将parse方法的返回值存储到本地的文本文件中 scrapy crawl dou -o ./douban.csv - 注意：持久化存储的类型只可以是'json', 'jsonlines', 'jsonl', 'jl', 'csv', 'xml', 'mars 阅读全文

posted @ 2024-03-02 12:04 会秃头的小白阅读(3) 评论(0) 推荐(0) 编辑

scrapy数据解析

摘要：import scrapy class DouSpider(scrapy.Spider): name = "dou" #allowed_domains = ["www.douban.com"] start_urls = ["https://www.douban.com/doulist/1136522 阅读全文

posted @ 2024-03-02 11:25 会秃头的小白阅读(4) 评论(0) 推荐(0) 编辑

scrapy

摘要：scrapy框架 - 什么是框架 - 就是集成了很多功能并且具有很强通用性的一个项目模板 - 如何学习框架 - 专门学习框架封装的各种功能的详细用法 - 什么是scrapy - 爬虫中封装好的一个明星框架。 - 功能：高性能的持久化存储，异步的数据下载，高性能的数据解析，分布式部署 - scrapy 阅读全文

posted @ 2024-03-02 11:25 会秃头的小白阅读(6) 评论(0) 推荐(0) 编辑

问题：模拟qq自动登录时候截不到验证码图片

摘要：- 超级鹰 -注册：普通用户 -登录：普通用户 -题分查询：充值 - 创建一个软件（id） - 下载实例代码 - 下载核心代码利用超级鹰进行图片验证的模拟登录 from selenium import webdriver from selenium.webdriver.common.keys im 阅读全文

posted @ 2024-03-01 21:54 会秃头的小白阅读(3) 评论(0) 推荐(0) 编辑

无头浏览器+规避检测

摘要：from selenium import webdriver from time import sleep from selenium.webdriver.chrome.options import Options from selenium.webdriver import ChromeOptio 阅读全文

posted @ 2024-03-01 16:38 会秃头的小白阅读(23) 评论(0) 推荐(0) 编辑

selenium——模拟qq空间登录

摘要：from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.by import By from time import sleep web_ 阅读全文

posted @ 2024-03-01 16:21 会秃头的小白阅读(37) 评论(0) 推荐(0) 编辑

lin513

03 2024 档案

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜