摘要:
使用scrapy 爬取数据 Scrapy is written in pure Python and depends on a few key Python packages (among others): lxml, an efficient XML and HTML parser parsel, 阅读全文
摘要:
#-*- coding:utf-8 -*- from multiprocessing import Pool from bs4 import BeautifulSoup import requests from lxml import etree import re import os import 阅读全文
摘要:
通过 PIL 和 Python-tesseract 处理验证码并且进行识别来模拟登陆,在测试中对像素进行增强能显著提升 字符识别的能力 #-*- coding:utf-8 -*- try: from PIL import Image, ImageEnhance except ImportError: 阅读全文
摘要:
关于爬虫的案例和方法,我们已讲过许多。不过在以往的文章中,大多是关注在如何把网页上的内容抓取下来。今天我们来分享下,当你已经把内容爬下来之后,如何提取出其中你需要的具体信息。 HTML 文档本身是结构化的文本,有一定的规则,通过它的结构可以简化信息提取。于是,就有了lxml、pyquery、Beau 阅读全文
摘要:
1.简介 XPath是一门在XML和HTML文档中查找信息的语言,可以用来在XML和HTML文档中对元素和属性进行遍历 XPath的安装 Chrome插件XPath Helper 点Chrome浏览器右上角:更多工具 扩展程序 谷歌商店 勾选XPath Helper(需要FQ) 2.语法详解 - x 阅读全文
摘要:
Http协议真的好严格,特殊字符诸如+?%#&=/等都会被当做转义字符处理,这样的话请求路径的参数就不对了,所以特殊字符要如下处理: 空格 用%20代替 " 用%22代替 # 用%23代替 % 用%25代替 &用%26代替 ( 用%28代替 ) 用%29代替 + 用%2B代替 , 用%2C代替 / 阅读全文
摘要:
HTTP Cookie(也叫 Web Cookie 或浏览器 Cookie)是服务器发送到用户浏览器并保存在本地的一小块数据,它会在浏览器下次向同一服务器再发起请求时被携带并发送到服务器上。通常,它用于告知服务端两个请求是否来自同一浏览器,如保持用户的登录状态。Cookie 使基于无状态的HTTP协 阅读全文
摘要:
来自:https://developer.mozilla.org/zh-CN/docs/Web/HTTP/Caching_FAQ 通过复用以前获取的资源,可以显著提高网站和应用程序的性能。Web 缓存减少了等待时间和网络流量,因此减少了显示资源表示形式所需的时间。通过使用 HTTP缓存,变得更加响应 阅读全文
摘要:
JavaScript — 一种内置于浏览器的高级脚本语言,您可以用来实现Web页面/应用中的功能。注意JavaScript也可用于其他象Node这样的的编程环境。但现在您不必考虑这些。客户端API — 内置于浏览器的结构程序,位于JavaScript语言顶部,使您可以更容易的实现功能。第三方API 阅读全文
摘要:
JavaScript 中的继承 那些定义在构造器函数中的、用于给予对象实例的。这些都很容易发现 - 在您自己的代码中,它们是构造函数中使用this.x = x类型的行;在内置的浏览器代码中,它们是可用于对象实例的成员(通常通过使用new关键字调用构造函数来创建,例如var myInstance = 阅读全文
摘要:
JavaScript 对象基础 对象是一个包含相关数据和方法的集合(通常由一些变量和函数组成,我们称之为对象里面的属性和方法) var objectName = { member1Name : member1Value, member2Name : member2Value, member3Name 阅读全文
摘要:
ebay 关于这个问题的详细分析 https://tech.ebayinc.com/engineering/a-vip-connection-timeout-issue-caused-by-snat-and-tcp-tw-recycle/ 2、问题原因 注意 Linux 从4.12内核版本开始移除了 阅读全文
摘要:
循环的标准 for (initializer; exit-condition; final-expression) { // code to run } 关键字for,后跟一些括号。 在括号内,我们有三个项目,以分号分隔: 一个初始化器 - 这通常是一个设置为一个数字的变量,它被递增来计算循环运行的 阅读全文
摘要:
在代码中做决定 - 条件语句 if ... else 语句 if (condition) { code to run if condition is true } else { run some other code instead } <main> <label for="name_select" 阅读全文
摘要:
注:行末的分号表示当前语句结束,不过只有在单行内需要分割多条语句时,这个分号才是必须的。然而,一些人认为每条语句末尾加分号是一种好的风格。分号使用规则的更多细节请参阅 JavaScript 分号使用指南(英文页面)。 注:几乎任何内容都可以作为变量名,但还是有一些限制(请参阅 变量命名规则)。如果你 阅读全文
摘要:
介绍定位 说起定位之前先复习一下文档流/正常流normal flow,即浏览器默认的文档布局方式: 内联元素从左到右 块级元素另起一行 定位就是通过设置position属性的值来覆盖默认的布局方式!使用top、left、right 、bottom来改变位置 position属性: position: 阅读全文
摘要:
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>Title</title> <style> /* spacing */ table { table-layout: fixed; width: 100%; bo 阅读全文
摘要:
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>开始学习CSS</title> <!-- <link rel="stylesheet" href="/static/css/test1.css"> --> <s 阅读全文
摘要:
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>开始学习CSS</title> <style type="text/css"> <!-- CSS元素选择器(也称为类型选择器)通过node节点名称匹配元素. 因 阅读全文
摘要:
来自: https://blog.csdn.net/qq_37211608/article/details/80285008 简单总结: 1、JS是一门 前端语言。 2、Ajax是一门 技术,它提供了异步更新的机制,使用客户端与服务器间交换数据而非整个页面文档,实现页面的局部更新。 3、jQuery 阅读全文
摘要:
来自:https://www.cnblogs.com/lailailai/p/4528092.html 下面转的两篇文章分别说明了以下两个概念和一些解决方法: 1. CSRF - Cross-Site Request Forgery - 跨站请求伪造 2. CORS - Cross Origin R 阅读全文
摘要:
光模块参数 对于硬件开发工程师而言,光模块有很多很重要的光电技术参数,但对于GBIC和SFP这两种热插拔光模块而言,只需要了解光模块的如下3种主要参数就可以顺利开展工作了: 第一、中心波长:单位纳米(nm),目前主要有3种: 1) 850nm(MM,多模,成本低但传输距离短,一般只能传输500M); 阅读全文
摘要:
来自:https://blog.csdn.net/weixin_45527702/article/details/104437654 常规命令: show databases; #查看数据库中都有哪些库 create database mydb charset=utf8; #创建mydb库 use 阅读全文
摘要:
引子:把所有数据都存放于一张表的弊端 1、表的组织结构复杂不清晰 2、浪费空间 3、扩展性极差 为了解决上述的问题,就需要用多张表来存放数据。 表与表的记录之间存在着三种关系:一对多、多对多、一对一的关系。 处理表之间关系问题就会利用到FOREIGN KEY 多对一关系: 被关联表称为主表,关联表称 阅读全文
摘要:
修改数据库字符集: ALTER DATABASE db_name DEFAULT CHARACTER SET character_name [COLLATE ...]; 把表默认的字符集和所有字符列(CHAR,VARCHAR,TEXT)改为新的字符集: ALTER TABLE tbl_name CO 阅读全文
摘要:
1 . cascade方式在父表上update/delete记录时,同步update/delete掉子表的匹配记录 2. set null方式在父表上update/delete记录时,将子表上匹配记录的列设为null要注意子表的外键列不能为not null 3. No action方式如果子表中有匹 阅读全文
摘要:
1.加密算法简介 加密算法一般分为两种:对称加密和非对称加密。 1.1对称加密(Symmetric Key Algorithms) 对称加密算法使用的加密和解密的密钥一样,比如用秘钥123加密就需要用123解密。实际中秘钥都是普通数据在互联网传输的,这样秘钥可能会被中间人截取,导致加密被破解。其过程 阅读全文
摘要:
来自:https://zhuanlan.zhihu.com/p/147773669 你可能会发现最近这样的新闻越来越多:苹果要换 A 系列芯片给 Mac 了,英特尔没落了要被 AMD 翻炒,次世代游戏主机自定义了 AMD 和显卡和处理器。乍一看可能有些混乱,硬件世界到底发生了什么?本文中,我会先聊聊 阅读全文
摘要:
来自:https://www.cnblogs.com/Tiancheng-Duan/p/10826905.html 二进制协议 VS 文本协议 前言 最近由于工作上的需要(一方面是与底层与传感器进行数据交互,另一方面是对RabbitMQ的AMQP协议的学习),接触了一些网络协议相关的内容。正好就二进 阅读全文
摘要:
来自:https://www.toutiao.com/i6867821699513975304/?tt_from=weixin&utm_campaign=client_share&wxshare_count=1×tamp=1599617330&app=news_article&utm_so 阅读全文
摘要:
来自: https://www.cnblogs.com/schut/p/8406897.html 字符编码的常用种类介绍 第一种:ASCII码 ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套 阅读全文
摘要:
when CLIENT_ACCEPTED { set INPUT_OPTION [TCP::option get 28] binary scan $INPUT_OPTION c ver set ver [expr { $ver & 0xff }] set forwarded_ip [IP::addr 阅读全文
摘要:
来自: https://www.liujiangblog.com/course/python/73 这一部分是正则表达式的通用语法,和Python实现无关。 正则表达式本质上只做一件事,那就是编写一个表达式“字符串”,然后用这个字符串去匹配目标文本。核心的核心,都在编写这个“字符串”表达式上面。 注 阅读全文
摘要:
import logging logging.basicConfig(format="%(asctime)s:%(name)s:%(levelname)s:%(message)s",filename='web_server.log',level=logging.DEBUG) #logging.bas 阅读全文
摘要:
Default TTL and Hop Limit values vary between different operating systems, here are the defaults for a few: Linux kernel 2.4 (circa 2001): 255 for TCP 阅读全文
摘要:
概念 L7 requests per second: 1.8 M #七层每秒请求数 L4 connections per second: 800K #四层秒连接数 L4 HTTP requests per second: 12M #四层每秒请求数 Maximum L4 concurrent conn 阅读全文
摘要:
URL与URI的区别和联系 来自: 最近学习JavaWeb时发现URL与URI这两个缩写,于是感到很困惑,不知道这两个名字很像的缩写表示什么含义,于是我上网搜了一下,总结如下: 一、关于URL 1) URL定义: 在WWW上,每一信息资源都有统一的且在网上唯一的地址,该地址就叫URL(Uniform 阅读全文
摘要:
简介 来自: http://www.ruanyifeng.com/blog/2019/09/curl-reference.html [root@kube log]# curl -LI -A'Mozilla / 5.0(Windows NT 6.1; Win64; x64; rv:60.0)Gecko 阅读全文
|