Python爬虫--爬取文字加密的番茄小说

一、学爬虫，看小说

很久没有去研究爬虫了，借此去尝试爬取小说查看小说，发现页面返回的内容居然都是加密的。

二、对小说目录进行分析

　　通过分析小说目录页面，获取小说名称等内容

引用parsel包，对页面信息进行获取

url = "https://fanqienovel.com/reader/7276663560427471412?enter_from=page"

# 发送请求
response = requests.get(url=url, headers=headers)
# 获取响应得文本数据（html字符串数据）
html_data = response.text
"""解析数据：提取需要得数据内容"""
# 把html字符串数据转成可解析对象
selector = parsel.Selector(html)

# xpath 匹配内容
text = selector.xpath('string(//div[@class="muye-reader-content noselect"])').get()

# re 正则匹配内容
text = selector.re(r'<p>(.*?)</p>')


# css选择器匹配
# 章节名
name = select.css('.muye-reader-title::text').get()
print(name)

直接上代码

 1 import requests
 2 import parsel
 3 
 4 # URL地址（请求地址）
 5 url = "https://fanqienovel.com/page/7276384138653862966"
 6 # 模拟浏览器
 7 headers = {
 8     # cookie
 9     'Cookie': 'Hm_lvt_2667d29c8e792e6fa9182c20a3013175=1716438629; csrf_session_id=cb69e6cf3b1af43a88a56157e7795f2e; '
10               'novel_web_id=7372047678422058532; s_v_web_id=verify_lwir8sbl_HcMwpu3M_DoJp_4RKG_BcMo_izZ4lEmNBlEQ; '
11               'Hm_lpvt_2667d29c8e792e6fa9182c20a3013175=1716454389; ttwid=1%7CRpx4a-wFaDG9-ogRfl7wXC7k61DQkWYwkb_Q2THE'
12               'qb4%7C1716454388%7Cb80bb1f8f2ccd546e6a1ccd1b1abb9151e31bbf5d48e3224451a90b7ca5d534c; msToken=-9U5-TOe5X2'
13               'axgeeY4G28F-tp-R7o8gDaOF5p2fPPvcNdZYLXWU9JiPv_tOU81HeXCDT52o4UtGOLCZmuDMN2I8yulNK-8hIUpNSHiEVK3ke5aEeG'
14               'J4wDhk_cQgJ3g==',
15     # User-Agent
16     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 '
17                   'Safari/537.36'
18 }
19 # 发送请求
20 response = requests.get(url=url, headers=headers)
21 # 获取响应得文本数据（html字符串数据）
22 html = response.text
23 """解析数据：提取需要得数据内容"""
24 # 把html字符串数据转成可解析对象
25 selector = parsel.Selector(html)
26 # 书名信息
27 name = selector.css('.info-name h1::text').get()
28 print(name)
29 # 作者信息
30 au = selector.css('.author-name-text::text').get()
31 print(au)
32 # 标签信息
33 x = selector.css('.info-label span::text').getall()
34 print(x)

运行结果如下：

继续获取章节名称信息、章节URL

获取章节名称、章节URL信息

分析页面信息，使用css选择器，进行提取对应字段

# css选择器
# 章节名称
.chapter-item-title::text

# 章节对应url
.chapter-item-title::attr(href)

# 章节名称
title_list = selector.css('.chapter-item-title::text').getall()
print(title_list)

# 章节url
href = selector.css('.chapter-item-title::attr(href)').getall()
print(href)

代码运行结果

对url进行拼接

for title, link in zip(title_list, href):
    print(title)

    # 完整的小说章节链接
    link_url = 'https://fanqienovel.com' + link
    print(link_url)

代码运行

对url进行检查，发现第1章的url显示并不正确，访问后并不是第1章的内容，7372041397370618392

代码修改

检查页面herf信息，发现会显示最近更新的href，对应id与代码运行时显示第一章的id一样。需要对代码进行修改

修改代码

for title, link in zip(title_list, href[1:]):
    print(title)

    # 完整的小说章节链接
    link_url = 'https://fanqienovel.com' + link
    print(link_url)

代码运行成功

url检查成功

三、获取url页面的数据

　　提取页面的数据信息

　　 # 发生请求+获取数据内容
    link_data = requests.get(url=link_url, headers=headers).text
    # 解析数据：提取小说内容
    link_selector = parsel.Selector(link_data)
    # 提取小说内容
    content_list = link_selector.css('.muye-reader-content-16 p::text').getall()
    # 把列表合并成字符串
    content = '\n'.join(content_list)

代码运行

发现可以获取页面的部分内容，但内容并不完整，很多文字被加密，无法展示

四、文字内容解密

　　对页面进行分析，双击下载字体库

成功下载字体库

使用软件FontCreator.exe打开，可查看字体库内容

对获取的小说内容进行转换

　　使用ord函数，对获取的内容转码

    # 发生请求+获取数据内容
    link_data = requests.get(url=link_url, headers=headers).text
    # 解析数据：提取小说内容
    link_selector = parsel.Selector(link_data)
    # 提取小说内容
    content_list = link_selector.css('.muye-reader-content-16 p::text').getall()
    # 把列表合并成字符串
    content = '\n'.join(content_list)

    for i in content:
        print(i, "-->", ord(i))

运行结果：

针对获得的数据信息进行分析

　　在下载的字体库中可以找到对应的汉字

　　如 ascii码 58657 ---> 我

　　　　　　 58398 ---> 是

　　　　　　 58483 ---> 白

　　　　　　 58611 ---> 的

以此类推

需要整理一份对应的字典表，将字体库中的对应关系整理出来才行。

通过将获取的内容进行替换之后，即可获得完整的信息

解密处理

 1 text = select.css('.muye-reader-content-16 p::text').getall()
 2 content = '\n'.join(text)
 3 # print(content)
 4 for index in content:
 5     try:
 6         t1 = dict_data[str(ord(index))]
 7         print(t1, end="")
 8     except:
 9         t1 = index
10         print(t1, end="")

运行结果

结果显示与页面显示的内容一致

数据保存

对获取的内容进行保存即可

text = select.css('.muye-reader-content-16 p::text').getall()
content = '\n'.join(text)
# print(content)
result = []
for index in content:
    try:
        t1 = dict_data[str(ord(index))]
        # print(t1, end="")
        result.append(t1)
    except:
        t1 = index
        # print(t1, end="")
        result.append(t1)


# 写入文件
with open('2.txt', mode='a', encoding='utf8') as f:
    f.write(name + '\n') # 写入章节名称
    for i in result:
        f.write(i)