摘要:
#使用Xpath方式爬取好段子 #http://www.haoduanzi.com/category/?1-1.html 从第二页开始1-2 1-3 import urllib.parse import urllib.request from lxml import etree import tim 阅读全文
摘要:
#爬取https://wenxue.7139.com/5107/这个页面所有标题和内容 #保存到HTML文件中,标题用h1 内容用p格式 import urllib.request import urllib.parse import re #定义过滤回传HTML中所有html标签 这部分时候来看大 阅读全文
摘要:
xpath是一种过滤HTML页面寻找我们需要数据的方法,他的结果是一个列表 待过滤HTML页面: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"/> <title>Xpath 测试</title> </head> <body 阅读全文
摘要:
#输入吧名;输入起始页 然后在当前文件夹中创建一个以吧名为名字的文件夹, # 里面的每一页的html内容,文件名是吧名_page.html import urllib.parse import urllib.request import os tieba_url = "http://tieba.ba 阅读全文
摘要:
#构建get参数 data={ "start":(page-1)*number , "limit": number } #将字典转化为 query_string query_string = urllib.parse.urlencode(data) #构建完整的请求url movie_url+=qu 阅读全文