求知鱼

2020年1月12日

摘要： #使用Xpath方式爬取好段子 #http://www.haoduanzi.com/category/?1-1.html 从第二页开始1-2 1-3 import urllib.parse import urllib.request from lxml import etree import tim 阅读全文

posted @ 2020-01-12 15:48 求知鱼阅读(312) 评论(0) 推荐(0) 编辑

正则-提取某情话网站所有情话内容

摘要： #爬取https://wenxue.7139.com/5107/这个页面所有标题和内容 #保存到HTML文件中，标题用h1 内容用p格式 import urllib.request import urllib.parse import re #定义过滤回传HTML中所有html标签这部分时候来看大阅读全文

posted @ 2020-01-12 15:28 求知鱼阅读(318) 评论(0) 推荐(0) 编辑

爬虫-xpath基础实例演示

摘要： xpath是一种过滤HTML页面寻找我们需要数据的方法，他的结果是一个列表待过滤HTML页面： <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"/> <title>Xpath 测试</title> </head> <body 阅读全文

posted @ 2020-01-12 15:22 求知鱼阅读(425) 评论(0) 推荐(0) 编辑

爬虫--任意百度贴吧任意页数HTML内容页面下载（未经过滤处理）

摘要： #输入吧名；输入起始页然后在当前文件夹中创建一个以吧名为名字的文件夹， # 里面的每一页的html内容，文件名是吧名_page.html import urllib.parse import urllib.request import os tieba_url = "http://tieba.ba 阅读全文

posted @ 2020-01-12 15:15 求知鱼阅读(337) 评论(0) 推荐(0) 编辑

关于爬虫urllib.request模块、urllib.parse模块的基础使用

摘要： #构建get参数 data={ "start":(page-1)*number , "limit": number } #将字典转化为 query_string query_string = urllib.parse.urlencode(data) #构建完整的请求url movie_url+=qu 阅读全文

posted @ 2020-01-12 15:11 求知鱼阅读(305) 评论(0) 推荐(0) 编辑

2020年1月10日

爬取小视频网站视频并下载——场库网站视频批量下载

摘要：首先声明：此小视频非彼小视频，大家心照不宣即可目标：https://www.vmovier.com/ 这网站名字好像叫场库 """ 首先向https://www.vmovier.com/发送请求获取响应，解析响应将所有标题和链接过滤出来向过滤出的链接发请求下载视频向src属性发送请求，获取阅读全文

posted @ 2020-01-10 19:00 求知鱼阅读(2104) 评论(0) 推荐(0) 编辑

关于json接口返回的数据不是json格式的处理方法——正则匹配

摘要：今天尝试爬取一个小视频网站的视频（当然不是大家想的那个小视频）：www.vmovier.com 一开始以为直接进去网页后使用xpath匹配链接就行测试发现该网站使用懒加载技术所以直接爬的方法行不通不能完全匹配所有视频链接于是我抓取了它的加载接口：https://www.vmovier.com 阅读全文

posted @ 2020-01-10 13:37 求知鱼阅读(8511) 评论(0) 推荐(0) 编辑

2020年1月7日

关于 pytesseract模块图片验证码

摘要：错误类型： pytesseract.pytesseract.TesseractError: (1, 'Error opening data file C:\\Program Files (x86)\\Tesseract-OCR;/eng.traineddata Please make sure th 阅读全文

posted @ 2020-01-07 20:56 求知鱼阅读(310) 评论(0) 推荐(0) 编辑

2019年10月18日

存储型XSS靶场作业

摘要：首先进入靶场：http://59.63.200.79:8082/index.php xss平台使用：xss8c 发现CMS版本号，搜索是否此版本号存在可利用漏洞：找到存储型xss漏洞，在xss平台生成攻击代码：本地访问此url，会在管理后台生成一条错误日志，当管理员登陆此后台，他的浏览器也会访问阅读全文

posted @ 2019-10-18 22:05 求知鱼阅读(819) 评论(0) 推荐(0) 编辑

2019年10月14日

MSSQL-反弹注入

摘要：工具：香港云免费云服务器：http://www.webweb.com 注册使用匿名邮箱：https://bccto.me/ 香港云服务器搭建MSSQL数据库，并建表admin，字段数要大于等于我们想要获取的表。首先打开靶场：http://59.63.200.79:8015/?id=1尝试是否可注入阅读全文

posted @ 2019-10-14 15:57 求知鱼阅读(595) 评论(0) 推荐(0) 编辑

公告