随笔分类 -  爬虫

摘要:import requests from lxml import html etree = html.etree from bs4 import BeautifulSoup url = "https://mp.weixin.qq.com/s/drle9K4jgVWxm4v14ETbpQ" respo 阅读全文
posted @ 2020-12-11 09:44 离人怎挽_wdj 阅读(83) 评论(0) 推荐(0) 编辑
摘要:url_str = 'https://www.tenable.com/plugins/feeds?sort=updated' respose_str = requests.get(url_str) print(respose_str.text) soup = BeautifulSoup(respos 阅读全文
posted @ 2020-12-07 15:41 离人怎挽_wdj 阅读(70) 评论(0) 推荐(0) 编辑
摘要:from bs4 import BeautifulSoup import requests import random def get_ip_list(url, headers): web_data = requests.get(url, headers=headers) print(web_dat 阅读全文
posted @ 2020-12-02 16:57 离人怎挽_wdj 阅读(83) 评论(0) 推荐(0) 编辑
摘要:微信的登录请求URl 取到后十三位数字,进行拼接,然后发起请求。 请求结果中得到uuid, 拼接uuid,向后台发送请求。拿到url,向html展示。 Request URL: https://login.wx.qq.com/cgi-bin/mmwebwx-bin/login?loginicon=t 阅读全文
posted @ 2019-03-08 14:51 离人怎挽_wdj 阅读(462) 评论(0) 推荐(0) 编辑
摘要:轮询:通过setInterval向后台请求数据,更新html from flask import Flask,render_template,request,jsonify app = Flask(__name__) USERS = { '1':{'name':'贝贝','count':1}, '2 阅读全文
posted @ 2019-03-07 20:09 离人怎挽_wdj 阅读(159) 评论(0) 推荐(0) 编辑
摘要:scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重规则(被调度器使用) pipeline - 数据持久化 1.用redis去重url # ###### 阅读全文
posted @ 2019-03-02 22:38 离人怎挽_wdj 阅读(197) 评论(0) 推荐(0) 编辑
摘要:windows编码 import sys,os sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') 数据拼接 结果 URL的唯一标识 """ """ # 原来 """ import requests url_list = 阅读全文
posted @ 2019-03-02 14:00 离人怎挽_wdj 阅读(178) 评论(0) 推荐(0) 编辑
摘要:什么是Xpath Xpath是一门在HTML、XML文档中查找信息的语言,可以用来在HTML/XML文档中对元素和属性进行遍历 XML:可扩展标记语言,被设计为传输和存储数据,其焦点是数据内容,每个XML的标签叫做节点, Xpath节点选择工具: Chrome插件XPath Helper 开源的XP 阅读全文
posted @ 2019-02-28 00:00 离人怎挽_wdj 阅读(340) 评论(0) 推荐(0) 编辑
摘要:首先解决python中使用selenium调用Firefox缺少geckodriver的问题 geckodriver.exe下载地址 : https://pan.baidu.com/s/10Vy9WH1ZpkvdFmZ3T7aw_w , https://github.com/mozilla/geck 阅读全文
posted @ 2019-02-27 23:10 离人怎挽_wdj 阅读(184) 评论(0) 推荐(0) 编辑
摘要:简介 Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 Apache2 Licensed 许可证的 阅读全文
posted @ 2019-02-27 08:48 离人怎挽_wdj 阅读(576) 评论(0) 推荐(0) 编辑
摘要:Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。 Scrapy囊括了爬取网站数据几乎所有的功能,是一个扩展性很强的一个框架,Scrapy在爬虫界里相当于web的Django Scrapy 使用了 Twi 阅读全文
posted @ 2019-01-18 16:09 离人怎挽_wdj 阅读(241) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示