随笔分类 - 爬虫
摘要:import requests from lxml import html etree = html.etree from bs4 import BeautifulSoup url = "https://mp.weixin.qq.com/s/drle9K4jgVWxm4v14ETbpQ" respo
阅读全文
摘要:url_str = 'https://www.tenable.com/plugins/feeds?sort=updated' respose_str = requests.get(url_str) print(respose_str.text) soup = BeautifulSoup(respos
阅读全文
摘要:from bs4 import BeautifulSoup import requests import random def get_ip_list(url, headers): web_data = requests.get(url, headers=headers) print(web_dat
阅读全文
摘要:微信的登录请求URl 取到后十三位数字,进行拼接,然后发起请求。 请求结果中得到uuid, 拼接uuid,向后台发送请求。拿到url,向html展示。 Request URL: https://login.wx.qq.com/cgi-bin/mmwebwx-bin/login?loginicon=t
阅读全文
摘要:轮询:通过setInterval向后台请求数据,更新html from flask import Flask,render_template,request,jsonify app = Flask(__name__) USERS = { '1':{'name':'贝贝','count':1}, '2
阅读全文
摘要:scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重规则(被调度器使用) pipeline - 数据持久化 1.用redis去重url # ######
阅读全文
摘要:windows编码 import sys,os sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') 数据拼接 结果 URL的唯一标识 """ """ # 原来 """ import requests url_list =
阅读全文
摘要:什么是Xpath Xpath是一门在HTML、XML文档中查找信息的语言,可以用来在HTML/XML文档中对元素和属性进行遍历 XML:可扩展标记语言,被设计为传输和存储数据,其焦点是数据内容,每个XML的标签叫做节点, Xpath节点选择工具: Chrome插件XPath Helper 开源的XP
阅读全文
摘要:首先解决python中使用selenium调用Firefox缺少geckodriver的问题 geckodriver.exe下载地址 : https://pan.baidu.com/s/10Vy9WH1ZpkvdFmZ3T7aw_w , https://github.com/mozilla/geck
阅读全文
摘要:简介 Python标准库中提供了:urllib、urllib2、httplib等模块以供Http请求,但是,它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作,甚至包括各种方法覆盖,来完成最简单的任务。 Requests 是使用 Apache2 Licensed 许可证的
阅读全文
摘要:Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。 Scrapy囊括了爬取网站数据几乎所有的功能,是一个扩展性很强的一个框架,Scrapy在爬虫界里相当于web的Django Scrapy 使用了 Twi
阅读全文