爬虫 - 随笔分类 - 离人怎挽_wdj

两段实际爬虫程序应用

摘要：import requests from lxml import html etree = html.etree from bs4 import BeautifulSoup url = "https://mp.weixin.qq.com/s/drle9K4jgVWxm4v14ETbpQ" respo 阅读全文

posted @ 2020-12-11 09:44 离人怎挽_wdj 阅读(83) 评论(0) 推荐(0) 编辑

XML爬取

摘要：url_str = 'https://www.tenable.com/plugins/feeds?sort=updated' respose_str = requests.get(url_str) print(respose_str.text) soup = BeautifulSoup(respos 阅读全文

posted @ 2020-12-07 15:41 离人怎挽_wdj 阅读(70) 评论(0) 推荐(0) 编辑

爬虫ip代理

摘要：from bs4 import BeautifulSoup import requests import random def get_ip_list(url, headers): web_data = requests.get(url, headers=headers) print(web_dat 阅读全文

posted @ 2020-12-02 16:57 离人怎挽_wdj 阅读(83) 评论(0) 推荐(0) 编辑

基于Flask的web微信

摘要：微信的登录请求URl 取到后十三位数字，进行拼接，然后发起请求。请求结果中得到uuid，拼接uuid，向后台发送请求。拿到url，向html展示。 Request URL: https://login.wx.qq.com/cgi-bin/mmwebwx-bin/login?loginicon=t 阅读全文

posted @ 2019-03-08 14:51 离人怎挽_wdj 阅读(462) 评论(0) 推荐(0) 编辑

轮询/长轮询

摘要：轮询：通过setInterval向后台请求数据，更新html from flask import Flask,render_template,request,jsonify app = Flask(__name__) USERS = { '1':{'name':'贝贝','count':1}, '2 阅读全文

posted @ 2019-03-07 20:09 离人怎挽_wdj 阅读(159) 评论(0) 推荐(0) 编辑

Scrapy-redis

摘要：scrapy-redis是一个基于redis的scrapy组件，通过它可以快速实现简单分布式爬虫程序，该组件本质上提供了三大功能： scheduler - 调度器 dupefilter - URL去重规则（被调度器使用） pipeline - 数据持久化 1.用redis去重url # ###### 阅读全文

posted @ 2019-03-02 22:38 离人怎挽_wdj 阅读(197) 评论(0) 推荐(0) 编辑

Scrapy的补充

摘要：windows编码 import sys,os sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') 数据拼接结果 URL的唯一标识 """ """ # 原来 """ import requests url_list = 阅读全文

posted @ 2019-03-02 14:00 离人怎挽_wdj 阅读(178) 评论(0) 推荐(0) 编辑

爬虫之Xpath的使用

摘要：什么是Xpath Xpath是一门在HTML、XML文档中查找信息的语言，可以用来在HTML/XML文档中对元素和属性进行遍历 XML：可扩展标记语言，被设计为传输和存储数据，其焦点是数据内容，每个XML的标签叫做节点， Xpath节点选择工具： Chrome插件XPath Helper 开源的XP 阅读全文

posted @ 2019-02-28 00:00 离人怎挽_wdj 阅读(340) 评论(0) 推荐(0) 编辑

python爬虫之Selenium

摘要：首先解决python中使用selenium调用Firefox缺少geckodriver的问题 geckodriver.exe下载地址： https://pan.baidu.com/s/10Vy9WH1ZpkvdFmZ3T7aw_w ， https://github.com/mozilla/geck 阅读全文

posted @ 2019-02-27 23:10 离人怎挽_wdj 阅读(184) 评论(0) 推荐(0) 编辑

爬虫之requests+BeautifulSoup详解

摘要：简介 Python标准库中提供了：urllib、urllib2、httplib等模块以供Http请求，但是，它的 API 太渣了。它是为另一个时代、另一个互联网所创建的。它需要巨量的工作，甚至包括各种方法覆盖，来完成最简单的任务。 Requests 是使用 Apache2 Licensed 许可证的阅读全文

posted @ 2019-02-27 08:48 离人怎挽_wdj 阅读(576) 评论(0) 推荐(0) 编辑

Scrapy框架

摘要：Scrapy Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。 Scrapy囊括了爬取网站数据几乎所有的功能,是一个扩展性很强的一个框架,Scrapy在爬虫界里相当于web的Django Scrapy 使用了 Twi 阅读全文

posted @ 2019-01-18 16:09 离人怎挽_wdj 阅读(241) 评论(0) 推荐(0) 编辑

離人譖挽

人生没有过不去的坎，只有爬不完的坑 Give me the more power , o god ！！！

随笔分类 - 爬虫

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论