摘要: 会员消费行为分析 项目描述:本项目是线下门店数据,来自于知名全国连锁健身俱乐部的会员数据。我将会带你根据用户个体行为,对复购率、回购率、用户分层、回流用户、活跃用户、用户生命周期等多维度指标进行深入分析 import pymysql import pandas as pd import numpy 阅读全文
posted @ 2021-10-07 23:27 Dragon、 阅读(430) 评论(0) 推荐(0) 编辑
摘要: #今日目标 **QQ音乐爬虫** 今天要爬取的是QQ音乐任意歌手的所有音乐歌词,因为笔者是周杰伦的忠实粉丝,所以专门写了个爬虫来爬取他的音乐的歌词,因为他的音乐在咪咕音乐可以听,所以便没有去爬取。 好了,下面直接给出代码! *代码实现* ``` import requests import csv singer=input('你喜欢的歌手是谁?\n') url='https://c.y.qq.co 阅读全文
posted @ 2019-08-07 23:09 Dragon、 阅读(783) 评论(0) 推荐(0) 编辑
摘要: #今日目标 **50行代码爬取微信公众号所有文章** 今天要爬取的是微信公众号,爬取公众号的方式常见的有两种。一是通过搜狗搜索去获取,缺点是只能获取最新的十条推送文章, 今天介绍另一种通过抓包PC端微信的方式去获取公众号文章的方法,相对其他方法更加便捷。 分析:我们发现每次下拉刷新文章的时候都会请求 mp.weixin.qq.com/mp/xxx公众号不让添加主页链接,xxx表示profile_e 阅读全文
posted @ 2019-08-07 22:57 Dragon、 阅读(9695) 评论(3) 推荐(0) 编辑
摘要: #今日目标 **scrapy之盗墓笔记三级页面爬取** 今天要爬取的是盗墓笔记小说,由分析该小说的主要内容在三级页面里,故需要我们 一一解析 *代码实现* daomu.py ``` import scrapy from ..items import DaomuItem class DaomuSpider(scrapy.Spider): name = 'daomu' a... 阅读全文
posted @ 2019-08-04 21:10 Dragon、 阅读(844) 评论(5) 推荐(0) 编辑
摘要: #今日目标 **scrapy之360图片爬取** 今天要爬取的是360美女图片,首先分析页面得知网页是动态加载,故需要先找到网页链接规律, 然后调用ImagesPipeline类实现图片爬取 *代码实现* so.py ``` # -*- coding: utf-8 -*- import scrapy import json from ..items import SoItem clas... 阅读全文
posted @ 2019-08-04 21:00 Dragon、 阅读(315) 评论(0) 推荐(0) 编辑
摘要: #今日目标 **拉勾网python开发要求爬虫** 今天要爬取的是北京python开发的薪资水平,招聘要求,福利待遇以及公司的地理位置。 通过实践发现除了必须携带headers之外,拉勾网对ip访问频率也是有限制的。一开始会提示 '访问过于频繁',继续访问则会将ip拉入黑名单。不过一段时间之后会自动从黑名单中移除。 针对这个策略,我们可以对请求频率进行限制,这个弊端就是影响爬虫效率。其次我们... 阅读全文
posted @ 2019-08-01 23:39 Dragon、 阅读(314) 评论(1) 推荐(1) 编辑
摘要: #今日目标 **selenium之京东商品爬虫** 自动打开京东首页,并输入你要搜索的东西,进入界面进行爬取信息 ``` from selenium import webdriver import time class JdSpider(object): def __init__(self): self.browser=webdriver.Chrome() ... 阅读全文
posted @ 2019-07-30 22:54 Dragon、 阅读(784) 评论(0) 推荐(1) 编辑
摘要: #今日目标 **多线程之小米商店APP爬虫** 爬取小米商店所有社交APP ``` import requests import time from threading import Thread from queue import Queue import json class XiaoAppSpider(object): def __init__(self): ... 阅读全文
posted @ 2019-07-30 22:49 Dragon、 阅读(461) 评论(0) 推荐(0) 编辑
摘要: #今日目标 **腾讯招聘爬虫** 爬取该网站技术类的职位名以及它们的要求、职责 ``` import requests import json import time import random class TencentSpider(object): def __init__(self): self.headers = {'User-Agent':'Mozill... 阅读全文
posted @ 2019-07-28 21:41 Dragon、 阅读(539) 评论(0) 推荐(1) 编辑
摘要: #中华人民行政部网站爬虫 **今日目标** 爬取该网站行政数据里的县以上最新行政区代码 ``` import requests from lxml import etree import pymysql import re class Govement(object): def __init__(self): self.one_url = 'http://www.m... 阅读全文
posted @ 2019-07-28 21:36 Dragon、 阅读(391) 评论(0) 推荐(0) 编辑