11 2021 档案
摘要:Pyecharts,数据可视化神器。说到它就不得不提Echarts,它是由百度开源的一款使用JavaScript实现的开源可视化库,涵盖了各种图表、满足各类业务需求,而pyecharts也就是Python与Echarts结合之后的产物,封装了Echarts各类图表的基本操作,然后通过渲染机制,输出一
阅读全文
摘要:11月23日,人民日报微博客户端发表 - 严禁违法失德艺人曲线复出,总共封禁了88位失德艺人,其中就包括吴某签,郑某爽,还有那个拜靖国神社的东西(这种人活着都是浪费空气,司马的无脑渣渣)。 我们来爬一下下方的评论并做个词云可视化。经年爬微博评论,那个PC端是爬到第17爷就会给咱们分发垃圾数据,所以从
阅读全文
摘要:本文仅用于学习和交流使用,不具有任何商业价值,如有问题,请与我联系,我将即时处理。 数据来源于百度地图。开发者工具就不说了,直接上代码: 1 """ 2 爬取百度地图全国火锅店并可视化 3 """ 4 import pprint 5 6 import openpyxl as op 7 import
阅读全文
摘要:本文仅用于学习和交流,不具有任何商业价值,如有问题,请与我联系,我将即时处理。 近日,《中国统计年鉴2021年》发布,公布了我国2020年的相关人口数据。据了解,去年我国的人口出生率为8.52‰,直接跌破了10‰的整数关口,创下了我国近43年来的新低。同期全国人口自然增长率(出生率-死亡率)仅为1.
阅读全文
摘要:做词云可视化的时候,一般都用一个库叫jieba,它是用来分词的。 Jieba库在安装时,会附带一个词库,这个词库中包含了日常汉语的词语和词性。在分词时,Jieba库会先基于词库对文本进行匹配,生成文本中的汉字最有可能形成的词。然后将这些词组成一个DAG,用动态规划算法来查找最大的概率路径,尽可能不将
阅读全文
摘要:本文仅用于学习与交流,不具有任何商业价值,如有问题,请与我联系,我将即时处理。 爬下某东数据,基于selenium。上代码: 1 """ 2 爬取某东数据并保存到csv 3 """ 4 import random 5 import time 6 7 from selenium import webd
阅读全文
摘要:本文仅用于学习和交流,不具有任何商业价值,如有问题,请与我联系,我会即时处理。--Python逐梦人。 网址分析 通过分析,没有json,只能用html解析获取数据,抓几个页面看看规律。因为要爬八大菜系,所以有横向和纵向比较。 横向: https://www.douguo.com/caipu/%E7
阅读全文
摘要:心血来潮,想看下腾讯招聘岗都有些啥要求,都需要会啥,都需要做啥。腾讯招聘传送门。 本文仅用于学习与交流使用,不具有任何商业价值,如有问题,请与我联系,我将即时处理。--Python逐梦者。 数据爬取与处理 输入要查询的岗位,比如Python。如下图: 抱着试一试的态度吧,打开开发者工具,看有没有数据
阅读全文
摘要:Pandas是这么强大的东西,不能一直看,看有印象,写才有手感。保持手感。 Python逐梦者。 1,使用列表创建Series: 1 import pandas as pd 2 3 alist = [1.5, 2.5, 3, 4.5, 5.0, 6] 4 data = pd.Series(alist
阅读全文
摘要:首先找到自己心仪的棉袄,然后开发者工具手机数据。最主要是找到数据接口的参数变化。通过开发者工具发现, 上代码: 1 """ 2 今天来薅羊毛衣 3 """ 4 import pprint 5 import requests 6 import csv 7 import time 8 import ra
阅读全文
摘要:本文仅用于学习与交流使用,不具有任何商业价值,如有问题,请与我联系,我会即时处理。 Python逐梦者。 首先是某果TV。 弹幕。以电影《悬崖之上》为例。弹幕数据所在的文件是动态加载的,打开开发者工具,让它加载很多数据,然后搜索某一条数据就看到在哪个包里了,然后就是参数变化不同分析。某果TV的视频播
阅读全文
摘要:能打能扛有颜值,爬一波对奥运健儿的评论。 """ 爬一下B站“杀疯了,这就是国家队的美貌吗?”,视频地址: https://www.xx.com/video/BV1uU4y1H7wL?from=search&seid=14179860062243648577&spm_id_from=333.337.
阅读全文
摘要:微博热搜第一名;B站人气超过3.5亿,满屏弹幕;腾讯视频超过600万人观看;央视新闻也发微博祝贺EDG;今天用python来爬下B站“我们是冠军”这个视频的评论并做些可视化。获取呐喊的正确姿势。 评论爬取代码: 1 import csv 2 import pprint 3 import random
阅读全文
摘要:协程是啥 简单来说,协程是一种基于线程之上,但又比线程更加轻量级的存在。对于系统内核来说,协程具有不可见的特性,所以这种由 程序员自己写程序来管理 的轻量级线程又常被称作 "用户空间线程"。 协程比多线程好在哪 1. 线程的控制权在操作系统手中,而 协程的控制权完全掌握在用户自己手中,因此利用协程可
阅读全文
摘要:冬天来了,想着爬下某团的烤肉,代码如下: 1 """ 2 爬取某团 3 """ 4 import csv 5 import random 6 7 import requests 8 import pprint 9 import os 10 import time 11 12 keyword = in
阅读全文
摘要:连央视都祝贺EDG夺冠,作为码农的我们,怎么能闲着,就来爬爬B站的弹幕,看看人都说了什么。刚开始有这个想法的时候呢,B站的视频cid地址还保存在json中,今天来写的时候,发现已经没有了,截图如下: 本来请求视频播放页面后,会有一个playlist的包,包里的json数据呢,就是图中圈圈的位置,id
阅读全文
摘要:安装: pip install opencv-python 用opencv处理一些图片。 # 图片加载: 1 import cv2 2 # 图片加载 3 def read_image(): 4 img = cv2.imread('1.jpg') # 加载图片 5 cv2.namedWindow('i
阅读全文
摘要:本文内容来源于网络,仅供学习和交流使用,不具有任何商业用途,如有侵权或者其他问题,请即时与我联系,我会第一时间处理。 Python逐梦者。 如题: 1 """ 2 下载应用宝上所有的apk文件 3 """ 4 import os 5 import random 6 7 from selenium i
阅读全文
摘要:本文内容仅供学习交流使用,不具有任何商业用途,如有问题请即时联系我处理。--Python逐梦者。 某度上很多免费代理的网站,今天尝试来爬一个试着做下代理池。 代码开始: 1 """ 2 找一个免费代理,然后将它搭建成爬虫的代理池 3 """ 4 import requests 5 import cs
阅读全文
摘要:本文内容仅供学习交流使用,不具有任何商业用途,如有问题请即时联系我处理。--Python逐梦者 """ 爬一下去哪儿的旅游景点 """ import random import requests import parsel import csv import time from urllib.par
阅读全文
摘要:手动手机的一些python练习题,有时间的时候敲一敲。 """ Python使用简洁代码 """ # # 1,交换两个变量的值 # a = 666 # b = 999 # a, b = b, a # 交换值 # print(a,b) # 999 666 # # # 2,查找对象使用的内存 # imp
阅读全文
摘要:爬取某房源数据,算加深对parsel库的使用。 1 """ 2 爬取房源 3 """ 4 5 import requests 6 import csv 7 import parsel 8 9 # 请求头 10 headers = { 11 'user-agent':'Mozilla/5.0 (Win
阅读全文
摘要:爬取某东商品数据,没有分页。 """ 采集某东数据 """ import random import time import csv from selenium import webdriver # 传入关键词进行搜索 def get_product(keyword): driver.find_el
阅读全文
摘要:查看一些解放号的外包数据。 """ 爬取解放号的数据 """ # 先搜索,找到我们需要的数据,然后通过开发者工具看看它是从哪里来的 # 首先打开解放号首页,然后搜索python # 查看第一条 # 发现它的数据来源为:https://www.jfh.com/jfportal/workMarket/g
阅读全文
摘要:用Python查看一下前程无忧的Python岗,并尝试做一些可视化以直观化。 """ Python爬取前程无忧,获取最新招聘薪资福利 """ import json import pprint import random import requests import re import csv im
阅读全文
摘要:几句闲话,确定数据来源,找到要爬的播放列表,先提取列表,然后请求列表中每个视频的播放页,确定播放请求的页面,确定视频的最终来源。抖音的最终播放网址是编码了放在源码中的。 """ 巩固爬取抖音小姐姐的视频 """ import time import requests import requests.
阅读全文