随笔分类 - Python
携程数据清洗
摘要:携程数据清洗 数据集 导入模块 from pandas import DataFrame,Series import pandas as pd import numpy as np # FuzzyWuzzy 简单易用的字符串模糊匹配工具 from fuzzywuzzy import process
Pandas 数据清洗常见方法
摘要:Pandas 数据清洗常见方法 01 读取数据 df=pd.read_csv('文件名称') 02 查看数据特征 df.info() 03 查看数据量 df.shape 04 查看各数字类型的统计量 df.describe() 05 去除重复值 df.drop_duplicates(inplace=
天猫美妆数据清洗步骤概括
摘要:一、天猫美妆数据清洗步骤概括 01 准备工作 # 导入数据 data=pd.read_csv('双十一淘宝美妆数据.csv') 02 检查数据 对数据进行初步的了解 查看数据的相关特征,对数据进一步分析 # 查看前五行数据 data.head() # 查看数据集的特征 data.info() # 查
淘宝美妆双十一数据可视化(下)
摘要:淘宝美妆双十一数据可视化(下) 01 import matplotlib.pyplot as plt %matplotlib inline plt.rcParams['font.sans-serif'] = [u'SimHei'] ##显示中文,设置字体 plt.rcParams['axes.uni
淘宝美妆双十一数据清洗(上)
摘要:淘宝美妆双十一数据清洗 01 数据初步了解 # 导入模块 import pandas as pd import numpy as np df = pd.read_csv('双十一淘宝美妆数据.csv') df.head() #查看数居前五行 # 查看数据特征 df.info() df.shape #
乐高天猫旗舰店数据分析
摘要:乐高天猫旗舰店数据分析 01 导入模块 # 导入模块 import pandas as pd import numpy as np import jieba import time import stylecloud from IPython.display import Image from py
乐高积木数据处理
摘要:乐高积木数据处理 素材链接 1.导入模块 import pandas as pd import numpy as np import jieba import time from pyecharts.charts import Bar,Line,Map,Page,Pie from pyecharts
Pandas练习(一)
摘要:Pandas练习(一) 题目要求:文档链接 # 导入模块 import numpy as np import pandas as pd from pandas import DataFrame,Series # 导入数据 df_tb1=pd.read_csv("data/baby_trade.csv
淘宝数据爬取(二 数据清洗)
摘要:淘宝数据清洗 01 导入相关模块 import numpy as np import pandas as pd import matplotlib as mpl import matplotlib.pyplot as plt import seaborn as sns import re impor
爬取淘宝笔记本电脑数据(一)
摘要:爬取淘宝笔记本电脑数据 1.导入模块 from selenium import webdriver import time import csv import re 2.搜索商品,获取商品页码 def search_product(key_word): # 定位输入框 browser.find_el
哔哩哔哩自动播放视频
摘要:哔哩哔哩自动播放视频 # datetime:2020/10/7 16:33 # bilibili from selenium import webdriver from selenium.webdriver.common.keys import Keys import time #打开浏览器,实例化
51job多线程爬取指定职业信息数据
摘要:51job多线程爬取指定职业信息数据 # datetime:2020/10/7 14:02 # 51job多线程 import requests import chardet from bs4 import BeautifulSoup import csv from openpyxl import
爬取王者荣耀角色信息
摘要:爬取王者荣耀角色信息 01 编写配置文件(通用) import requests import bs4 import chardet import random import csv import time from bs4 import BeautifulSoup import os def ge
爬取网易云音乐评论
摘要:爬取网易云音乐评论保存CSV selenium的使用 01 导入模块 from selenium import webdriver 02 打开浏览器 实例化对象 driver = webdriver.Chrome() 03 访问网址 driver.get('https://www.baidu.com
抓取简书文章标题及链接
摘要:抓取简书文章标题链接 文章链接:https://www.jianshu.com/p/85f4624485b9 01 详细版本 # datetime:2020/10/6 13:53 # 抓取简书文章标题链接 import pandas as pd from requests_html import H
Python错误集锦
摘要:Python错误集锦 01 未定义 # 1.未定义 print(a) 02 类型不一致 # 2. 类型不一致 b = 'haha' c = 123 b+c b+str(c) 'haha123' c+b c+int(b) int('8') 8 03 语法错误 # 3.语法错误 # 符写错了 print
51Job多页信息爬取保存
摘要:51Job多页信息爬取 01 导入模块 import requests import chardet from bs4 import BeautifulSoup import csv from openpyxl import Workbook 02 定义函数getOnePageInfo() def
壁纸链接爬取并保存csv
摘要:案例: 01壁纸链接爬取并保存csv #导入模块 import requests import chardet from bs4 import BeautifulSoup #访问链接 url = 'http://www.netbian.com/dongman/' #打开链接,得到响应 res = r
Jupyter的使用
摘要:Jupyter使用 一、创键 01 创键一个本地文件夹 02 输入cmd 回车 03 弹出cmd窗口,输入命令jupyter notebook回车 04 执行成功,弹出浏览器
Python爬虫01
摘要:Python爬虫 01百度 # 导入模块 from urllib import request # 2. 准备网址 url = 'http://www.baidu.com/' # 3. 打开链接,得到响应 res = request.urlopen(url) # 4. 展现(print)响应结果 p