随笔分类 - python爬虫基础
python爬虫程序,模拟网页登录
摘要:导入csv库、matplotlib库 import csv import matplotlib.pyplot as plt 定义文件路径 path = r"score.csv" 以只读的形式打开文件 stream = open(path, 'r') 读取文件内容 data = csv.reader(
阅读全文
摘要:需要环境(打开cmd输入命令即可安装): pip install numpy pip install pandas pip install matplotlib pip install seaborn 代码一 点击查看代码 import numpy as np import pandas as pd
阅读全文
摘要:网络爬虫、Pandas Pandas 是 Python 语言的一个扩展程序库,用于数据分析。 Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。 Pandas 名字衍生自术语 "panel data"(面板数据)和 "Python data analysi
阅读全文
摘要:numpy函数 准备工作: pip install numpy 把numpy模块安装好 代码如下: 点击查看代码 import numpy as np # 数组元素字符串连接 print('连接两个字符串:') print(np.char.add(['hello'], ['zmt'])) print
阅读全文
摘要:Xpath使用案例 准备工作 pip install lxml 代码如下: 点击查看代码 from lxml import etree #定义字符串 wb_data = """ <div> <ul> <li class="item-0"><a href="link1.html">first item
阅读全文
摘要:项目介绍 这个项目我们的主题是爬腾讯视频的影片信息,包括影片名和描述 搭建项目所需环境(确保python已经安装的前提下) 打开终端一个一个安装完成即可 python -m pip install --upgrade pip pip install wheel pip install lxml pi
阅读全文
摘要:爬取百度贴吧文字内容 方法1: 点击查看代码 **导入urllib库** from urllib import request **导入re正则模块库** import re #指定爬取页数 url = "https://tieba.baidu.com/f?kw=%E6%AE%B5%E5%AD%90
阅读全文
摘要:前言:不是每个网页都能模拟成功,仅供学习 模拟网页登陆 --安装模块-- pip install urllib (运行cmd输入此段代码即可安装) 点击查看代码 from urllib import request import urllib from http import cookiejar #
阅读全文