12 2021 档案
摘要:面向对象保存保存数据。 1,CSV 代码: 1 """ 2 豆瓣top250四种保存方式 3 """ 4 import csv 5 import random 6 import time 7 import parsel 8 import requests 9 10 class douBanSpide
阅读全文
摘要:一个简单的桌面搜索程序。流程化代码: 1 """ 2 做一个桌面应用搜索程序 3 """ 4 import tkinter as tk 5 from tkinter import messagebox, filedialog 6 import os 7 8 root = tk.Tk() 9 root
阅读全文
摘要:最近有关中国传统文化的内容频频登上热搜,就比如最近的李白之死,今天换一种方式爬取,以前爬取微博评论是网址里一大串参数,今天把参数提出来做一个字典,然后请求的时候再构造url。 1 """ 2 就爬取李白之死的评论 3 """ 4 import requests 5 import re 6 impor
阅读全文
摘要:经常在写完爬虫爬取图片和视频类的二进制文件的时候,发现保存的时候,windows有些特殊字符是保存不了的。写一个函数直接替换成合法的文件名: 1 import re 2 def changeTitle(title): 3 """ 4 正则表达式替换windows文件不能存储的特殊字符 5 """ 6
阅读全文
摘要:今天翻查了下selenium更改User-Agent的文章,大多数都是以下这样的: 1 from selenium import webdriver 2 3 # 定义要将浏览器伪装成的ua 4 ua = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) Apple
阅读全文
摘要:心血来潮,爬取豆瓣电影Top250信息,几个课题记录下: 分两种数据解析方式: 第一为parsel; 第二为将html数据转换成python对象,利用xpath进行解析,对xpath进行复习,用到lxml里的etree。 数据保存方式: 第一为csv; 第二为openpyxl; 第三为pandas;
阅读全文
摘要:闲来无事,爬爬音乐: 酷我 1 import os.path 2 import pprint 3 import random 4 import time 5 from selenium import webdriver 6 from selenium.webdriver.common.by impo
阅读全文
摘要:以美团烤肉为例,将爬取的数据进行保存。 第一种:csv。 新建一个csv文档,利用字典写入器写入头,然后把爬取好的数据进行字典构造,然后将字典逐条写入到csv文档里。 1 """ 2 爬取美团烤肉 3 """ 4 import pprint 5 import csv 6 import parsel
阅读全文
摘要:用Putty连接Ubuntu,提示“Network refused”。 安装ssh-sever,sudo apt-get install openssh-server 再连就ok了。
阅读全文
摘要:过年了,爬爬看python需要什么技能才能有备无患。 大体思路: 爬所需信息 爬一爬详情页做个可视化词云,看看所需节能 做一做数据可视化 所需库: csv,保存数据用的 selenium,模拟真人访问网站,因为requests很容易被反爬 parsel和requests,可以尝试爬详情页 rando
阅读全文