2020 年 1月 12 日随笔档案 - 求知鱼

2020年1月12日

摘要： from queue import Queue #创建队列 q = Queue(5) #存数据 q.put('科比') q.put("勒布朗") q.put("JR") q.put("汤普森") q.put("love") #q.put("科沃尔",false) #如果队列满程序直接报错 q.pu 阅读全文

posted @ 2020-01-12 20:18 求知鱼阅读(215) 评论(0) 推荐(0) 编辑

线程与非线程示例

摘要： """ 这是单线程运行 """ # import time # def sing(): # for x in range(1,6): # print("我在唱什么") # time.sleep(1) # def dance(): # for x in range(1,6): # print("我在跳阅读全文

posted @ 2020-01-12 20:16 求知鱼阅读(332) 评论(0) 推荐(0) 编辑

爬虫--多线程编程-提高效率--泛见(犯贱)志趣图标题和链接爬取

摘要： #还需要调试从头调试 import threading import time from queue import Queue import requests from lxml import etree import json #创建一个列表用来存放采集线程 g_crawl_list = [] 阅读全文

posted @ 2020-01-12 20:12 求知鱼阅读(293) 评论(0) 推荐(0) 编辑

requests模块代理使用、post数据传输使用、get参数传输

摘要： import requests url = "http://www.baidu.com/s?ie=UTF8&wd=ip" #代理 proxies = { 'http':'121.41.171.223.3128' } #添加头部 headers = { 'User-Agent': 'Mozilla/5 阅读全文

posted @ 2020-01-12 17:03 求知鱼阅读(638) 评论(0) 推荐(0) 编辑

pytesseract模块验证码图片识别

摘要： #效果不是很好加上灰度处理和二值化处理就变好了 import pytesseract from PIL import Image from PIL import ImageEnhance #打开图片 img = Image.open('f7vf.png') #提高辨识度 img = img.co 阅读全文

posted @ 2020-01-12 17:00 求知鱼阅读(375) 评论(0) 推荐(0) 编辑

Headless谷歌selenium使用

摘要： from selenium import webdriver import time from selenium.webdriver.chrome.options import Options #创建一个参数对象，用来控制Chrome以无界面模式打开 chrome_options = Options 阅读全文

posted @ 2020-01-12 16:58 求知鱼阅读(276) 评论(0) 推荐(0) 编辑

关于无界面浏览器、request模块、tesseract模块的部分笔记

摘要： 1、Headless Chrome 谷歌无界面版本 from selenium.webdriver.chrome.options import Options chrome_options = Options() chrome_options.add_argument('--headless') c 阅读全文

posted @ 2020-01-12 16:56 求知鱼阅读(214) 评论(0) 推荐(0) 编辑

爬取某城市公交钱路--xpath过滤

摘要： #爬取网站 m.8684.cn/bus_switch 公交线路郑州 import requests import time from lxml import etree #列表保存所有线路信息 items = [] #添加头部作为全局 headers = { 'User-Agent': 'Moz 阅读全文

posted @ 2020-01-12 16:54 求知鱼阅读(1523) 评论(1) 推荐(0) 编辑

selenium自动化操作火狐、PhantomJS浏览器

摘要：需要下载每种浏览器的驱动程序并且记录该驱动存放路径 PhantomJS： #PhantomJS已经不被selenium支持但是现在好像还能用使用的话需要降低selenium版本 #或者使用无窗口化的火狐谷歌驱动 from selenium import webdriver import ti 阅读全文

posted @ 2020-01-12 16:35 求知鱼阅读(456) 评论(0) 推荐(0) 编辑

关于json数据的过滤、获取

摘要： json数据：book.json { "store": { "book": [ { "category": "文学", "author": "路遥", "title": "平凡的世界", "price": 8.95 }, { "category": "文学", "author": "席慕蓉", "t 阅读全文

posted @ 2020-01-12 16:26 求知鱼阅读(4513) 评论(0) 推荐(0) 编辑

关于爬虫的一些笔记

摘要： 0、换行问题存储的时候显示的\n是有效的也就是写成HTML文档时在编辑器里打开是一行在读取过来单独使用的时候换行符生效浏览器里打开HTML就会分行 1、图片爬取网站图片http://sc.chinaz.com/tupian/xingganmeinvtupian_3.html 懒加载：用到的阅读全文

posted @ 2020-01-12 16:16 求知鱼阅读(248) 评论(0) 推荐(0) 编辑

糗事百科图片下载

摘要： #糗事百科挂了 #照视频手打 import urllib.request import urllib.parse import re import os import time #下载每一页回传内容中的图片 #使用正则搜索图片链接 def down_load_image(content): patt 阅读全文

posted @ 2020-01-12 16:10 求知鱼阅读(629) 评论(0) 推荐(0) 编辑

BeautifulSoup-bs4的简单使用

摘要： # 简单使用： # 说明：选择器 jquery #导入from bs4 import BeautifulSoup #使用方式：可以将一个html文档，转化为一个对象， # 然后通过对象的方法或者属性去查找指定对象 #转化本地文件soup = BeautifulSoup(open("本地文件"),'l 阅读全文

posted @ 2020-01-12 16:09 求知鱼阅读(1248) 评论(0) 推荐(0) 编辑

正则表达式笔记

摘要：正则表达式解析（用来匹配一类具有相同规则的字符串）单字符： . :除换行外所有字符 []：[abc]匹配集合中任意一个字符 \d：数字[0-9] \D：非数字 \w：数字、字母、下划线、中文 \W：非\w \s:所有空白字符 \S:非空白数量描述： *：任意多次》=0 +：至少一次》=1 ？阅读全文

posted @ 2020-01-12 16:08 求知鱼阅读(197) 评论(0) 推荐(0) 编辑

好段子网站任意页数爬取

摘要： #使用Xpath方式爬取好段子 #http://www.haoduanzi.com/category/?1-1.html 从第二页开始1-2 1-3 import urllib.parse import urllib.request from lxml import etree import tim 阅读全文

posted @ 2020-01-12 15:48 求知鱼阅读(310) 评论(0) 推荐(0) 编辑

正则-提取某情话网站所有情话内容

摘要： #爬取https://wenxue.7139.com/5107/这个页面所有标题和内容 #保存到HTML文件中，标题用h1 内容用p格式 import urllib.request import urllib.parse import re #定义过滤回传HTML中所有html标签这部分时候来看大阅读全文

posted @ 2020-01-12 15:28 求知鱼阅读(316) 评论(0) 推荐(0) 编辑

爬虫-xpath基础实例演示

摘要： xpath是一种过滤HTML页面寻找我们需要数据的方法，他的结果是一个列表待过滤HTML页面： <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"/> <title>Xpath 测试</title> </head> <body 阅读全文

posted @ 2020-01-12 15:22 求知鱼阅读(423) 评论(0) 推荐(0) 编辑

爬虫--任意百度贴吧任意页数HTML内容页面下载（未经过滤处理）

摘要： #输入吧名；输入起始页然后在当前文件夹中创建一个以吧名为名字的文件夹， # 里面的每一页的html内容，文件名是吧名_page.html import urllib.parse import urllib.request import os tieba_url = "http://tieba.ba 阅读全文

posted @ 2020-01-12 15:15 求知鱼阅读(333) 评论(0) 推荐(0) 编辑

关于爬虫urllib.request模块、urllib.parse模块的基础使用

摘要： #构建get参数 data={ "start":(page-1)*number , "limit": number } #将字典转化为 query_string query_string = urllib.parse.urlencode(data) #构建完整的请求url movie_url+=qu 阅读全文

posted @ 2020-01-12 15:11 求知鱼阅读(301) 评论(0) 推荐(0) 编辑

求知鱼

公告