摘要: from queue import Queue #创建队列 q = Queue(5) #存数据 q.put('科比') q.put("勒布朗") q.put("JR") q.put("汤普森") q.put("love") #q.put("科沃尔",false) #如果队列满 程序直接报错 q.pu 阅读全文
posted @ 2020-01-12 20:18 求知鱼 阅读(215) 评论(0) 推荐(0) 编辑
摘要: """ 这是单线程运行 """ # import time # def sing(): # for x in range(1,6): # print("我在唱什么") # time.sleep(1) # def dance(): # for x in range(1,6): # print("我在跳 阅读全文
posted @ 2020-01-12 20:16 求知鱼 阅读(332) 评论(0) 推荐(0) 编辑
摘要: #还需要调试 从头调试 import threading import time from queue import Queue import requests from lxml import etree import json #创建一个列表用来存放采集线程 g_crawl_list = [] 阅读全文
posted @ 2020-01-12 20:12 求知鱼 阅读(293) 评论(0) 推荐(0) 编辑
摘要: import requests url = "http://www.baidu.com/s?ie=UTF8&wd=ip" #代理 proxies = { 'http':'121.41.171.223.3128' } #添加头部 headers = { 'User-Agent': 'Mozilla/5 阅读全文
posted @ 2020-01-12 17:03 求知鱼 阅读(638) 评论(0) 推荐(0) 编辑
摘要: #效果不是很好 加上灰度处理和二值化处理 就变好了 import pytesseract from PIL import Image from PIL import ImageEnhance #打开图片 img = Image.open('f7vf.png') #提高辨识度 img = img.co 阅读全文
posted @ 2020-01-12 17:00 求知鱼 阅读(375) 评论(0) 推荐(0) 编辑
摘要: from selenium import webdriver import time from selenium.webdriver.chrome.options import Options #创建一个参数对象,用来控制Chrome以无界面模式打开 chrome_options = Options 阅读全文
posted @ 2020-01-12 16:58 求知鱼 阅读(276) 评论(0) 推荐(0) 编辑
摘要: 1、Headless Chrome 谷歌无界面版本 from selenium.webdriver.chrome.options import Options chrome_options = Options() chrome_options.add_argument('--headless') c 阅读全文
posted @ 2020-01-12 16:56 求知鱼 阅读(214) 评论(0) 推荐(0) 编辑
摘要: #爬取网站 m.8684.cn/bus_switch 公交线路 郑州 import requests import time from lxml import etree #列表保存所有线路信息 items = [] #添加头部 作为全局 headers = { 'User-Agent': 'Moz 阅读全文
posted @ 2020-01-12 16:54 求知鱼 阅读(1523) 评论(1) 推荐(0) 编辑
摘要: 需要下载每种浏览器的驱动程序 并且记录该驱动存放路径 PhantomJS: #PhantomJS已经不被selenium支持 但是现在好像还能用 使用的话 需要降低selenium版本 #或者使用无窗口化的火狐谷歌驱动 from selenium import webdriver import ti 阅读全文
posted @ 2020-01-12 16:35 求知鱼 阅读(456) 评论(0) 推荐(0) 编辑
摘要: json数据:book.json { "store": { "book": [ { "category": "文学", "author": "路遥", "title": "平凡的世界", "price": 8.95 }, { "category": "文学", "author": "席慕蓉", "t 阅读全文
posted @ 2020-01-12 16:26 求知鱼 阅读(4513) 评论(0) 推荐(0) 编辑
摘要: 0、换行问题 存储的时候显示的\n是有效的 也就是写成HTML文档时在编辑器里打开是一行 在读取过来单独使用的时候换行符生效 浏览器里打开HTML就会分行 1、图片 爬取网站图片http://sc.chinaz.com/tupian/xingganmeinvtupian_3.html 懒加载:用到的 阅读全文
posted @ 2020-01-12 16:16 求知鱼 阅读(248) 评论(0) 推荐(0) 编辑
摘要: #糗事百科挂了 #照视频手打 import urllib.request import urllib.parse import re import os import time #下载每一页回传内容中的图片 #使用正则搜索图片链接 def down_load_image(content): patt 阅读全文
posted @ 2020-01-12 16:10 求知鱼 阅读(629) 评论(0) 推荐(0) 编辑
摘要: # 简单使用: # 说明:选择器 jquery #导入from bs4 import BeautifulSoup #使用方式:可以将一个html文档,转化为一个对象, # 然后通过对象的方法或者属性去查找指定对象 #转化本地文件soup = BeautifulSoup(open("本地文件"),'l 阅读全文
posted @ 2020-01-12 16:09 求知鱼 阅读(1248) 评论(0) 推荐(0) 编辑
摘要: 正则表达式解析(用来匹配一类具有相同规则的字符串) 单字符: . :除换行外所有字符 []:[abc]匹配集合中任意一个字符 \d:数字[0-9] \D:非数字 \w:数字、字母、下划线、中文 \W:非\w \s:所有空白字符 \S:非空白 数量描述: *:任意多次 》=0 +:至少一次 》=1 ? 阅读全文
posted @ 2020-01-12 16:08 求知鱼 阅读(197) 评论(0) 推荐(0) 编辑
摘要: #使用Xpath方式爬取好段子 #http://www.haoduanzi.com/category/?1-1.html 从第二页开始1-2 1-3 import urllib.parse import urllib.request from lxml import etree import tim 阅读全文
posted @ 2020-01-12 15:48 求知鱼 阅读(310) 评论(0) 推荐(0) 编辑
摘要: #爬取https://wenxue.7139.com/5107/这个页面所有标题和内容 #保存到HTML文件中,标题用h1 内容用p格式 import urllib.request import urllib.parse import re #定义过滤回传HTML中所有html标签 这部分时候来看大 阅读全文
posted @ 2020-01-12 15:28 求知鱼 阅读(316) 评论(0) 推荐(0) 编辑
摘要: xpath是一种过滤HTML页面寻找我们需要数据的方法,他的结果是一个列表 待过滤HTML页面: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"/> <title>Xpath 测试</title> </head> <body 阅读全文
posted @ 2020-01-12 15:22 求知鱼 阅读(423) 评论(0) 推荐(0) 编辑
摘要: #输入吧名;输入起始页 然后在当前文件夹中创建一个以吧名为名字的文件夹, # 里面的每一页的html内容,文件名是吧名_page.html import urllib.parse import urllib.request import os tieba_url = "http://tieba.ba 阅读全文
posted @ 2020-01-12 15:15 求知鱼 阅读(333) 评论(0) 推荐(0) 编辑
摘要: #构建get参数 data={ "start":(page-1)*number , "limit": number } #将字典转化为 query_string query_string = urllib.parse.urlencode(data) #构建完整的请求url movie_url+=qu 阅读全文
posted @ 2020-01-12 15:11 求知鱼 阅读(301) 评论(0) 推荐(0) 编辑