随笔分类 -  Python之爬虫类

摘要:re,xpath ,bs4对同一个页面的解析速度发现re比xpath快接近10倍,xpath比bs4快接近10倍可见要想追求极致速度,使用正则表达式解析有多重要 1、re解析的代码 阅读全文
posted @ 2019-09-25 09:47 不夜男人 编辑
摘要:python爬虫demo01 1 import requests, json, time, sys 2 from bs4 import BeautifulSoup 3 from contextlib import closing 4 5 url = 'https://image.xiaozhusta 阅读全文
posted @ 2019-09-06 17:02 不夜男人 编辑
摘要:umei-spider 1 #!/usr/bin/python3 2 3 import requests 4 from bs4 import BeautifulSoup 5 from contextlib import closing 6 import time 7 import uuid 8 9 阅读全文
posted @ 2019-09-06 17:00 不夜男人 编辑
摘要:selenium-爬取小说 1 import requests 2 from bs4 import BeautifulSoup 3 import sys 4 from selenium import webdriver 5 from selenium.webdriver.support.wait i 阅读全文
posted @ 2019-09-06 16:59 不夜男人 编辑
摘要:一、去除空格 strip() " xyz ".strip() # returns "xyz" " xyz ".strip() # returns "xyz" " xyz ".lstrip() # returns "xyz " " xyz ".lstrip() # returns "xyz " " x 阅读全文
posted @ 2019-09-05 17:16 不夜男人 编辑
摘要:Beautiful Soup 是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据。 它基于 HTML DOM 的,会载入整个文档,解析整个 DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。 BeautifulSoup 用来解析 HTML 比较简单,API非常 阅读全文
posted @ 2019-09-05 16:56 不夜男人 编辑
摘要:"作为一名爬虫工程师,你最需要关注的,是数据的来源" 原文:https://www.jb51.net/article/90114.htm 霍夫曼编码压缩算法 1.最基本的抓站 import urllib2 import urllib2 content = urllib2.urlopen('http: 阅读全文
posted @ 2019-08-15 13:55 不夜男人 编辑
摘要:Comma Separated Values,简称CSV,它是一种以逗号分隔数值的文件类型。在数据库或电子表格中,它是最常见的导入导出格式,它以一种简单而明了的方式存储和共享数据,CSV文件通常以纯文本的方式存储数据表。今天,我将给大家分享在Python中如何操作CSV文件。 一、数据源 首先,我们 阅读全文
posted @ 2019-08-08 11:30 不夜男人 编辑
摘要:python读取csv文件的某一列或某几列 import csvimport pandas as pdwith open('D:\Data\新建文件夹\list3.2.csv','r') as csvfile: reader = csv.reader(csvfile) column1 = [row[ 阅读全文
posted @ 2019-08-08 11:25 不夜男人 编辑
摘要:上一篇我们讲了怎么用 json格式保存数据,这一篇我们来看看如何用 csv模块进行数据读写。 一、csv简介 CSV (Comma Separated Values),即逗号分隔值(也称字符分隔值,因为分隔符可以不是逗号),是一种常用的文本格式,用来存储表格数据,包括数字或者字符。 csv的使用很广 阅读全文
posted @ 2019-08-08 11:24 不夜男人 编辑
摘要:1. 什么是CSV CSV(Commma-Separated Value)是都好分隔符,其文件以纯文本形式存储表格数据(数字和文本)。 案例: 2. 为什么要使用CSV 与专有的二进制文件格式截然不同,CSV通常用于在在电子表格软件和纯文本之间交互数据. 实际上,CSV都不算是一个真正的结构化数据, 阅读全文
posted @ 2019-08-08 11:16 不夜男人 编辑
摘要:在爬虫过后会取得很多信息! 将信息存起来方法还很多中!今天提一下CSV模块 导入模块 import csv 这里先写个列表 rows = [['zhangsan',20],['lisi',22],['wangwu',23],['zhaoliu',18]]1,写入信息 with open('test. 阅读全文
posted @ 2019-08-08 11:13 不夜男人 编辑
摘要:Python与CSV文件(CSV模块) 1、CSV文件 CSV(逗号分隔值)格式是电子表格和数据库最常用的导入和导出格式。没有“CSV标准”,因此格式由许多读写的应用程序在操作上定义。缺乏标准意味着不同应用程序生成和使用的数据中通常存在细微差别。这些差异会使处理来自多个源的CSV文件变得很烦人。尽管 阅读全文
posted @ 2019-08-08 11:12 不夜男人 编辑
摘要:1.Python处理csv文件之csv.writer() 调用上面的函数 运行结果 2.Python处理csv文件之csv.reader() 调用上面的函数 运行结果 3.Python处理csv文件之csv.DictWriter() 调用上面的函数 运行结果 4.Python处理csv文件之csv. 阅读全文
posted @ 2019-08-08 11:09 不夜男人 编辑
摘要:前言快要毕业那会儿,在下编写了一个招聘网站招聘岗位的爬虫提供给前女神参考,最开始我是存到mysql中,然后在到处一份csv文件给前女神。到了参加工作后,由于经常使用excel绘制图表(谁叫公司做报表全用excel呢…………….),在下才瞬间顿悟,有时候将爬虫爬取的数据直接存到csv中或许会更加方便一 阅读全文
posted @ 2019-08-08 11:08 不夜男人 编辑
摘要:节约时间,不废话介绍了,直接上例子!!!输入以下代码(共6行) import requestsfrom lxml import htmlurl='https://movie.douban.com/' #需要爬数据的网址page=requests.Session().get(url) tree=htm 阅读全文
posted @ 2019-08-08 09:13 不夜男人 编辑
摘要:主要流程: 获取url下载网页从网页中找寻自己需要的保存(解析+输出)主要概念URL:分大小写统一资源定位符,对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。 基本URL 阅读全文
posted @ 2019-08-05 16:14 不夜男人 编辑

点击右上角即可分享
微信分享提示