随笔分类 -  Python 库

摘要:系列文章地址 NumPy 最详细教程(1):NumPy 数组 NumPy 超详细教程(2):数据类型 NumPy 超详细教程(3):ndarray 的内部机理及高级迭代 ndarray 对象的内部机理 在前面的内容中,我们已经详细讲述了 ndarray 的使用,在本章的开始部分,我们来聊一聊 nda 阅读全文
posted @ 2019-04-01 10:13 丹枫无迹 阅读(6118) 评论(0) 推荐(1) 编辑
摘要:datetime64 类型,你会用吗?又如何在 numpy 中定义一个结构化数据类型呢? 阅读全文
posted @ 2019-03-18 08:51 丹枫无迹 阅读(6324) 评论(0) 推荐(1) 编辑
摘要:工欲善其事必先利其器,NumPy 是数据分析、机器学习中最常用的基本库,功能极多,极其强大,我们将使用一个系列来完整介绍 NumPy 的用法,这是本系列第一篇。文章很长,建议收藏,随时翻阅。 阅读全文
posted @ 2019-03-15 09:38 丹枫无迹 阅读(17742) 评论(0) 推荐(2) 编辑
摘要:peewee 是一个轻量级的 Python ORM 框架,个人用下来感觉还好,简单易上手,对于小项目能满足大部分需求。peewee 的官方文档没有中文版的,网上的文章都是快速入门,抄了文档中几个例子,没有详细介绍的。本文略长,详细介绍了增删改查操作,并且详解介绍了使用过程中遇到的各种问题。 阅读全文
posted @ 2019-02-15 08:30 丹枫无迹 阅读(21847) 评论(3) 推荐(2) 编辑
摘要:网络请求不可避免会遇上请求超时的情况,在 requests 中,如果不设置你的程序可能会永远失去响应。超时又可分为连接超时和读取超时。 连接超时 连接超时指的是在你的客户端实现到远端机器端口的连接时(对应的是connect()),Request 等待的秒数。 import timeimport re 阅读全文
posted @ 2018-12-17 08:02 丹枫无迹 阅读(149192) 评论(1) 推荐(8) 编辑
摘要:概述 Python 中可以读取 word 文件的库有 python-docx 和 pywin32。 下表比较了各自的优缺点。 优点缺点 python-docx 跨平台 只能处理 .docx 格式,不能处理.doc格式 pywin32 仅限 windows 平台 .doc 和 .docx 都能处理 p 阅读全文
posted @ 2018-12-14 07:59 丹枫无迹 阅读(23122) 评论(1) 推荐(3) 编辑
摘要:pdf 是个异常坑爹的东西,有很多处理 pdf 的库,但是没有完美的。 一、pdfminer3k pdfminer3k 是 pdfminer 的 python3 版本,主要用于读取 pdf 中的文本。 网上有很多 pdfminer3k 的代码示例,看过以后,只想吐槽一下,太复杂了,有违 python 阅读全文
posted @ 2018-12-04 15:35 丹枫无迹 阅读(41523) 评论(6) 推荐(9) 编辑
摘要:刚开始接触 bs4 的时候,我也很迷茫,觉得 string 属性和 text 属性是一样的,不明白为什么要分成两个属性。 html = '<p>hello world</p>' soup = BeautifulSoup(html, 'lxml') p = soup.p print(p.string) 阅读全文
posted @ 2018-11-14 16:37 丹枫无迹 阅读(9361) 评论(0) 推荐(0) 编辑
摘要:写爬虫的时候,在进行 request 请求的时候,多数情况下需要添加请求头,否则就不能正常请求。 添加请求头最常用的做法是修改 User-Agent 来伪装浏览器。 以前在写请求头的时候,都是通过 copy 来解决的,昨天看到了一个库 fake-useragent,以后再也不用烦恼了。 官网地址:h 阅读全文
posted @ 2018-10-29 11:25 丹枫无迹 阅读(2997) 评论(0) 推荐(0) 编辑
摘要:peewee-mssql 目前版本较老,与 peewee 最新的 3.x 版本不兼容,需要将 peewee 降到2.10.2,另需要安装 pymssql 作为驱动。 阅读全文
posted @ 2018-10-23 09:30 丹枫无迹 阅读(2019) 评论(0) 推荐(0) 编辑
摘要:正则大同小异,python 中的正则跟其他语言相比略有差异: 1、替换字符串时,替换的字符串可以是一个函数; 2、split 函数可以指定分割次数,这会导致有个坑; 3、前项界定的表达式必须定长,否则报 look-behind requires fixed-width pattern 错误。 阅读全文
posted @ 2018-09-15 09:18 丹枫无迹 阅读(844) 评论(0) 推荐(0) 编辑
摘要:bs4全名BeautifulSoup,是编写python爬虫常用库之一,主要用来解析html标签。本文详细介绍了通过遍历、所搜、CSS选择器查找元素。 阅读全文
posted @ 2018-08-15 10:37 丹枫无迹 阅读(60506) 评论(0) 推荐(2) 编辑
摘要:创建一个浏览器对象 from selenium import webdriver browser = webdriver.Chrome() WebDriver在将控制权返回给测试脚本之前,会一直等待到页面完全加载完毕,但如果页面使用了很多AJAX,WebDriver可能无法准确判断页面是否完全加载。 阅读全文
posted @ 2018-08-10 10:32 丹枫无迹 阅读(1061) 评论(0) 推荐(0) 编辑
摘要:Selenium是一个用于测试网站的自动化测试工具,爬虫中也经常用到,支持Chrome、Firefox、Safari等主流界面浏览器,也支持phantomJS无界面浏览器。使用时需要安装浏览器驱动,本文汇总了Chrome,FireFox,IE三种主流浏览器的驱动下载地址及版本对应。 阅读全文
posted @ 2018-08-09 09:46 丹枫无迹 阅读(889) 评论(0) 推荐(0) 编辑
摘要:一、numpy简介 Numpy是高性能科学计算和数据分析的基础包,机器学习三剑客之一。Numpy库中最核心的部分是ndarray 对象,它封装了同构数据类型的n维数组。部分功能如下: ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。 用于对整组数据进行快速运算的标准数学函 阅读全文
posted @ 2018-06-27 20:04 丹枫无迹 阅读(815) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示