Python 库 - 随笔分类 - 丹枫无迹

【Python 库】NumPy 超详细教程（3）：ndarray 的内部机理及高级迭代

摘要：系列文章地址 NumPy 最详细教程（1）：NumPy 数组 NumPy 超详细教程（2）：数据类型 NumPy 超详细教程（3）：ndarray 的内部机理及高级迭代 ndarray 对象的内部机理在前面的内容中，我们已经详细讲述了 ndarray 的使用，在本章的开始部分，我们来聊一聊 nda 阅读全文

posted @ 2019-04-01 10:13 丹枫无迹阅读(6243) 评论(0) 推荐(1)

【Python 库】NumPy 超详细教程（2）：数据类型

摘要：datetime64 类型，你会用吗？又如何在 numpy 中定义一个结构化数据类型呢？阅读全文

posted @ 2019-03-18 08:51 丹枫无迹阅读(6523) 评论(0) 推荐(1)

【Python 库】NumPy 超详细教程（1）：NumPy 数组

摘要：工欲善其事必先利其器，NumPy 是数据分析、机器学习中最常用的基本库，功能极多，极其强大，我们将使用一个系列来完整介绍 NumPy 的用法，这是本系列第一篇。文章很长，建议收藏，随时翻阅。阅读全文

posted @ 2019-03-15 09:38 丹枫无迹阅读(18264) 评论(0) 推荐(2)

【Python 库】轻量级 ORM 框架 peewee 用法详解之——增删改查

摘要：peewee 是一个轻量级的 Python ORM 框架，个人用下来感觉还好，简单易上手，对于小项目能满足大部分需求。peewee 的官方文档没有中文版的，网上的文章都是快速入门，抄了文档中几个例子，没有详细介绍的。本文略长，详细介绍了增删改查操作，并且详解介绍了使用过程中遇到的各种问题。阅读全文

posted @ 2019-02-15 08:30 丹枫无迹阅读(22298) 评论(3) 推荐(2)

【Python 库】requests 详解超时和重试

摘要：网络请求不可避免会遇上请求超时的情况，在 requests 中，如果不设置你的程序可能会永远失去响应。超时又可分为连接超时和读取超时。连接超时连接超时指的是在你的客户端实现到远端机器端口的连接时（对应的是connect()），Request 等待的秒数。 import timeimport re 阅读全文

posted @ 2018-12-17 08:02 丹枫无迹阅读(153565) 评论(1) 推荐(8)

【Python 库】读取 .doc、.docx 两种 Word 文件简述及“Word 未能引发事件”错误

摘要：概述 Python 中可以读取 word 文件的库有 python-docx 和 pywin32。下表比较了各自的优缺点。优点缺点 python-docx 跨平台只能处理 .docx 格式，不能处理.doc格式 pywin32 仅限 windows 平台 .doc 和 .docx 都能处理 p 阅读全文

posted @ 2018-12-14 07:59 丹枫无迹阅读(24980) 评论(1) 推荐(3)

【Python 库】解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及对比

摘要：pdf 是个异常坑爹的东西，有很多处理 pdf 的库，但是没有完美的。一、pdfminer3k pdfminer3k 是 pdfminer 的 python3 版本，主要用于读取 pdf 中的文本。网上有很多 pdfminer3k 的代码示例，看过以后，只想吐槽一下，太复杂了，有违 python 阅读全文

posted @ 2018-12-04 15:35 丹枫无迹阅读(42094) 评论(6) 推荐(9)

【Python 库】bs4 中 string 属性和 text 属性的区别及背后的原理

摘要：刚开始接触 bs4 的时候，我也很迷茫，觉得 string 属性和 text 属性是一样的，不明白为什么要分成两个属性。 html = '<p>hello world</p>' soup = BeautifulSoup(html, 'lxml') p = soup.p print(p.string) 阅读全文

posted @ 2018-11-14 16:37 丹枫无迹阅读(9538) 评论(0) 推荐(0)

【Python 库】fake-useragent 伪装请求头

摘要：写爬虫的时候，在进行 request 请求的时候，多数情况下需要添加请求头，否则就不能正常请求。添加请求头最常用的做法是修改 User-Agent 来伪装浏览器。以前在写请求头的时候，都是通过 copy 来解决的，昨天看到了一个库 fake-useragent，以后再也不用烦恼了。官网地址：h 阅读全文

posted @ 2018-10-29 11:25 丹枫无迹阅读(3094) 评论(0) 推荐(0)

【Python 库】用 peewee 框架连接 SQL Server

摘要：peewee-mssql 目前版本较老，与 peewee 最新的 3.x 版本不兼容，需要将 peewee 降到2.10.2，另需要安装 pymssql 作为驱动。阅读全文

posted @ 2018-10-23 09:30 丹枫无迹阅读(2106) 评论(0) 推荐(0)

【Python 库】正则表达式 re 模块

摘要：正则大同小异，python 中的正则跟其他语言相比略有差异： 1、替换字符串时，替换的字符串可以是一个函数； 2、split 函数可以指定分割次数，这会导致有个坑； 3、前项界定的表达式必须定长，否则报 look-behind requires fixed-width pattern 错误。阅读全文

posted @ 2018-09-15 09:18 丹枫无迹阅读(877) 评论(0) 推荐(0)

【Python 库】bs4的使用

摘要：bs4全名BeautifulSoup，是编写python爬虫常用库之一，主要用来解析html标签。本文详细介绍了通过遍历、所搜、CSS选择器查找元素。阅读全文

posted @ 2018-08-15 10:37 丹枫无迹阅读(61153) 评论(0) 推荐(2)

【Python 库】Selenium 的使用

摘要：创建一个浏览器对象 from selenium import webdriver browser = webdriver.Chrome() WebDriver在将控制权返回给测试脚本之前，会一直等待到页面完全加载完毕，但如果页面使用了很多AJAX，WebDriver可能无法准确判断页面是否完全加载。阅读全文

posted @ 2018-08-10 10:32 丹枫无迹阅读(1093) 评论(0) 推荐(0)

【Python 库】Selenium 浏览器驱动

摘要：Selenium是一个用于测试网站的自动化测试工具，爬虫中也经常用到，支持Chrome、Firefox、Safari等主流界面浏览器，也支持phantomJS无界面浏览器。使用时需要安装浏览器驱动，本文汇总了Chrome，FireFox，IE三种主流浏览器的驱动下载地址及版本对应。阅读全文

posted @ 2018-08-09 09:46 丹枫无迹阅读(939) 评论(0) 推荐(0)

【Python 库】机器学习三剑客之 NumPy

摘要：一、numpy简介 Numpy是高性能科学计算和数据分析的基础包，机器学习三剑客之一。Numpy库中最核心的部分是ndarray 对象，它封装了同构数据类型的n维数组。部分功能如下： ndarray, 具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。用于对整组数据进行快速运算的标准数学函阅读全文

posted @ 2018-06-27 20:04 丹枫无迹阅读(842) 评论(0) 推荐(0)

丹枫无迹的博客

——公号：码农升级

随笔分类 - Python 库

公告