随笔分类 -  Python

python大法好啊
摘要:Scrapy Redis分布式爬虫组件 Scrapy是一个框架,他本身是不支持分布式的。如果我们想要做分布式的爬虫,就需要借助一个组件叫做Scrapy Redis,这个组件正是利用了Redis可以分布式的功能,集成到Scrapy框架中,使得爬虫可以进行分布式。可以充分的利用资源(多个ip、更多带宽、 阅读全文
posted @ 2019-07-17 20:19 阿星Plus 阅读(216) 评论(0) 推荐(0) 编辑
摘要:Scrapy框架介绍 写一个爬虫,需要做很多的事情,比如:发送网络请求、数据解析、数据存储、反反爬虫机制(ip代理,设置请求头等)、异步请求等等。这些工作如果每次都要自己从零开始写的话,比较浪费时间。因此scrapy把一些基础的东西都封装好了,在scrapy框架上开发爬虫可以变得更加的高效,爬取效率 阅读全文
posted @ 2019-07-16 19:51 阿星Plus 阅读(292) 评论(0) 推荐(0) 编辑
摘要:图形验证码识别技术 阻碍我们爬虫的。有时候正是在登录或者请求一些数据时候的图形验证码。因此这里我们讲解一种能将图片翻译成文字的技术。将图片翻译成文字一般被成为光学文字识别(Optical Character Recognition),简写为OCR。实现OCR的库不是很多,特别是开源的。因为这块存在一 阅读全文
posted @ 2019-07-15 23:22 阿星Plus 阅读(587) 评论(0) 推荐(0) 编辑
摘要:Ajax是什么 AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML。过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。传统的网页(不使用Ajax)如果需要更新 阅读全文
posted @ 2019-07-14 22:34 阿星Plus 阅读(312) 评论(0) 推荐(0) 编辑
摘要:有些时候,比如下载图片,是一个比较耗时的操作,如果采用同步的方式去下载,效率肯定会特别慢,这时候我们就可以考虑使用多线程的方式来下载图片 多线程介绍 多线程是为了同步完成多项任务,通过提高资源使用效率来进一步提高系统的效率 线程是在同一时间需要完成多项任务的时候实现的 最简单的比喻,多线程就像火车的 阅读全文
posted @ 2019-07-13 21:51 阿星Plus 阅读(385) 评论(0) 推荐(0) 编辑
摘要:MongoDB 原生语句 "MongoDB Shell 命令" 安装pymongo Python连接MongoDB 阅读全文
posted @ 2019-07-12 20:40 阿星Plus 阅读(274) 评论(0) 推荐(0) 编辑
摘要:Windows下安装MySQL 详细可参考 "Windows下MySQL安装流程,8.0以上版本ROOT密码报错及修改" 安装驱动程序 python想要操作MySQL,必须要有一个中间件,或者叫做驱动程序,驱动程序有很多,mysqlclient、mysqldb、pymysql。我选择用pymysql 阅读全文
posted @ 2019-07-11 19:30 阿星Plus 阅读(223) 评论(0) 推荐(0) 编辑
摘要:读取csv文件 这样操作以后获取数据的时候,就要通过下标来获取数据。如果想要在获取数据的时候通过标题来获取,那么就可以使用 DictReader 写入数据到csv文件 写入数据到csv文件,需要创建一个write对象,主要用到两个方法,一个是writerow写入一行,一个是writerows写入多行 阅读全文
posted @ 2019-07-10 23:11 阿星Plus 阅读(187) 评论(0) 推荐(0) 编辑
摘要:什么是json JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语 阅读全文
posted @ 2019-07-09 22:45 阿星Plus 阅读(1233) 评论(0) 推荐(0) 编辑
摘要:match 从开始的位置进行匹配,如果开始的位置没有匹配到,就直接匹配失败 如果第一个字母不是h,那么就会失败 如果想要匹配换行的数据,那么就要传入一个 ,就可以匹配换行符了 search 在字符串中找满足条件的字符,如果找到,就返回,就是只会找到第一个满足条件的 group 在正则表达式中,可以对 阅读全文
posted @ 2019-07-08 21:34 阿星Plus 阅读(137) 评论(0) 推荐(0) 编辑
摘要:什么是正则表达式 世界上分为两种人,一种是懂正则表达式的,一种是不懂正则表达式的 按照一定的规则,从某个字符串中匹配出想要的数据,这个规则就是正则表达式 正则表达式常用的匹配规则 匹配某个字符串 点( ) 匹配任意的字符串 匹配任意的数字 匹配任意的非数字 如果text为一个数字,那么就匹配不成功了 阅读全文
posted @ 2019-07-07 20:21 阿星Plus 阅读(124) 评论(0) 推荐(0) 编辑
摘要:BeautifulSoup 和 lxml 一样,Beautiful Soup 也是一个 HTML/XML 的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。 lxml 只会局部遍历,而 Beautiful Soup 是基于 HTML DOM(Document Object Model) 阅读全文
posted @ 2019-07-06 19:21 阿星Plus 阅读(129) 评论(0) 推荐(0) 编辑
摘要:lxml 介绍 lxml 是一个 HTML/XML 的解析器,主要的功能是如何解析和提取 HTML/XML 数据 lxml 和正则一样,用 C 语言实现的,是一款高性能的 Python HTML/XML 解析器,可以利用 XPath 语法,快速定位元素以及节点的信息 lxml Python 官方文档 阅读全文
posted @ 2019-07-05 23:19 阿星Plus 阅读(300) 评论(0) 推荐(0) 编辑
摘要:什么是Xpath? XPath\(XML Path Language\) 是一门在XML和HTML文档中查找信息的语言,可以用来在XML和HTML文档中对元素和属性进行遍历 XPath工具 Chrome插件 "XPath Helper" Firefox插件 "Try XPath" XPath语法 选 阅读全文
posted @ 2019-07-04 22:34 阿星Plus 阅读(420) 评论(0) 推荐(0) 编辑
摘要:虽然Python的标准库中 urllib模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests宣传是 “HTTP for Humans”,说明使用更简洁方便。 安装和文档地址 中文文档: "http://docs.python requests.org 阅读全文
posted @ 2019-07-03 21:15 阿星Plus 阅读(143) 评论(0) 推荐(0) 编辑
摘要:urllib库 urllib库是Python中一个最基本的网络请求库,可以模拟浏览器的行为,向指定服务器发送一个请求,并可以保存服务器返回的数据。 urlopen函数 在Python3的urllib库中,所有和网络相求相关的方法都被集成到 urlli.request 模块下了,urlopen函数基本 阅读全文
posted @ 2019-07-02 20:20 阿星Plus 阅读(348) 评论(0) 推荐(0) 编辑
摘要:http和https http协议:全称是 HyperText Transfer Protocol,意思是超文本传输协议,是一种发布和接收HTML页面的方法,服务器端口号是80。 https协议:是HTTP协议的加密版本,在HTTP下加入了SSL层,服务器端口号是443。 在浏览器中发送一个http 阅读全文
posted @ 2019-07-01 19:14 阿星Plus 阅读(255) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示