随笔分类 - Python

python大法好啊

发表于 2019-07-17 20:19阅读次数：217评论次数：0

摘要：Scrapy Redis分布式爬虫组件 Scrapy是一个框架，他本身是不支持分布式的。如果我们想要做分布式的爬虫，就需要借助一个组件叫做Scrapy Redis，这个组件正是利用了Redis可以分布式的功能，集成到Scrapy框架中，使得爬虫可以进行分布式。可以充分的利用资源（多个ip、更多带宽、阅读全文 »

posted @ 2019-07-17 20:19 阿星Plus 阅读(217) 评论(0) 推荐(0) 编辑

Scrapy框架

发表于 2019-07-16 19:51阅读次数：294评论次数：0

摘要：Scrapy框架介绍写一个爬虫，需要做很多的事情，比如：发送网络请求、数据解析、数据存储、反反爬虫机制(ip代理，设置请求头等)、异步请求等等。这些工作如果每次都要自己从零开始写的话，比较浪费时间。因此scrapy把一些基础的东西都封装好了，在scrapy框架上开发爬虫可以变得更加的高效，爬取效率阅读全文 »

posted @ 2019-07-16 19:51 阿星Plus 阅读(294) 评论(0) 推荐(0) 编辑

图形验证码识别

发表于 2019-07-15 23:22阅读次数：588评论次数：0

摘要：图形验证码识别技术阻碍我们爬虫的。有时候正是在登录或者请求一些数据时候的图形验证码。因此这里我们讲解一种能将图片翻译成文字的技术。将图片翻译成文字一般被成为光学文字识别（Optical Character Recognition），简写为OCR。实现OCR的库不是很多，特别是开源的。因为这块存在一阅读全文 »

posted @ 2019-07-15 23:22 阿星Plus 阅读(588) 评论(0) 推荐(0) 编辑

动态网页爬虫

发表于 2019-07-14 22:34阅读次数：315评论次数：0

摘要：Ajax是什么 AJAX（Asynchronouse JavaScript And XML）异步JavaScript和XML。过在后台与服务器进行少量数据交换，Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。传统的网页（不使用Ajax）如果需要更新阅读全文 »

posted @ 2019-07-14 22:34 阿星Plus 阅读(315) 评论(0) 推荐(0) 编辑

多线程爬虫

发表于 2019-07-13 21:51阅读次数：386评论次数：0

摘要：有些时候，比如下载图片，是一个比较耗时的操作，如果采用同步的方式去下载，效率肯定会特别慢，这时候我们就可以考虑使用多线程的方式来下载图片多线程介绍多线程是为了同步完成多项任务，通过提高资源使用效率来进一步提高系统的效率线程是在同一时间需要完成多项任务的时候实现的最简单的比喻，多线程就像火车的阅读全文 »

posted @ 2019-07-13 21:51 阿星Plus 阅读(386) 评论(0) 推荐(0) 编辑

Python操作MongoDB数据库

发表于 2019-07-12 20:40阅读次数：275评论次数：0

摘要：MongoDB 原生语句 "MongoDB Shell 命令" 安装pymongo Python连接MongoDB 阅读全文 »

posted @ 2019-07-12 20:40 阿星Plus 阅读(275) 评论(0) 推荐(0) 编辑

Python操作MySQL数据库

发表于 2019-07-11 19:30阅读次数：223评论次数：0

摘要：Windows下安装MySQL 详细可参考 "Windows下MySQL安装流程，8.0以上版本ROOT密码报错及修改" 安装驱动程序 python想要操作MySQL，必须要有一个中间件，或者叫做驱动程序，驱动程序有很多，mysqlclient、mysqldb、pymysql。我选择用pymysql 阅读全文 »

posted @ 2019-07-11 19:30 阿星Plus 阅读(223) 评论(0) 推荐(0) 编辑

csv文件处理

发表于 2019-07-10 23:11阅读次数：188评论次数：0

摘要：读取csv文件这样操作以后获取数据的时候，就要通过下标来获取数据。如果想要在获取数据的时候通过标题来获取，那么就可以使用 DictReader 写入数据到csv文件写入数据到csv文件，需要创建一个write对象，主要用到两个方法，一个是writerow写入一行，一个是writerows写入多行阅读全文 »

posted @ 2019-07-10 23:11 阿星Plus 阅读(188) 评论(0) 推荐(0) 编辑

json文件处理

发表于 2019-07-09 22:45阅读次数：1233评论次数：0

摘要：什么是json JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集，采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语阅读全文 »

posted @ 2019-07-09 22:45 阿星Plus 阅读(1233) 评论(0) 推荐(0) 编辑

re模块

发表于 2019-07-08 21:34阅读次数：137评论次数：0

摘要：match 从开始的位置进行匹配，如果开始的位置没有匹配到，就直接匹配失败如果第一个字母不是h，那么就会失败如果想要匹配换行的数据，那么就要传入一个，就可以匹配换行符了 search 在字符串中找满足条件的字符，如果找到，就返回，就是只会找到第一个满足条件的 group 在正则表达式中，可以对阅读全文 »

posted @ 2019-07-08 21:34 阿星Plus 阅读(137) 评论(0) 推荐(0) 编辑

Python中的正则表达式

发表于 2019-07-07 20:21阅读次数：124评论次数：0

摘要：什么是正则表达式世界上分为两种人，一种是懂正则表达式的，一种是不懂正则表达式的按照一定的规则，从某个字符串中匹配出想要的数据，这个规则就是正则表达式正则表达式常用的匹配规则匹配某个字符串点( ) 匹配任意的字符串匹配任意的数字匹配任意的非数字如果text为一个数字，那么就匹配不成功了阅读全文 »

posted @ 2019-07-07 20:21 阿星Plus 阅读(124) 评论(0) 推荐(0) 编辑

BeautifulSoup库

发表于 2019-07-06 19:21阅读次数：130评论次数：0

摘要：BeautifulSoup 和 lxml 一样，Beautiful Soup 也是一个 HTML/XML 的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。 lxml 只会局部遍历，而 Beautiful Soup 是基于 HTML DOM（Document Object Model）阅读全文 »

posted @ 2019-07-06 19:21 阿星Plus 阅读(130) 评论(0) 推荐(0) 编辑

lxml库

发表于 2019-07-05 23:19阅读次数：304评论次数：0

摘要：lxml 介绍 lxml 是一个 HTML/XML 的解析器，主要的功能是如何解析和提取 HTML/XML 数据 lxml 和正则一样，用 C 语言实现的，是一款高性能的 Python HTML/XML 解析器，可以利用 XPath 语法，快速定位元素以及节点的信息 lxml Python 官方文档阅读全文 »

posted @ 2019-07-05 23:19 阿星Plus 阅读(304) 评论(0) 推荐(0) 编辑

XPath语法

发表于 2019-07-04 22:34阅读次数：422评论次数：0

摘要：什么是Xpath? XPath\(XML Path Language\) 是一门在XML和HTML文档中查找信息的语言，可以用来在XML和HTML文档中对元素和属性进行遍历 XPath工具 Chrome插件 "XPath Helper" Firefox插件 "Try XPath" XPath语法选阅读全文 »

posted @ 2019-07-04 22:34 阿星Plus 阅读(422) 评论(0) 推荐(0) 编辑

requests库

发表于 2019-07-03 21:15阅读次数：144评论次数：0

摘要：虽然Python的标准库中 urllib模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，而 Requests宣传是 “HTTP for Humans”，说明使用更简洁方便。安装和文档地址中文文档： "http://docs.python requests.org 阅读全文 »

posted @ 2019-07-03 21:15 阿星Plus 阅读(144) 评论(0) 推荐(0) 编辑

urllib库

发表于 2019-07-02 20:20阅读次数：348评论次数：0

摘要：urllib库 urllib库是Python中一个最基本的网络请求库，可以模拟浏览器的行为，向指定服务器发送一个请求，并可以保存服务器返回的数据。 urlopen函数在Python3的urllib库中，所有和网络相求相关的方法都被集成到 urlli.request 模块下了，urlopen函数基本阅读全文 »

posted @ 2019-07-02 20:20 阿星Plus 阅读(348) 评论(0) 推荐(0) 编辑

HTTP协议

发表于 2019-07-01 19:14阅读次数：255评论次数：0

摘要：http和https http协议：全称是 HyperText Transfer Protocol，意思是超文本传输协议，是一种发布和接收HTML页面的方法，服务器端口号是80。 https协议：是HTTP协议的加密版本，在HTTP下加入了SSL层，服务器端口号是443。在浏览器中发送一个http 阅读全文 »

posted @ 2019-07-01 19:14 阿星Plus 阅读(255) 评论(0) 推荐(0) 编辑

公告

昵称：阿星Plus
园龄： 9年1个月
粉丝： 324
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

找找看

积分排名

阿星Plus

白云一片去悠悠，青枫浦上不胜愁。

《春江花月夜》 - 唐代 - 张若虚

关注

跳至底部

昵称：阿星Plus
园龄： 9年1个月
粉丝： 324
关注： 0

+加关注

阿星Plus

生命不息，奋斗不止

随笔分类 - Python

公告

阿星Plus

白云一片去悠悠，青枫浦上不胜愁。

《春江花月夜》 - 唐代 - 张若虚

最新随笔

我的标签

积分与排名

随笔分类

阅读排行榜

最新评论