摘要: python爬虫之urllib 在python2和python3中的差异 在python2中,urllib和urllib2各有各个的功能,虽然urllib2是urllib的升级版,但是urllib2还是不能完全替代urllib,但是在python3中,全部封装成一个类urllib。 Urllib2可 阅读全文
posted @ 2018-06-15 17:26 quartzite 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 cookies是什么? cookies存储在客户端,被称为浏览器 cookie 或跟踪 阅读全文
posted @ 2018-06-13 20:42 quartzite 阅读(268) 评论(0) 推荐(0) 编辑
摘要: 处理PDF文件 PyPDF2简介 作为 PDF 工具包构建的纯 python 库。 它可以:提取文档信息(标题,作者,... ...)一页一页地分割文件一页一页地合并文件裁剪页面将多个页面合并成一个页面加密和解密 PDF 文件通过使用纯 Python,它应该在任何 Python 平台上运行,而不需要 阅读全文
posted @ 2018-06-11 21:44 quartzite 阅读(389) 评论(0) 推荐(0) 编辑
摘要: CSV数据处理 csv文件格式 逗号分隔符(csv),有时也称为字符分隔值,因为分隔字符也可以不是逗号,其文件以纯文本的形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。csv文件由任意数目的记录组成,记录间以某种换行符分割;每条记录由字段组成, 阅读全文
posted @ 2018-06-08 23:29 quartzite 阅读(701) 评论(0) 推荐(0) 编辑
摘要: SMTP SMTP(Simple Mail Transfer Protocol)即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制信件的中转方式。Python对SMTP支持有smtplib和email两个模块,email负责构造邮件,smtplib负责发送邮件。Python 阅读全文
posted @ 2018-06-06 22:48 quartzite 阅读(648) 评论(0) 推荐(0) 编辑
摘要: 什么是 Socket? Socket又称"套接字",应用程序通常通过"套接字"向网络发出请求或者应答网络请求,使主机间或者一台计算机上的进程间可以通讯。TCP可靠性的实现:(1)校验码(2)接收方反馈(3)信息包附带序号UDP:(1)快 不需要花费时间建立和关闭连接 (2)快 偶尔丢失一两个消息包无 阅读全文
posted @ 2018-06-01 18:34 quartzite 阅读(246) 评论(0) 推荐(0) 编辑
摘要: 下面的代码主要使用SQLAlchemy的ORM思想实现查询单词的功能: 实现输入一个单词,查询出与输入单词接近的单词以及单词的意思。 主要有以下三步: 1、创建数据表 2、插入数据 3、查询数据 1、创建数据表 2、插入数据 3、查询数据 执行程序 阅读全文
posted @ 2018-05-30 16:09 quartzite 阅读(258) 评论(0) 推荐(0) 编辑
摘要: 多worker、多队列 celery是一个分布式的任务调度模块,那么怎么实现它的分布式功能呢,celery可以支持多台不同的计算机执行不同的任务或者相同的任务。 如果要说celery的分布式应用的话,就要提到celery的消息路由机制,提到AMQP协议。 简单理解: 可以有多个"消息队列"(mess 阅读全文
posted @ 2018-05-27 20:01 quartzite 阅读(28164) 评论(4) 推荐(2) 编辑
摘要: 消息队列 消息队列”是在消息的传输过程中保存消息的容器。 消息队列最经典的用法就是消费者和生成者之间通过消息管道来传递消息,消费者和生成者是不通的进程。生产者往管道中写消息,消费者从管道中读消息。 相当于水管,有一个入口和出口,水从入口流入,从出口流出,这就是一个消息队列。左侧线程或者进程往队列里面 阅读全文
posted @ 2018-05-25 16:16 quartzite 阅读(826) 评论(0) 推荐(0) 编辑
摘要: 之前实现的数据共享的方式只有两种结构Value和Array。Python中提供了强大的Manager专门用来做数据共享的,Manager是进程间数据共享的高级接口。 Manager()返回的manager对象控制了一个server进程,此进程包含的python对象可以被其他的进程通过proxies来 阅读全文
posted @ 2018-05-23 20:58 quartzite 阅读(277) 评论(0) 推荐(0) 编辑