2022年4月10日

摘要: 可以用pycurl这个模块,比urllib好用多了。下面直接贴上代码,根据代码注释修改就可以了。 #coding:utf-8 import pycurl,StringIO #传入图片的下载链接 url = 'http://junyiseo.com/wp-content/uploads/2016/10 阅读全文
posted @ 2022-04-10 10:21 帅胡 阅读(320) 评论(0) 推荐(0) 编辑
摘要: 均益最近写了个python脚本,需要每天固定个时间执行一次。在shell窗口下执行是没问题的,但是定时任务的时候老是不执行。如果你也遇到与均益一样的问题,那么可以看一下下面的内容,你肯定可以找到解决方案的。这是均益花不少时间整理出来的。 首页,linux定时任务用到的是crontab,我们来看一下c 阅读全文
posted @ 2022-04-10 10:15 帅胡 阅读(1514) 评论(0) 推荐(0) 编辑
摘要: python xpath解析网页用到的是lxml库,lxml的使用方法可以官方文档 http://lxml.de/lxmlhtml.html xpath 的定位查找,可以查看 http://www.runoob.com/xpath/xpath-tutorial.html 上面的两个教程说的挺详细的, 阅读全文
posted @ 2022-04-10 09:41 帅胡 阅读(576) 评论(0) 推荐(0) 编辑
摘要: 我们在爬大型网站的时候,需要处理上千万乃至上亿的url的去重。如果采用python的自带set,或者redis的set,那就需要占用很大的内存。如果存入将url存入数据库去重,那速度又会变慢。这种量级以上的去重,一般是采用BloomFilter,但是如果机器down机了,那BloomFilter在内 阅读全文
posted @ 2022-04-10 09:31 帅胡 阅读(330) 评论(0) 推荐(0) 编辑
摘要: BloomFilter布隆过滤器python的实现方法 安装pybloomfiltermmap模块 pip install pybloomfiltermmap 实现 # -*- coding:utf-8 -*- import os import sys reload(sys) sys.setdefa 阅读全文
posted @ 2022-04-10 09:26 帅胡 阅读(293) 评论(0) 推荐(0) 编辑
摘要: 我们通过抓包工具,抓到上传文件的时候下面的post传输的数据,就是浏览器控制器中显示的Request Payload WebKitFormBoundarynZb9BK3DBujba6Z2 Content-Disposition: form-data; name="__VIEWSTATE" /wEPD 阅读全文
posted @ 2022-04-10 09:16 帅胡 阅读(1898) 评论(0) 推荐(0) 编辑
摘要: Pycurl包是一个libcurl的Python接口,由C语言编写的,功能强大,速度快。由于pycurl的属性和方法太多了,写这篇博文记录一下pycurl的属性和方法。 正常安装 pip install pycurl如果出现问题,可以按照系统版本搜索安装方法,比如centos7.1 安装pycurl 阅读全文
posted @ 2022-04-10 09:12 帅胡 阅读(566) 评论(0) 推荐(0) 编辑
摘要: aiohttp是python3的一个异步模块,分为服务器端和客户端。廖雪峰的python3教程中,讲的是服务器端的使用方法。均益这里主要讲的是客户端的方法,用来写爬虫。使用异步协程的方式写爬虫,能提高程序的运行效率。 1、安装 pip install aiohttp 2、单一请求方法 import 阅读全文
posted @ 2022-04-10 09:07 帅胡 阅读(573) 评论(0) 推荐(0) 编辑
摘要: python3 连接mysql的模块mysql-connector-python,纯python驱动器,不再依赖C语言的库,并且兼容python2和python3. 说明 本文的代码允许环境 python3.6 安装 pip install mysql-connector-python 连接数据库 阅读全文
posted @ 2022-04-10 00:06 帅胡 阅读(1521) 评论(0) 推荐(0) 编辑
摘要: pip install mysqlclientpip install mysql-connector-pythonpip install PyMySQL #1 使用mysql-connector连接mysqlimport mysql.connector mydb = mysql.connector. 阅读全文
posted @ 2022-04-10 00:04 帅胡 阅读(680) 评论(0) 推荐(0) 编辑

导航