2017年7月16日

使用python制作二维码

摘要: python-qrcode是个用来生成二维码图片的第三方模块,主要依赖的是 PIL 模块和 qrcode 库。(PIL模块只支持python2.7及以下版本,python3之后无法使用,官方推荐python3.x使用pillow代替PIL模块) 1.安装相关环境(以python2.7为例) 首先,我 阅读全文

posted @ 2017-07-16 19:15 niansi 阅读(820) 评论(0) 推荐(0) 编辑

2017年7月10日

python requests请求卡住问题

摘要: 最近经常接到别人反馈某个爬虫工具程序没有正常运行,需要下载的资讯数据也没有及时进行收录。 刚开始以为可能是机器的问题,偶尔机器会出现程序运行中途卡住的情况。 但随着异常的情况越来越频繁,我便只好去排查问题。 通过查看程序运行的日志信息,发现程序总是卡在requests请求的那一步。 这让我觉得很奇怪 阅读全文

posted @ 2017-07-10 00:02 niansi 阅读(12606) 评论(0) 推荐(2) 编辑

2017年7月2日

Facebook下载总结

摘要: Facebook是美国的一个社交网络服务网站,至今注册用户已超越20亿,月活用户更是惊人的突破3亿。 这样庞大的一个社交类网站,每日产生的社交数据当然也是非常可观,而这些社交数据,更接近口语,所以是比较好的一些英文语料数据。 然而,面对这样好的一个语料来源,它的下载难度也是超越了我的预期。 起初,因 阅读全文

posted @ 2017-07-02 22:03 niansi 阅读(563) 评论(0) 推荐(0) 编辑

2017年6月25日

Beautiful Soup的使用

摘要: Beautiful Soup简单实用,功能也算比较全,之前下载都是自己使用xpath去获取信息,以后简单的解析可以用这个,方便省事。 Beautiful Soup 是用 Python 写的一个 HTML/XML 的解析器,它可以很好的处理不规范标记并生成剖析树。通常用来分析爬虫抓取的web文档。对于 阅读全文

posted @ 2017-06-25 22:20 niansi 阅读(295) 评论(0) 推荐(0) 编辑

2017年6月18日

python jieba分词工具

摘要: 源码地址:https://github.com/fxsjy/jieba 演示地址:http://jiebademo.ap01.aws.af.cm/ 特点 1,支持三种分词模式: a,精确模式,试图将句子最精确地切开,适合文本分析; b,全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但 阅读全文

posted @ 2017-06-18 22:47 niansi 阅读(485) 评论(0) 推荐(0) 编辑

2017年6月11日

python yield学习

摘要: yield的功能类似于return,但是不同之处在于它返回的是生成器。 生成器生成器是通过一个或多个yield表达式构成的函数,每一个生成器都是一个迭代器(但是迭代器不一定是生成器)。 如果一个函数包含yield关键字,这个函数就会变为一个生成器。 生成器并不会一次返回所有结果,而是每次遇到yiel 阅读全文

posted @ 2017-06-11 23:48 niansi 阅读(199) 评论(0) 推荐(0) 编辑

2017年6月4日

scrapy框架设置代理

摘要: 网易音乐在单ip请求下经常会遇到网页返回码503的情况经查询,503为单个ip请求流量超限,猜测是网易音乐的一种反扒方式因原音乐下载程序采用scrapy框架,所以需要在scrapy中通过代理的方式去解决此问题在scrapy中使用代理,有两种使用方式 1.使用中间件2.直接设置Request类的met 阅读全文

posted @ 2017-06-04 20:44 niansi 阅读(693) 评论(0) 推荐(1) 编辑

2017年5月29日

python 多线程探索

摘要: 前面已经了解过了,python多线程效率较低的主要原因是存在GIL,即Global Interpreter Lock(全局解释器锁)。这里继续详细的看下GIL的说明与如何避免GIL的影响,从而提高python多线程的执行效率。什么是GIL首先需要明确的一点是GIL并不是Python的特性,它是在实现 阅读全文

posted @ 2017-05-29 23:57 niansi 阅读(225) 评论(0) 推荐(0) 编辑

2017年5月22日

python 多线程学习小记

摘要: python对于thread的管理中有两个函数:join和setDaemon setDaemon:如果在程序中将子线程设置为守护线程,则该子线程会在主线程结束时自动退出,设置方式为thread.setDaemon(True),要在thread.start()之前设置,默认是false的,也就是主线程 阅读全文

posted @ 2017-05-22 00:42 niansi 阅读(147) 评论(0) 推荐(0) 编辑

2017年5月15日

python音频处理相关类库

摘要: 一、eyeD3 以下是eyed3的官方介绍 eyeD3 is a Python tool for working with audio files, specifically mp3 files containing ID3 metadata (i.e. song info). It provide 阅读全文

posted @ 2017-05-15 00:24 niansi 阅读(4153) 评论(0) 推荐(1) 编辑

导航