[Python] 知乎多线程爬虫
知乎多线程爬取问题:
自寒假以来,我就一直想把系统的学习一遍Python爬虫的知识。因为以前只是零碎的学习,造成许多东西都只是一知半解。
项目灵感来源是觉得单曲循环的歌至少让一个人曾经在聆听中感动过,歌曲的歌词中或许有触动他的旋律,也可能只是歌词恰巧与他的人生经历相似。不论怎样,我觉得能让一个人单曲循环的歌必定不差,所以就希望能获得这些歌曲名称并在网易云生成歌单。
然而,当我看到各位答主的答案后,我就发现有点麻烦了。
比如:
南山南
----------------我是不安分的分割线---------好多评论里的小伙伴说不得不推荐 傲寒 也是马頔歌曲里我爱的一首 如果说 南山南是一见钟情 被开头的“你在南方的艳阳天 大雪纷飞 我在北方的寒夜里四季如春”惊艳到 一点也不为过 而傲寒 更多是日久生情“如果全世界对你恶语相加 我就对你说上一世情话” 这么美的歌词 还是在我某天一大凌晨苦逼化妆中猛然注意到的
并且由于这两首歌 我下定了要学吉他的年头 并且我已经单曲循环了两周了 还没厌 良心推荐作者:JoyHsu
链接:https://www.zhihu.com/question/21738042/answer/34151546
我发现有不少答案中歌名是和其它话混在一起的,那这样的情况怎么处理呢?
很自然的,我想起来了自然语言处理,奈何寒假还没时间看NLTK库,不过我倒是知道jieba这个中文分词库,然后就直接试了一下,分出来的结果是这样的:
南山|n 南|n -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w -|w 我|r 是|v 不安|a 分|v 的|u 分割线|n -|w -|w -|w -|w -|w -|w -|w -|w -|w 好多|m 评论|v 里|n 的|u 小|a 伙伴|n 说|v 不得|v 不|d 推荐|v 傲|a 寒|a 也|d 是|v 马|n 頔|n 歌曲|n 里|n 我|r 爱|v 的|u 一|m 首|q 如果|c 说|v 南山|n 南|n 是|v 一|m 见|v 钟情|n 被|p 开头|v 的|u 你|r 在|p 南方|n 的|u 艳阳天|n 大雪|n 纷飞|v 我|r 在|p 北方|n 的|u 寒|a 夜里|n 四|m 季|n 如春|v 惊艳|v 到|v 一点|m 也|d 不|d 为|p 过|v 而|c 傲|a 寒|a 更多|d 是|v 日|n 久|a 生情|v 如果|c 全世界|n 对|p 你|r 恶语|n 相|d 加|v 我|r 就|d 对|p 你|r 说|v 上|n 一世|n 情话|n 这么|r 美的|n 歌词|n 还是|d 在|p 我|r 某|r 天|n 一|m 大|a 凌晨|n 苦|a 逼|v 化妆|v 中|n 猛然|d 注意|v 到|v 的|u 并且|c 由于|c 这|r 两首|n 歌|n 我|r 下定|v 了|u 要|v 学|v 吉他|n 的|u 年头|n 并且|c 我|r 已经|d 单曲|n 循环|v 了|u 两|m 周|n 了|u 还|d 没|d 厌|v 良心|n 推荐|v
看到了吧,南山和南被分了出来,然而南山南却没有分出来,傲寒也没有分出来,因为用的语料库都是很久以前的词语,不可能有歌名这种词语,然后我一度停了好几天都在思考怎么解决。
还是无法解决,因为以我目前匮乏的专业知识只凭借瞎想是没有作用的。
然后我继续分析,发现有好多人都会使用书名号《》来引用歌名。
比如:
五月天《步步》
类似这样的答案还是挺多的,我就直接拿正则匹配书名号里面的内容。
关于程序,知乎登录部分是参考知乎上的一个回答(@xchaoinfo)。
我自己尝试把爬虫分成了解析器(parser),数据流存储器(store),以及规则器(rules),实际上写的很low。不过也算有了那么点意思。
然后就是加了多线程,关于多线程的使用,我实测对于爬虫的效率绝对是有用的,因为爬虫大部分时间都是等待服务器响应然后下载,所以多线程完全可以把等待的这部分时间来并行处理,节省时间。
关于存储这一部分,有很多选择,你完全可以简单选择存储到文本文件,也可以存储到excel文件,最好是存储到数据库,使用起来会极大的方便。所以我一开始是学了Python的sqlite3
模块,为了省事,因为sqlite3
是自带的。我在会给出一些我学习看到的好的教程。
最后我想提的是,对于BeautifulSoup vs. lxml的效率。以前也没用过lxml,也没觉得bs慢,直到我用了它以后,我估计以后再也不想用bs了
- 首先是bs不支持xpath语法选择
- 重点是bs的效率是真的跟lxml差了好多倍
我感觉xpath可以实现简化,因为你通过它抽取一个特定的元素只需要一个字符创(此处也许有人说bs的select也可以实现啊),但是事实上bs对css selector支持的并不是特别好,而且抛开效率不谈,xpath功能很丰富啊,还有很多函数以及操作符可以使用,如果你认真学习它的话,文末我也会附上教程链接。
我写的代码实在是渣,写代码量太少了。
可以优化的点,爬虫结构的抽象,异常机制的使用,!!日志的使用。
参考链接:
- XPATH教程
- Python HTML Parser Performance
- High-performance XML parsing in Python with lxml
- sqlite3 tutorials
- sqlite3 tutorials
代码链接:
爬取结果:
链接:excel文件 密码:c7wt
原定计划是后续处理每一个歌名在网易云里面通过API插曲评论数目,以评论数目作为关键字排序,然后创建一个歌单。
哇哇~~想想还是蛮有意思的@_@
最后,祝大家新的一年,学到更多的知识。