摘要:
本程序用于提取网页正文,将内容聚合到一个文件中。使用了多线程、锁、正则表达式、Beautiful Soup开源组件。抓下来的6300多个网页处理了大约五分钟。用了8个线程。代码如下: 1 #!/usr/bin/python 2 """ 3 parser 4 for parsing html file from leiphone.com and 36kr.com 5 author 6 xiaoyang 7 contact 8 hityixiaoyang@gmail.com 9 version 10 11 describe 12 pars... 阅读全文
posted @ 2012-11-24 18:06 晓彻 阅读(349) 评论(0) 推荐(0) 编辑