[python脚本]爬blackhat官网的paper

都知道blackhat上的人很牛X，自己参加不了，也只能找点人家的paper看看了。

反正没有找到有集中打包下载的地方。都是这样的https://www.blackhat.com/html/bh-eu-12/bh-eu-12-archives.html要想下载就要一个个点好麻烦。所以写个虫子，让它自己爬。没啥技术含量，直接在[python脚本]一个简单的web爬虫（1）这个上面改的·····想看paper的，自己爬吧。爬完后直接复制到迅雷下载就ok了。

eg：

　　python spider.py -u https://www.blackhat.com/html/bh-eu-12/bh-eu-12-#-------coding:utf-8-------

#-------author:Scr@t-------
#----filename:spider.py----



import sys
import urllib2
import re
import HTMLParser
 
class myparser(HTMLParser.HTMLParser):
    def __init__(self):
        HTMLParser.HTMLParser.__init__(self)
    def handle_starttag(self,tag,attrs):
      if (tag == 'a'):
           URL = ''
        for name,value in attrs:
          if (name == 'href'):
　　　　　　　for xx in ['pdf','ppt','pptx','zip','rar']:
　　　　　　　　val = value.find(xx)#所要下载的文件类型--------这个地方有问题啊，为什么只匹配pdf,后面的不匹配呢，请大神指点下
            　if val != -1:
                fp.write(value + '\n')
#下面是爬sebug上的paper时，用的
#                URL = value[2:]
#                fp.write(sys.argv[2] + URL + '\n')                             
if sys.argv[1] == '-u':
  content = (urllib2.urlopen(sys.argv[2])).read()#打开网址并读取内容
  fp = open("URL.list",'w')  
  con = myparser()
  con.feed(content)#把content的内容，传给myparser分析
else:
  print 'Usage:%s -u url'%sys.argv[0]

posted @ 2012-11-03 12:14 xss 阅读(955) 评论(1) 编辑收藏举报

刷新页面返回顶部

xss

[python脚本]爬blackhat官网的paper

公告