Fofa会员的爬虫版工具 - websec80

公告

0x01 场景

比如编写扫描器时，需要验证某个POC或者复现某个漏洞，但环境受限于企业版、不公开源码等原因无法搭建，目标漏洞在搜索引擎内又大部分已修复，这里搜索引擎使用Fofa,使用API获取会有大量冗余的问题，因为API获取的url貌似都是固定的，我获取多少数量的url，前面的都一样，导致我认为这些url存在漏洞的可能性较低，所以我需要搜索引擎靠后位置的一些目标URL来学习，可能靠后位置的url我验证100个就可以找到所需要的，而靠前位置的我需要验证1000个才能找到需要的

0x02 思路

1.加工自某位师傅(感谢)的脚本，忘记在哪看到的了 0.0! , 完善了一个bug，Fofa的某些搜索结果的url存在有小锁链和没有的情况(就是URL旁边点击后直接访问目标的小锁链)，这时的标签是不同的，所以需要特别处理

2.获得URL是使用python的PyQuery模块加工网页源代码，获取标签内容

PyQuery模块用到的语法
from pyquery import PyQuery as pq  #导入PyQuery模块
req = requests.get(url=url,headers=headers,cookies=cookies)
doc=pq(req.text)   #将获得的源代码进行标签化
doc('div.results_content .list_mod_t').items()  #针对多个标签时，获得的标签集合在一起，后续获得标签内容为遍历集合后获得
relDoc('.ip-no-url').text() #针对1个标签时，获得标签的class为ip-no-url的标签内容
doc.find('a').eq(0).attr.href  #查找标签下的a标签并获得href属性内容

3.获得总页数是使用正则提取的PyQuery处理过的标签内容（看到这的师傅，推荐去简单了解一下python的这个pq库或者那个beautifulsoup库，对以后获取自己需要的信息会有帮助，有思路的时候就会有想法嘛，对吧~）
```
pattern = re.compile(u'获得 (.*?) 条匹配结果')  #使用(.*?)大法，强迫症师傅饶我一命~
result  = re.findall(pattern,page)
result  = result[0].replace(',','')
```

4.然后根据实际情况来输入从哪页开始，共获得多少页,最后加工一下交互就完成了,代码简单，能解决我的小需求就好 -.- 。

startPage = input("[+ 搜索结果共有{}页，请输入从第几页开始收集地址(例:5):".format(allPage))
page      = input("[+ 搜索结果共有{}页，请输入准备收集页数(例:20):".format(allPage))

5.顺带说下Fofa开个普通会员蛮实用的(界面友好，交互友好)，大不了就跟认识的朋友，同事，同学几个人或者这个帖子评论区找找有没有想买的一起买，毕竟账号没那么多登录限制的

0x03 使用

Usage: python3 X-Fofa.py 'app="CouchDB"' CouchDB 94bbbb177c4a564feddb8c7d413d5d61
Usage: python3 X-Fofa.py Fofa搜索语法搜索结果文件名 Fofa的Cookie的_fofapro_ars_session值
按照需求输入从哪页开始和获取多少页数即可
获得_fofapro_ars_session值

0x04 源码

Github: https://github.com/sv3nbeast/X-Fofa

  1 #!/usr/bin/python3
  2 
  3 import requests,time,random,os,re,sys,base64,urllib.parse
  4 from pyquery import PyQuery as pq
  5 
  6 banner = '''
  7  __   __           ______            __         
  8  \ \ / /          |  ____|          / _|        
  9   \ V /   ______  | |__      ___   | |_    __ _ 
 10    > <   |______| |  __|    / _ \  |  _|  / _` |
 11   / . \           | |      | (_) | | |   | (_| |
 12  /_/ \_\          |_|       \___/  |_|    \__,_|
 13 
 14                                 by 斯文
 15 '''
 16 
 17 def usera():
 18     #user_agent 集合
 19     user_agent_list = [
 20      'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
 21       'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
 22      'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
 23      'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
 24      'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)',
 25      'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)',
 26      'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
 27      'Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11',
 28      'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11',
 29      'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)',
 30      'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0',
 31      'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
 32     ]
 33     #随机选择一个
 34     user_agent = random.choice(user_agent_list)
 35     #传递给header
 36     headers = { 'User-Agent': user_agent }
 37     return headers
 38 
 39 def getPage(cookie,search):
 40 
 41     url='https://classic.fofa.so/result?page=1&qbase64={}'.format(search)
 42     cookies = {'_fofapro_ars_session':cookie}
 43     req = requests.get(url=url,headers=usera(),cookies=cookies)
 44     pageHtml = pq(req.text)
 45     page = (pageHtml('div.list_jg')).text()
 46     # page = page.find('')
 47 
 48     pattern = re.compile(u'获得 (.*?) 条匹配结果')
 49     result  = re.findall(pattern,page)
 50     result  = result[0].replace(',','')
 51 
 52     if (int(result) % 10) >0:
 53         allPage = int(result) // 10 + 1
 54     else:
 55         allPage = int(result) // 10
 56 
 57     return allPage
 58 
 59 def start(search,file,cookie):
 60 
 61     search=search.encode(encoding="utf-8")
 62     search=base64.b64encode(search).decode()
 63     search=urllib.parse.quote(search)
 64     # if os.path.exists("result.txt"): #删除存在的文件
 65         # os.remove("result.txt")
 66     # cookie = input("请输入Fofa的Cookie的_fofapro_ars_session值:")
 67     allPage = getPage(cookie,search)
 68     print(banner)
 69     startPage = input("[+ 搜索结果共有{}页，请输入从第几页开始收集地址(例:5):".format(allPage))
 70     page      = input("[+ 搜索结果共有{}页，请输入准备收集页数(例:20):".format(allPage))
 71     endPage   = int(startPage) + int(page)
 72 
 73     cookies={'_fofapro_ars_session':cookie}#这里是你的fofa账号登录后的cookie值
 74     url='https://fofa.so/result?qbase64={}'.format(search)
 75     # doc=pq(url)
 76     print("[+ 正在向{}.txt文件写入结果".format(file))
 77     with open('%s.txt'%file,'a+',encoding='utf-8') as f:
 78         for i in range(int(startPage),endPage):
 79             url='https://classic.fofa.so/result?page={}&qbase64={}'.format(i,search)
 80             req = requests.get(url=url,headers=usera(),cookies=cookies)
 81             if '游客使用高级语法' in req.text:
 82                 print('[- Cookie已失效，请重新填写https://classic.fofa.so的Cookie,不是https://fofa.so的Cookie')
 83                 break
 84             print("[+ 正在读取第{}页   状态码:{}".format(i,req.status_code))
 85             doc=pq(req.text)
 86 
 87             url=doc('div.results_content .list_mod_t').items()
 88             title=doc('div.list_mod_c ul').items()
 89 
 90             for u,t in zip(url,title):
 91                 t.find('i').remove()
 92                 relUrl   = u.find('a').eq(0).attr.href
 93                 relTitle = t.find('li').eq(0).text()
 94 
 95                 if 'result?qbase64=' in relUrl:
 96                     relDoc  = pq(u)
 97                     relIp   = relDoc('.ip-no-url').text()
 98                     relPort = (relDoc('.span')).find('a').eq(0).text()
 99                     relUrl  = 'http://{}:{}'.format(str(relIp),relPort)
100                 if relTitle == '':
101                     relTitle = '空'
102                 print("Url: %s  Title: %s"%(relUrl, relTitle))
103                 f.write("%s\n"%(relUrl))
104                 f.flush()
105 
106             time.sleep(3)
107 
108 
109 if __name__ == '__main__':
110     if len(sys.argv)==1:
111         print(banner)
112         print('''Usage:请输入参数\n例如:python X-Fofa.py 'app="Solr"' Solr  94bbbb177c4a564feddb8c7d413d5d61\n例如:python FofaCrawler.py 'app="Solr"'(Fofa搜索语法) Solr(搜索结果文件名)  94bbbb177c4a564feddb8c7d413d5d61(Fofa的Cookie的_fofapro_ars_session值)''')
113         sys.exit(0)
114 
115     search=sys.argv[1]
116     file=sys.argv[2]
117     cookie = sys.argv[3]
118     start(search,file,cookie)

posted on 2021-02-27 01:16 websec80 阅读(1243) 评论(0) 收藏举报

刷新页面返回顶部