0x01 场景
比如编写扫描器时,需要验证某个POC或者复现某个漏洞,但环境受限于企业版、不公开源码等原因无法搭建,目标漏洞在搜索引擎内又大部分已修复,这里搜索引擎使用Fofa,使用API获取会有大量冗余的问题,因为API获取的url貌似都是固定的,我获取多少数量的url,前面的都一样,导致我认为这些url存在漏洞的可能性较低,所以我需要搜索引擎靠后位置的一些目标URL来学习,可能靠后位置的url我验证100个就可以找到所需要的,而靠前位置的我需要验证1000个才能找到需要的
0x02 思路
- 1.加工自某位师傅(感谢)的脚本,忘记在哪看到的了 0.0! , 完善了一个bug,Fofa的某些搜索结果的url存在有小锁链和没有的情况(就是URL旁边点击后直接访问目标的小锁链),这时的标签是不同的,所以需要特别处理
- 2.获得URL是使用python的PyQuery模块加工网页源代码,获取标签内容
PyQuery模块用到的语法 from pyquery import PyQuery as pq #导入PyQuery模块 req = requests.get(url=url,headers=headers,cookies=cookies) doc=pq(req.text) #将获得的源代码进行标签化 doc('div.results_content .list_mod_t').items() #针对多个标签时,获得的标签集合在一起,后续获得标签内容为遍历集合后获得 relDoc('.ip-no-url').text() #针对1个标签时,获得标签的class为ip-no-url的标签内容 doc.find('a').eq(0).attr.href #查找标签下的a标签并获得href属性内容
- 3.获得总页数是使用正则提取的PyQuery处理过的标签内容(看到这的师傅,推荐去简单了解一下python的这个pq库或者那个beautifulsoup库,对以后获取自己需要的信息会有帮助,有思路的时候就会有想法嘛,对吧~)
pattern = re.compile(u'获得 (.*?) 条匹配结果') #使用(.*?)大法,强迫症师傅饶我一命~ result = re.findall(pattern,page) result = result[0].replace(',','')
- 4.然后根据实际情况来输入从哪页开始,共获得多少页,最后加工一下交互就完成了,代码简单,能解决我的小需求就好 -.- 。
startPage = input("[+ 搜索结果共有{}页,请输入从第几页开始收集地址(例:5):".format(allPage)) page = input("[+ 搜索结果共有{}页,请输入准备收集页数(例:20):".format(allPage))
- 5.顺带说下Fofa开个普通会员蛮实用的(界面友好,交互友好),大不了就跟认识的朋友,同事,同学几个人或者这个帖子评论区找找有没有想买的一起买,毕竟账号没那么多登录限制的
0x03 使用
- Usage: python3 X-Fofa.py 'app="CouchDB"' CouchDB 94bbbb177c4a564feddb8c7d413d5d61
- Usage: python3 X-Fofa.py Fofa搜索语法 搜索结果文件名 Fofa的Cookie的_fofapro_ars_session值
- 按照需求输入 从哪页开始 和 获取多少页数 即可
- 获得_fofapro_ars_session值
0x04 源码
1 #!/usr/bin/python3 2 3 import requests,time,random,os,re,sys,base64,urllib.parse 4 from pyquery import PyQuery as pq 5 6 banner = ''' 7 __ __ ______ __ 8 \ \ / / | ____| / _| 9 \ V / ______ | |__ ___ | |_ __ _ 10 > < |______| | __| / _ \ | _| / _` | 11 / . \ | | | (_) | | | | (_| | 12 /_/ \_\ |_| \___/ |_| \__,_| 13 14 by 斯文 15 ''' 16 17 def usera(): 18 #user_agent 集合 19 user_agent_list = [ 20 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ' 21 'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3', 22 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50', 23 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50', 24 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)', 25 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)', 26 'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1', 27 'Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11', 28 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11', 29 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)', 30 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0', 31 'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1', 32 ] 33 #随机选择一个 34 user_agent = random.choice(user_agent_list) 35 #传递给header 36 headers = { 'User-Agent': user_agent } 37 return headers 38 39 def getPage(cookie,search): 40 41 url='https://classic.fofa.so/result?page=1&qbase64={}'.format(search) 42 cookies = {'_fofapro_ars_session':cookie} 43 req = requests.get(url=url,headers=usera(),cookies=cookies) 44 pageHtml = pq(req.text) 45 page = (pageHtml('div.list_jg')).text() 46 # page = page.find('') 47 48 pattern = re.compile(u'获得 (.*?) 条匹配结果') 49 result = re.findall(pattern,page) 50 result = result[0].replace(',','') 51 52 if (int(result) % 10) >0: 53 allPage = int(result) // 10 + 1 54 else: 55 allPage = int(result) // 10 56 57 return allPage 58 59 def start(search,file,cookie): 60 61 search=search.encode(encoding="utf-8") 62 search=base64.b64encode(search).decode() 63 search=urllib.parse.quote(search) 64 # if os.path.exists("result.txt"): #删除存在的文件 65 # os.remove("result.txt") 66 # cookie = input("请输入Fofa的Cookie的_fofapro_ars_session值:") 67 allPage = getPage(cookie,search) 68 print(banner) 69 startPage = input("[+ 搜索结果共有{}页,请输入从第几页开始收集地址(例:5):".format(allPage)) 70 page = input("[+ 搜索结果共有{}页,请输入准备收集页数(例:20):".format(allPage)) 71 endPage = int(startPage) + int(page) 72 73 cookies={'_fofapro_ars_session':cookie}#这里是你的fofa账号登录后的cookie值 74 url='https://fofa.so/result?qbase64={}'.format(search) 75 # doc=pq(url) 76 print("[+ 正在向{}.txt文件写入结果".format(file)) 77 with open('%s.txt'%file,'a+',encoding='utf-8') as f: 78 for i in range(int(startPage),endPage): 79 url='https://classic.fofa.so/result?page={}&qbase64={}'.format(i,search) 80 req = requests.get(url=url,headers=usera(),cookies=cookies) 81 if '游客使用高级语法' in req.text: 82 print('[- Cookie已失效,请重新填写https://classic.fofa.so的Cookie,不是https://fofa.so的Cookie') 83 break 84 print("[+ 正在读取第{}页 状态码:{}".format(i,req.status_code)) 85 doc=pq(req.text) 86 87 url=doc('div.results_content .list_mod_t').items() 88 title=doc('div.list_mod_c ul').items() 89 90 for u,t in zip(url,title): 91 t.find('i').remove() 92 relUrl = u.find('a').eq(0).attr.href 93 relTitle = t.find('li').eq(0).text() 94 95 if 'result?qbase64=' in relUrl: 96 relDoc = pq(u) 97 relIp = relDoc('.ip-no-url').text() 98 relPort = (relDoc('.span')).find('a').eq(0).text() 99 relUrl = 'http://{}:{}'.format(str(relIp),relPort) 100 if relTitle == '': 101 relTitle = '空' 102 print("Url: %s Title: %s"%(relUrl, relTitle)) 103 f.write("%s\n"%(relUrl)) 104 f.flush() 105 106 time.sleep(3) 107 108 109 if __name__ == '__main__': 110 if len(sys.argv)==1: 111 print(banner) 112 print('''Usage:请输入参数\n例如:python X-Fofa.py 'app="Solr"' Solr 94bbbb177c4a564feddb8c7d413d5d61\n例如:python FofaCrawler.py 'app="Solr"'(Fofa搜索语法) Solr(搜索结果文件名) 94bbbb177c4a564feddb8c7d413d5d61(Fofa的Cookie的_fofapro_ars_session值)''') 113 sys.exit(0) 114 115 search=sys.argv[1] 116 file=sys.argv[2] 117 cookie = sys.argv[3] 118 start(search,file,cookie)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· 三行代码完成国际化适配,妙~啊~
· .NET Core 中如何实现缓存的预热?
· 如何调用 DeepSeek 的自然语言处理 API 接口并集成到在线客服系统