Python多线程采集百度相关搜索关键词
百度相关搜索关键词抓取,读取txt关键词,导出txt关键词
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 | #百度相关搜索关键词抓取,读取txt关键词,导出txt关键词 # -*- coding=utf-8 -*- import requests import re import time from multiprocessing.dummy import Pool as ThreadPool #百度相关关键词查询 def xgss(url): headers = { "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36" } html = requests.get(url,headers = headers).text #print(html) ze = r '<div id="rs"><div class="tt">相关搜索</div><table cellpadding="0">(.+?)</table></div>' xgss = re.findall(ze,html,re.S) #print(xgss) xgze = r '<th><a href="(.+?)">(.+?)</a></th>' sj = re.findall(xgze, str (xgss),re.S) #print(sj) gjc = '' for x in sj: print (x[ 1 ]) gjc = gjc + x[ 1 ] + '\n' # 导出关键词为txt文本 with open ( ".\gjcsj.txt" , 'a' , encoding = 'utf-8' ) as f: f.write(gjc) print ( "-----------------------------------" ) return gjc print ( "程序运行,正在导入关键词列表!!!" ) print ( "-----------------------------------" ) # 导入要搜索的关键词txt列表 urls = [] data = [] for line in open ( '.\gjc.txt' , "r" , encoding = 'utf-8' ): data.append(line) print ( "导入关键词列表成功!" ) print ( "-----------------------------------" ) #转换关键词为搜索链接 for keyword in data: url = 'https://www.baidu.com/s?wd=' + keyword urls.append(url) print ( "采集百度相关搜索关键词开启!" ) print ( "..................." ) #多线程获取相关关键词 try : # 开4个 worker,没有参数时默认是 cpu 的核心数 pool = ThreadPool() results = pool. map (xgss, urls) pool.close() pool.join() print ( "采集百度相关搜索关键词完成,已保存于gjcsj.txt!" ) except : print ( "Error: unable to start thread" ) print ( "8s后程序自动关闭!!!" ) time.sleep( 8 ) |
千行代码,Bug何处藏。 纵使上线又怎样,朝令改,夕断肠。
分类:
Python开发笔记
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具
2018-10-12 正确robots写法,解决百度搜索不显示缩略图问题