Python简单爬虫获取岗位招聘人数
#encoding=utf-8 import selenium import selenium.webdriver import re import time # pip install selenium # 需要下载火狐浏览器的 webdriver 驱动放到 d:/python27目录下,即python的安装目录 def getnumberbyname(searchname): url = "https://search.51job.com/list/040000,000000,0000,00,9,99," + searchname + ",2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=" # 模拟打开网页 driver = selenium.webdriver.Firefox() driver.get(url) pagesource = driver.page_source # 打印抓取网页 # print pagesource restr = """<div class="rt">([\s\S]*?)</div>""" # restr = '<div class="rt">(\\d+)</div>' regex = re.compile(restr, re.IGNORECASE) mylist = regex.findall(pagesource) # 去掉空格 newstr = mylist[0].strip() # print newstr # 再次匹配抓取的数据 restr2="""(\\d+)""" regex2 = re.compile(restr2, re.IGNORECASE) mylist = regex2.findall(newstr) driver.close() # print mylist[0] return mylist[0] jobs = ['python', 'python 数据', 'python 运维', 'python web', 'linux 运维'] for work_name in jobs: print work_name, getnumberbyname(work_name)
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律