python bs4
# -*- coding: UTF-8 -*- #爬虫 import urllib2 #import bs4 import re import sys from bs4 import BeautifulSoup # import time reload(sys) sys.setdefaultencoding("utf-8") #html=urllib2.urlopen("http://121.196.21.238/report.html") #html=urllib2.urlopen("http://image.baidu.com/") with open("report.html") as f: content = f.read() bsObj = BeautifulSoup(content,features='html.parser') print bsObj.prettify() #打印title # print bsObj.title # #<a href="http://baijiahao.baidu.com/s?id=1665731690282269956" target="_blank" mon="p=1&a=1&pn=1">G15沈海高速轿车起火 现场火光冲天</a> # titlist = bsObj.findAll("a", {"target":"_blank"}) # #下面这两个功能是一样的 # bsObj.findAll(id="text") # bsObj.findAll("", {"id":"text"}) # for x in titlist: # print x.get_text() # #http://t8.baidu.com/it/u=3571592872,3353494284&fm=79&app=86&size=h300&n=0&g=4n&f=jpeg?sec=1589296136&t=e713d1fe058c0dcb1714f9bc0fd4ee92 # titlist = bsObj.find("table",{"id":"result_table"}).tr.next_siblings # for i in titlist: # print i list = bsObj.findAll(class="testcase") for i in list: print i
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· Vue3状态管理终极指南:Pinia保姆级教程