python bs4

复制代码
# -*- coding: UTF-8 -*-
#爬虫

import urllib2
#import bs4
import re
import sys
from bs4 import BeautifulSoup
# import time
reload(sys)
sys.setdefaultencoding("utf-8")


#html=urllib2.urlopen("http://121.196.21.238/report.html")
#html=urllib2.urlopen("http://image.baidu.com/")

with open("report.html") as f:
    content = f.read()

bsObj = BeautifulSoup(content,features='html.parser')

print bsObj.prettify()

#打印title
# print bsObj.title

# #<a href="http://baijiahao.baidu.com/s?id=1665731690282269956" target="_blank" mon="p=1&amp;a=1&amp;pn=1">G15沈海高速轿车起火 现场火光冲天</a>
# titlist  = bsObj.findAll("a", {"target":"_blank"})


# #下面这两个功能是一样的
# bsObj.findAll(id="text")
# bsObj.findAll("", {"id":"text"})

# for x in titlist:
#     print x.get_text()

# #http://t8.baidu.com/it/u=3571592872,3353494284&fm=79&app=86&size=h300&n=0&g=4n&f=jpeg?sec=1589296136&t=e713d1fe058c0dcb1714f9bc0fd4ee92

# titlist  = bsObj.find("table",{"id":"result_table"}).tr.next_siblings

# for i in titlist:
#     print i

list = bsObj.findAll(class="testcase")

for i in  list:
    print i
复制代码

 

posted on   思此狂  阅读(133)  评论(0编辑  收藏  举报

编辑推荐:
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· Vue3状态管理终极指南:Pinia保姆级教程

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示