学习selenium

复制代码

import requests
import bs4
from selenium.webdriver.common.by import By
import pandas as pd
driverPath = "C:\Program Files (x86)\Microsoft\Edge\Application\msedgedriver.exe"
url = 'https://so.gushiwen.cn/'
url2 = 'gushi/tangshi.aspx'

msg = requests.get(url=url + url2)
soup = bs4.BeautifulSoup(msg.text, "html.parser")

titles = soup.find_all(class_='typecont')

result = []
from selenium import webdriver
driver = webdriver.Edge(driverPath)

for title in titles:
    list_name = title.find_all('a')
    for item in list_name:
        driver.get(url + item['href'])

        a = driver.find_element(By.CLASS_NAME,'contson').text

        result.append((item.text,a))
driver.quit()

result = pd.DataFrame(result,columns=['诗名','诗词'])
print(result)

复制代码

有个唐诗三百首的爬取任务，而人家的是script动态加载，普通的request.get无法支持，因此引入selenium库，模拟浏览器访问，但是由于需要浏览器访问，大大增加了运行时间

posted @ 2024-03-20 19:48 子过杨梅阅读(9) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· python之简单页面爬取

· python之json抓取

· Selenium入门

· selenium打开百度

· bs4、selenium的使用

阅读排行：
· 25岁的心里话
· 基于 Docker 搭建 FRP 内网穿透开源项目（很简单哒）
· 闲置电脑爆改个人服务器（超详细） #公网映射 #Vmware虚拟网络编辑器
· 一起来玩mcp_server_sqlite，让AI帮你做增删改查！！
· 零经验选手，Compose 一天开发一款小游戏！

历史上的今天：
2023-03-20 为嘛没展示
2023-03-20 2023.3.20总结
2023-03-20 android stdio对于xml中列表的展示
2023-03-20 android stdio中闹钟的实现
2023-03-20 基于android stdio的sqlite增删改查

公告

昵称：子过杨梅
园龄： 2年8个月
粉丝： 4
关注： 2

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

1. java自动计算(王建民必考)(1)

最新评论

1. Re:Django中误删migrations无法创建表
大佬可以教教我Django么，你好厉害呀
--超爱彬宝同学
2. Re:哈夫曼树
又学了一下，发现写的屁都不是，他妈的，回来改改
--子过杨梅
3. Re:Java方法覆盖的语法规则
1.2，我实在不会写了
--子过杨梅
4. Re:哈夫曼树
哈弗码编码从跟开始左零右一，自上而下。
--子过杨梅