随笔- 192 文章- 0 评论- 1 阅读- 15128

python编程-数据爬取2

今天进行数据爬取的几个练习

1、简易网页采集器

复制代码

import requests
if __name__ == '__main__':
#UA检测
    #UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36 SLBrowser/9.0.0.10191 SLBChan/103'
    }
    url='https://www.sogou.com/web'
    kw=input('输入字段')
    param = {
        'query':kw
    }
    response=requests.get(url=url,params=param,headers=headers)
    page_text =response.text
    fileName =kw+'.html'
    with open(fileName, 'w', encoding='utf-8') as fp:
        fp.write(page_text)
    print('爬取数据完成')

复制代码

显示效果

posted @ 2024-01-12 23:13 伽澄阅读(13) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

相关博文：

· python编程数据爬取3

· python编程-数据爬取request

· python学习2

· 数据爬取关键字——UA伪装

· python爬虫学习（二）：requests模块网页采集器--get请求

阅读排行：
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布：重大改进与新特性概览！
· .NET10 - 预览版1新功能体验（一）

公告

昵称：伽澄
园龄： 2年11个月
粉丝： 15
关注： 9

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

合集

软件设计(14)

随笔分类

随笔档案

阅读排行榜

推荐排行榜

1. Spark基础实验五——Spark SQL编程初级实践(1)

AI FOR CODE 大赛