python学习之——利用urllib2抓取网页内容

简单的抓取程序

#!/usr/bin/env python
#-*- coding:utf-8 -*-
import sys
import urllib2
wp = urllib2.urlopen('http://lvyou.baidu.com')
content = wp.read()

fp = open('index.html','w')
fp.write(content)
fp.close()

通过抓取的内容可以进行内容的提取。这个还需要学习

posted @ 2013-05-24 10:17 城池阅读(197) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语，封装的思维：从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热？
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列：向量存储与相似性搜索在 .NET 中的实现

阅读排行：
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· .NET周刊【3月第1期 2025-03-02】
· [AI/GPT/综述] AI Agent的设计模式综述
· 分享 3 个 .NET 开源的文件压缩处理库，助力快速实现文件压缩解压功能！

公告

昵称：城池
园龄： 14年4个月
粉丝： 47
关注： 9

<

2013年5月

>

日

一

二

三

四

五

六

28

29

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

6

7

8

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:自从用了Less 编写css，你比以前更快了~
落伍了，现在才开始学。谢谢啦。
--于为源
2. Re:自从用了Less 编写css，你比以前更快了~
如果不想即使编译怎么办呢？
--tinyphp
3. Re:我是如何基于angular+requirejs+node做SPA项目架构的
请问simple-form如何使用啊
--勐萌
4. Re:gzip压缩
mark
--钻葛格
5. Re:angularjs源码分析之：angularjs执行流程
看不懂耶
--高尔础础