python爬虫1:第一个爬虫
1。python2、3的库名不同,如果版本不同记得改。
Python2.x 有这些库名可用: urllib
,urllib2
,urllib3
,httplib
,httplib2
,requests
Python3.x 有这些库名可用: urllib
,urllib3
,httplib2
,requests
2。第一个简单的爬虫,获取链家当日房源数量
1 #!/usr/bin/env python 2 # -*- coding: utf-8 -*- 3 # python3 4 from urllib import request 5 import re 6 import time; # 引入time模块 7 8 today_date = time.strftime("%Y-%m-%d", time.localtime()) 9 gotpagebyte = request.urlopen("https://sz.lianjia.com/ershoufang/").read() 10 #python2里是urllib2.urlopen;此处获取到的是bytes,需要解码: 11 gotpagestr = gotpagebyte.decode('utf-8') 12 today_count_sz = re.match('.*count: (.*?),.*',gotpagestr,re.M|re.I|re.S).group(1) 13 print (today_date,today_count_sz)
3.虚拟环境。直接用root身份安装包时,对所有用户和项目起作用,有可能不同项目需要的包版本不同会冲突。因此可以设置虚拟环境,在虚拟环境中安装的包相对独立。先要安装python3-virtualenv。
在需要建立虚拟环境的目录下,运行virtualenv scraping。vfat分区会出现错误,貌似只能设置在linux分区中。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!