爬虫基础_张三

1.爬虫入门程序

import cookielib

import urllib2

url = "http://www.baidu.com"

response1 = urllib2.urlopen(url)

2.爬虫程序添加data、header，然后post请求

import urllib

import urllib2

url = 'http://www.server.com/login'

user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

values = {'username' : 'cqc', 'password' : 'XXXX' }

headers = { 'User-Agent' : user_agent }

data = urllib.urlencode(values)

request = urllib2.Request(url, data, headers)

response = urllib2.urlopen(request)

page = response.read()

3.爬虫程序添加cookie

import cookielib

import urllib2

#设置保存cookie的文件，同级目录下的cookie.txt

filename = 'cookie.txt'

#声明一个MozillaCookieJar对象实例来保存cookie，之后写入文件

cookie = cookielib.MozillaCookieJar(filename)

#利用urllib2库的HTTPCookieProcessor对象来创建cookie处理器

handler = urllib2.HTTPCookieProcessor(cookie)

#通过handler来构建opener

opener = urllib2.build_opener(handler)

4.正则表达式

import re

# 将正则表达式编译成Pattern对象

pattern = re.compile(r'xxxxx')

paxg=re.match(patter,"xxxx")

print(paxg)

posted @ 2022-03-13 16:06 三重丶刘德华阅读(30) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 爬虫_scrapy案例

· 爬虫_numpy

· 爬虫基础_谭希成

· python爬虫基础之requests

· 爬虫案例_刘益长

阅读排行：
· 震惊！C++程序真的从main开始吗？99%的程序员都答错了
· winform 绘制太阳，地球，月球运作规律
· 【硬核科普】Trae如何「偷看」你的代码？零基础破解AI编程运行原理
· 上周热点回顾（3.3-3.9）
· 超详细：普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人

公告

昵称：三重丶刘德华
园龄： 3年
粉丝： 4
关注： 3

+加关注

2025年3月

日

一

二

三

四

五

六

爬虫基础_张三

公告

搜索

常用链接

随笔档案

阅读排行榜

推荐排行榜