Bob__Zhang - 博客园

2018年3月10日

摘要： from urllib import request #(1) base_url = "http://www.renren.com/310303067/profile" headers = { "cookie":"anonymid=jcfxyb8b3a1gal; _r01_=1; ln_uact=liulidong@tju.edu.cn; ln_hurl=http://hdn.xni... 阅读全文

posted @ 2018-03-10 21:24 Bob__Zhang 阅读(370) 评论(0) 推荐(0) 编辑

伪造请求头向url传递参数爬取百度默认翻译

摘要： from urllib import request,parse import json # 翻译函数 def fanyi(msg): #参数封装 data = { "kw": content } #参数拼接以及转码 data = parse.urlencode(data) #请求地址 base_url = "htt... 阅读全文

posted @ 2018-03-10 21:23 Bob__Zhang 阅读(566) 评论(0) 推荐(0) 编辑

爬取百度贴吧

摘要： #批量爬取贴吧页面数据 #第1页： https://tieba.baidu.com/f?kw=%E6%97%85%E8%A1%8C%E9%9D%92%E8%9B%99&ie=utf-8&pn=0 #第2页：https://tieba.baidu.com/f?kw=%E6%97%85%E8%A1%8C%E9%9D%92%E8%9B%99&ie=utf-8&pn=50 #第3页 https://ti... 阅读全文

posted @ 2018-03-10 21:22 Bob__Zhang 阅读(280) 评论(0) 推荐(0) 编辑

urllib爬取实例

摘要： #汉字转码、多个参数拼接 from urllib import request base_url = "http://www.baidu.com/s?" content = input("请输入你要搜索的内容：") qs = { "wd":content, "rsv_sp":1 } #将汉字转成unicode码 from urllib import parse qs =... 阅读全文

posted @ 2018-03-10 21:19 Bob__Zhang 阅读(102) 评论(0) 推荐(0) 编辑

判断是否是正常浏览器访问

摘要： ''' 作业2：判断user-agent,判断是否是正常浏览器访问 ''' from urllib import request base_url = "http://www.langlang2017.com" headers = { "connnction":"keep-alive", "USer_Agent":"mozilla/5.0 (Windows nt 6.1; ... 阅读全文

posted @ 2018-03-10 21:16 Bob__Zhang 阅读(583) 评论(0) 推荐(0) 编辑

urllib库爬取实例

摘要： from urllib import request import random def spider(url): user_agent_list = [ "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.... 阅读全文

posted @ 2018-03-10 21:14 Bob__Zhang 阅读(134) 评论(0) 推荐(0) 编辑

带有headers的urllib库爬取

摘要： #请求头 #1、引入模块 from urllib import request #2、操作 #(1)定义目标url base_url = "http://www.langlang2017.com/index.html" #请求头部---request headers headers = { "Accept":"text/html,application/xhtml+xml,a... 阅读全文

posted @ 2018-03-10 21:12 Bob__Zhang 阅读(159) 评论(0) 推荐(0) 编辑

urllib库的使用

摘要： #使用urllib库，将langlang2017全站网页请求并保存 #1、引入模块 from urllib import request from urllib import error #2、操作 #（1）创建url base_url = "http://www.langlang2017.com/route.html" try: # （2）请求url reponse =... 阅读全文

posted @ 2018-03-10 21:10 Bob__Zhang 阅读(152) 评论(0) 推荐(0) 编辑

urllib库的基本使用

摘要： #urllib库的基本使用 ''' 1、网页抓取就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。 python2:urllib2 python3:urllib.request ''' #1、引入模块 from urllib import request #2、操作 #(1)定义目标url base_url = "http://www.langlang2017.com/in... 阅读全文

posted @ 2018-03-10 21:07 Bob__Zhang 阅读(161) 评论(0) 推荐(0) 编辑

2017年12月17日

HTML表单实例

摘要： 1 HTML表单 2 3 表单用于搜集不同类型的用户输入，表单由不同类型的标签组成，实现一个特定功能的表单区域（比如：注册）， 4 5 首先应该用标签来定义表单区域整体，在此标签中再使用不同的表单控件来实现不同类型的信息输入， 6 7 具体实现及注释可参照以下伪代码： 8 9 10 11 12 13 14 ... 阅读全文

posted @ 2017-12-17 22:06 Bob__Zhang 阅读(13192) 评论(0) 推荐(0) 编辑

白桦林

公告