Bob__Zhang - 博客园

2018年3月10日

摘要： import re pattern = re.compile(r'\d+') s = pattern.search('hello 123456 789') print(s.group()) s = pattern.findall('hello 13456 789') print(s) # str = 'I love You!' # def daoxuprint(str): # ... 阅读全文

posted @ 2018-03-10 21:40 Bob__Zhang 阅读(119) 评论(0) 推荐(0) 编辑

正则search与match的区别

摘要： import re # #1.search和match的区别 # pattern = re.compile(r'\d+') # #match从头开始匹配 # m = pattern.match('onetwo12threefour34',6) # print(m) # #(在指定范围内查找默认全局) 查找只查一次后面的8是从位置8开始只查一次 # s = pattern.search('... 阅读全文

posted @ 2018-03-10 21:39 Bob__Zhang 阅读(1977) 评论(0) 推荐(0) 编辑

还是正则基础

摘要： import re #步骤1:生成pattern对象 # pattern = re.compile(r'\d+')#表示匹配一个或者多个数字 #步骤2: # m = pattern.match('one1two2 ten10')#从头匹配 match括号里面是要匹配的对象 # print(m) #None --没有数字头 # m = pattern.match('1one1') # pri... 阅读全文

posted @ 2018-03-10 21:38 Bob__Zhang 阅读(102) 评论(0) 推荐(0) 编辑

正则基础

摘要： import re #\b元字符代表单词开头或者结尾也就是单词的分界处不代表标点符号,空格,换行符 # pattern = re.compile(r'\bwe\b') # s = pattern.findall('we We well welcome') # print(s) #匹配we和work之间的所有内容用到元字符 # . 匹配除了换行符的任意字符 # * 含义是 * 前... 阅读全文

posted @ 2018-03-10 21:37 Bob__Zhang 阅读(147) 评论(0) 推荐(0) 编辑

继续爬豆瓣电影

摘要： #将都把电影排行榜中的所有类型的前十部,保存到文件中 from urllib import request,parse import json # base_url = "https://movie.douban.com/j/chart/top_list?" # data = { # 11:'剧情',24:'喜剧',5:'动作',13:'爱情',17:'科幻',25:'动画', # ... 阅读全文

posted @ 2018-03-10 21:36 Bob__Zhang 阅读(168) 评论(0) 推荐(0) 编辑

爬取豆瓣各类电影前十名

摘要： ''' Request URL:https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=20&limit=20 type:11 interval_id:100:90 action: start:20 limit:20 ''' from urllib import request i... 阅读全文

posted @ 2018-03-10 21:35 Bob__Zhang 阅读(618) 评论(0) 推荐(0) 编辑

爬取有道翻译

摘要： ''' j---Request URL:http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule jo--Request URL:http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule job-Request URL:http://... 阅读全文

posted @ 2018-03-10 21:33 Bob__Zhang 阅读(1355) 评论(0) 推荐(0) 编辑

爬取开心网

摘要： #注册一个开心网的账号,并且爬取主页内容 from urllib import request,parse from http import cookiejar import ssl ssl._create_default_https_context = ssl._create_unverified_context #request.urlopen()#并不能够保存cookie #(一)定义请... 阅读全文

posted @ 2018-03-10 21:31 Bob__Zhang 阅读(212) 评论(0) 推荐(0) 编辑

ss证书问题

摘要： #SSL--校验网站证书 #一、什么是SSL证书 from urllib import request #ssl免验证 import ssl ssl._create_default_https_context = ssl._create_unverified_context base_url = "https://www.csls.cdb.com.cn/" response = req... 阅读全文

posted @ 2018-03-10 21:26 Bob__Zhang 阅读(150) 评论(0) 推荐(0) 编辑

换个方式爬取人人网

摘要： from urllib import request from urllib import parse,request #在python当中使用用户名和密码进行登录，然后保存cookie from http import cookiejar cookie = cookiejar.CookieJar() #生成cookie对象 cookie_handler = request.HTTPCook... 阅读全文

posted @ 2018-03-10 21:25 Bob__Zhang 阅读(165) 评论(0) 推荐(0) 编辑

白桦林

公告