摘要: import re #\. 是刚需必须有 d+ 必须一个或多个数字 pattern = re.compile(r'\d+\.\d*') d = pattern.finditer('3.141592653 PI 100 10001.11 3. .8 0.9') print(d) for item in d: print(item) 阅读全文
posted @ 2018-03-10 21:49 Bob__Zhang 阅读(265) 评论(0) 推荐(0) 编辑
摘要: import re title = 'hello, 你好,world' print(title) title = u'hello, 你好,world' print(title) #汉字匹配 +的意思是找到一个汉字 继续找直到找完 然后统一打印出来 #如果没有+号 则一个汉字一个汉字打印出来 pattern = re.compile(u'[\u4e00-\u9fa5]+') s = pat... 阅读全文
posted @ 2018-03-10 21:44 Bob__Zhang 阅读(114) 评论(0) 推荐(0) 编辑
摘要: import re #\s 空格 +号表示至少出现一次 # path = 'C:\\Users\\cz\Desktop\py06\\PY6_Day01\\爬虫作业\\2018_03_07\\05_split.py' #前面加r表示元字符 path = r'C:\Users\cz\Desktop\py06\PY6_Day01\爬虫作业\2018_03_07\05_split.py' #用\做... 阅读全文
posted @ 2018-03-10 21:42 Bob__Zhang 阅读(200) 评论(0) 推荐(0) 编辑
摘要: import re # unicode 编码匹配范围[u4e00-u9fa5] pattern = re.compile('(\w+) (\w+)') s = 'hello 123,hello 456' s_list = pattern.findall(s) print(s_list) s_list = pattern.sub('hello world',s) print(s_list)... 阅读全文
posted @ 2018-03-10 21:42 Bob__Zhang 阅读(151) 评论(0) 推荐(0) 编辑
摘要: import re #\. 是刚需必须有 d+ 必须一个或多个数字 pattern = re.compile(r'\d+\.\d*') d = pattern.finditer('3.141592653 PI 100 10001.11 3. .8 0.9') print(d) for item in d: print(item) 阅读全文
posted @ 2018-03-10 21:41 Bob__Zhang 阅读(102) 评论(0) 推荐(0) 编辑
摘要: import re pattern = re.compile(r'\d+') s = pattern.search('hello 123456 789') print(s.group()) s = pattern.findall('hello 13456 789') print(s) # str = 'I love You!' # def daoxuprint(str): # ... 阅读全文
posted @ 2018-03-10 21:40 Bob__Zhang 阅读(119) 评论(0) 推荐(0) 编辑
摘要: import re # #1.search和match的区别 # pattern = re.compile(r'\d+') # #match从头开始匹配 # m = pattern.match('onetwo12threefour34',6) # print(m) # #(在指定范围内查找 默认全局) 查找 只查一次 后面的8是从位置8开始只查一次 # s = pattern.search('... 阅读全文
posted @ 2018-03-10 21:39 Bob__Zhang 阅读(1977) 评论(0) 推荐(0) 编辑
摘要: import re #步骤1:生成pattern对象 # pattern = re.compile(r'\d+')#表示匹配一个或者多个数字 #步骤2: # m = pattern.match('one1two2 ten10')#从头匹配 match括号里面是要匹配的对象 # print(m) #None --没有数字头 # m = pattern.match('1one1') # pri... 阅读全文
posted @ 2018-03-10 21:38 Bob__Zhang 阅读(102) 评论(0) 推荐(0) 编辑
摘要: import re #\b元字符 代表单词开头或者结尾 也就是单词的分界处 不代表标点符号,空格,换行符 # pattern = re.compile(r'\bwe\b') # s = pattern.findall('we We well welcome') # print(s) #匹配we和work之间的所有内容 用到元字符 # . 匹配除了换行符的任意字符 # * 含义是 * 前... 阅读全文
posted @ 2018-03-10 21:37 Bob__Zhang 阅读(147) 评论(0) 推荐(0) 编辑
摘要: #将都把电影排行榜中的所有类型的前十部,保存到文件中 from urllib import request,parse import json # base_url = "https://movie.douban.com/j/chart/top_list?" # data = { # 11:'剧情',24:'喜剧',5:'动作',13:'爱情',17:'科幻',25:'动画', # ... 阅读全文
posted @ 2018-03-10 21:36 Bob__Zhang 阅读(168) 评论(0) 推荐(0) 编辑
摘要: ''' Request URL:https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=&start=20&limit=20 type:11 interval_id:100:90 action: start:20 limit:20 ''' from urllib import request i... 阅读全文
posted @ 2018-03-10 21:35 Bob__Zhang 阅读(618) 评论(0) 推荐(0) 编辑
摘要: ''' j---Request URL:http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule jo--Request URL:http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule job-Request URL:http://... 阅读全文
posted @ 2018-03-10 21:33 Bob__Zhang 阅读(1355) 评论(0) 推荐(0) 编辑
摘要: #注册一个开心网的账号,并且爬取主页内容 from urllib import request,parse from http import cookiejar import ssl ssl._create_default_https_context = ssl._create_unverified_context #request.urlopen()#并不能够保存cookie #(一)定义请... 阅读全文
posted @ 2018-03-10 21:31 Bob__Zhang 阅读(212) 评论(0) 推荐(0) 编辑
摘要: #SSL--校验网站证书 #一、什么是SSL证书 from urllib import request #ssl免验证 import ssl ssl._create_default_https_context = ssl._create_unverified_context base_url = "https://www.csls.cdb.com.cn/" response = req... 阅读全文
posted @ 2018-03-10 21:26 Bob__Zhang 阅读(150) 评论(0) 推荐(0) 编辑
摘要: from urllib import request from urllib import parse,request #在python当中使用用户名和密码进行登录,然后保存cookie from http import cookiejar cookie = cookiejar.CookieJar() #生成cookie对象 cookie_handler = request.HTTPCook... 阅读全文
posted @ 2018-03-10 21:25 Bob__Zhang 阅读(165) 评论(0) 推荐(0) 编辑
摘要: from urllib import request #(1) base_url = "http://www.renren.com/310303067/profile" headers = { "cookie":"anonymid=jcfxyb8b3a1gal; _r01_=1; ln_uact=liulidong@tju.edu.cn; ln_hurl=http://hdn.xni... 阅读全文
posted @ 2018-03-10 21:24 Bob__Zhang 阅读(370) 评论(0) 推荐(0) 编辑
摘要: from urllib import request,parse import json # 翻译函数 def fanyi(msg): #参数封装 data = { "kw": content } #参数拼接以及转码 data = parse.urlencode(data) #请求地址 base_url = "htt... 阅读全文
posted @ 2018-03-10 21:23 Bob__Zhang 阅读(566) 评论(0) 推荐(0) 编辑
摘要: #批量爬取贴吧页面数据 #第1页: https://tieba.baidu.com/f?kw=%E6%97%85%E8%A1%8C%E9%9D%92%E8%9B%99&ie=utf-8&pn=0 #第2页:https://tieba.baidu.com/f?kw=%E6%97%85%E8%A1%8C%E9%9D%92%E8%9B%99&ie=utf-8&pn=50 #第3页 https://ti... 阅读全文
posted @ 2018-03-10 21:22 Bob__Zhang 阅读(280) 评论(0) 推荐(0) 编辑
摘要: #汉字转码、多个参数拼接 from urllib import request base_url = "http://www.baidu.com/s?" content = input("请输入你要搜索的内容:") qs = { "wd":content, "rsv_sp":1 } #将汉字转成unicode码 from urllib import parse qs =... 阅读全文
posted @ 2018-03-10 21:19 Bob__Zhang 阅读(102) 评论(0) 推荐(0) 编辑
摘要: ''' 作业2: 判断user-agent,判断是否是正常浏览器访问 ''' from urllib import request base_url = "http://www.langlang2017.com" headers = { "connnction":"keep-alive", "USer_Agent":"mozilla/5.0 (Windows nt 6.1; ... 阅读全文
posted @ 2018-03-10 21:16 Bob__Zhang 阅读(583) 评论(0) 推荐(0) 编辑