摘要:
1 # -*- coding:utf-8 -*- 2 #python 2.7 3 #XiaoDeng 4 #http://tieba.baidu.com/p/2460150866 5 #标签操作 6 7 8 from bs4 import BeautifulSoup 9 import urllib.request 10 import re 11 12 13 #如果是网址... 阅读全文
摘要:
第一方法用第三方库(requests):参考http://www.mamicode.com/info-detail-1839685.html 源代码分析 博客园的登录页面非常简单,查看网页源代码,可以发现两个输入框的id分别为input1、input2,复选框的id为remember_me,登录按钮 阅读全文
摘要:
第一个print输出: ef 第二个输出: A变到Z(没有换行,每次都是一个字母显示,下一个字母替换上一个字母) \r 默认表示将输出的内容返回到第一个指针,这样的话,后面的内容会覆盖前面的内容 PyCharm控制台中显示,\r真正实现了其回车的功能(回到某行开头,把前面的输出覆盖了,其实在PyCh 阅读全文
摘要:
新浪新闻内容采用的是ajax动态显示内容,通过抓包,发现如下规律: 每次请求下一页,js那一栏都会出现新的url: 阅读全文
摘要:
一、解决请求路径中含义中文或特殊字符(/n,/t等): 1 httpurl=urllib.parse.quote(new_url, safe=string.printable) 注意:new_url必须是只有一个单引号或者双引号,如果是下面这个既有单引号,也有双引号,就会出现urlerror: ne 阅读全文
摘要:
python贪婪和非贪婪 正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;非贪婪则相反,总是尝试匹配尽可能少的字符。在"*","?","+","{m,n}"后面加上?,使贪婪变成非贪婪。 >>> s="Thi 阅读全文
摘要:
原因在于:字符串里用单引号来标识字符。 解决办法如下:将字符串里的单引号替换成双引号 对于带u'的字符串,u也要去掉: 1 >>> c=f.read() 2 >>> c 3 "{u'meta': {u'code': 200, u'requestId': u'5815f6739fb6b77494061 阅读全文
摘要:
我们在写 CSS 时,标签名不加任何修饰,类名前加点,id名前加 #,在这里我们也可以利用类似的方法来筛选元素,用到的方法是 soup.select(),返回类型是 list(1)通过标签名查找 (2)通过类名查找 (3)通过 id 名查找 (4)组合查找 组合查找即和写 class 文件时,标签名 阅读全文
摘要:
网页中有用的信息通常存在于网页中的文本或各种不同标签的属性值,为了获得这些网页信息,有必要有一些查找方法可以获取这些文本值或标签属性。而Beautiful Soup中内置了一些查找方式: find() find_all() find_parent() find_parents() find_next 阅读全文
摘要:
先上代码,后分析出现的问题: 1、出现“SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:581)”: Python 2.7.9 之后版本引入了一个新特性 当你urllib.urlopen一个 h 阅读全文