古怪的一阵风

2017年6月12日

摘要： 1 # -*- coding:utf-8 -*- 2 #python 2.7 3 #XiaoDeng 4 #http://tieba.baidu.com/p/2460150866 5 #标签操作 6 7 8 from bs4 import BeautifulSoup 9 import urllib.request 10 import re 11 12 13 #如果是网址... 阅读全文

posted @ 2017-06-12 01:23 古怪的一阵风阅读(19551) 评论(0) 推荐(0) 编辑

2017年6月11日

python爬虫：两种方法模拟登录博客园

摘要：第一方法用第三方库（requests）：参考http://www.mamicode.com/info-detail-1839685.html 源代码分析博客园的登录页面非常简单，查看网页源代码，可以发现两个输入框的id分别为input1、input2，复选框的id为remember_me，登录按钮阅读全文

posted @ 2017-06-11 23:43 古怪的一阵风阅读(4725) 评论(1) 推荐(1) 编辑

python基础：\r的用法详解

摘要：第一个print输出： ef 第二个输出： A变到Z（没有换行，每次都是一个字母显示，下一个字母替换上一个字母） \r 默认表示将输出的内容返回到第一个指针，这样的话，后面的内容会覆盖前面的内容 PyCharm控制台中显示，\r真正实现了其回车的功能（回到某行开头，把前面的输出覆盖了，其实在PyCh 阅读全文

posted @ 2017-06-11 23:19 古怪的一阵风阅读(3612) 评论(0) 推荐(0) 编辑

python爬虫：抓取新浪新闻内容（从当前时间到之前某个时间段），并用jieba分词，用于训练自己的分词模型

摘要：新浪新闻内容采用的是ajax动态显示内容，通过抓包，发现如下规律：每次请求下一页，js那一栏都会出现新的url：阅读全文

posted @ 2017-06-11 14:24 古怪的一阵风阅读(2715) 评论(0) 推荐(1) 编辑

python爬虫：解决请求路径中含义中文或特殊字符

摘要：一、解决请求路径中含义中文或特殊字符（/n,/t等）： 1 httpurl=urllib.parse.quote(new_url, safe=string.printable) 注意：new_url必须是只有一个单引号或者双引号，如果是下面这个既有单引号，也有双引号，就会出现urlerror： ne 阅读全文

posted @ 2017-06-11 14:12 古怪的一阵风阅读(2169) 评论(0) 推荐(0) 编辑

python基础：re模块匹配时贪婪和非贪婪模式

摘要： python贪婪和非贪婪正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的（在少数语言里也可能是默认非贪婪），总是尝试匹配尽可能多的字符；非贪婪则相反，总是尝试匹配尽可能少的字符。在"*","?","+","{m,n}"后面加上？，使贪婪变成非贪婪。 >>> s="Thi 阅读全文

posted @ 2017-06-11 13:46 古怪的一阵风阅读(31554) 评论(0) 推荐(0) 编辑

python基础：json.loads(str)出现错误总结

摘要：原因在于：字符串里用单引号来标识字符。解决办法如下：将字符串里的单引号替换成双引号对于带u'的字符串，u也要去掉： 1 >>> c=f.read() 2 >>> c 3 "{u'meta': {u'code': 200, u'requestId': u'5815f6739fb6b77494061 阅读全文

posted @ 2017-06-11 12:57 古怪的一阵风阅读(18944) 评论(0) 推荐(0) 编辑

2017年6月10日

python爬虫：BeautifulSoup 使用select方法详解

摘要：我们在写 CSS 时，标签名不加任何修饰，类名前加点，id名前加 #，在这里我们也可以利用类似的方法来筛选元素，用到的方法是 soup.select()，返回类型是 list（1）通过标签名查找（2）通过类名查找（3）通过 id 名查找（4）组合查找组合查找即和写 class 文件时，标签名阅读全文

posted @ 2017-06-10 17:29 古怪的一阵风阅读(87341) 评论(5) 推荐(6) 编辑

2017年6月9日

python爬虫：使用BeautifulSoup进行查找

摘要：网页中有用的信息通常存在于网页中的文本或各种不同标签的属性值，为了获得这些网页信息，有必要有一些查找方法可以获取这些文本值或标签属性。而Beautiful Soup中内置了一些查找方式： find() find_all() find_parent() find_parents() find_next 阅读全文

posted @ 2017-06-09 17:26 古怪的一阵风阅读(18039) 评论(0) 推荐(0) 编辑

python爬虫：使用账号、密码和验证码登录知乎网页

摘要：先上代码，后分析出现的问题： 1、出现“SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:581)”： Python 2.7.9 之后版本引入了一个新特性当你urllib.urlopen一个 h 阅读全文

posted @ 2017-06-09 17:16 古怪的一阵风阅读(11195) 评论(0) 推荐(0) 编辑

古怪的一阵风

公告