随笔分类 -  Python

摘要:在学爬虫之前, 最好有一些html基础, 才能更好的分析网页. 主要是五步: 1. 获取链接 2. 正则匹配 3. 获取内容 4. 处理内容 5. 写入文件 代码如下: 1 #导入相关model 2 from bs4 import BeautifulSoup 3 import requests 4 阅读全文
posted @ 2019-02-05 16:47 落花人独立微雨燕双飞 阅读(2624) 评论(0) 推荐(0) 编辑
摘要:在python官网下载好python2.x 或者 3.x, 然后在vscode 下载python插件. 写一个python程序, 运行, vscode会自动提示你配置python执行路径,并帮你创建好.vscode文件夹. 除了task需要配置外,其他的vscode都会自动帮你配好. 下面讲一下怎么 阅读全文
posted @ 2019-02-05 16:47 落花人独立微雨燕双飞 阅读(259) 评论(0) 推荐(0) 编辑
摘要:1. 在用python爬取小说的时候, 发现在内容里每次换行都有\r\n(即回车, 换行)出现. 此时可以采用 s.replace('\\r\\n','') , 其中s为字符串类型. 2. 在爬取完小说内容后, 用记事本打开时每个段落无论长短都只占一行, 此时可以点击记事本上方的 '格式' --> 阅读全文
posted @ 2019-02-05 16:47 落花人独立微雨燕双飞 阅读(437) 评论(0) 推荐(0) 编辑
摘要:我是在写爬虫是遇到了这个问题: c = chapter.select('href')AttributeError: 'list' object has no attribute 'select' 这是我的代码: chapter = soup.select('ul._chapter > li > a' 阅读全文
posted @ 2019-01-24 15:32 落花人独立微雨燕双飞 阅读(768) 评论(0) 推荐(0) 编辑
摘要:一开始按照视频上的找了笔趣阁的网站先爬一部小说, 找了《遮天》,但是章节太多,爬起来太慢, 就换了一个几十章的小说. 根据视频里的去写了代码, 在正则表达式那里出了很大的问题. from bs4 import BeautifulSoupimport requestsimport re 先找到了小说主 阅读全文
posted @ 2019-01-24 15:23 落花人独立微雨燕双飞 阅读(3487) 评论(0) 推荐(0) 编辑

欢迎访问我的个人博客
点击右上角即可分享
微信分享提示