随笔分类 - Python
摘要:在学爬虫之前, 最好有一些html基础, 才能更好的分析网页. 主要是五步: 1. 获取链接 2. 正则匹配 3. 获取内容 4. 处理内容 5. 写入文件 代码如下: 1 #导入相关model 2 from bs4 import BeautifulSoup 3 import requests 4
阅读全文
摘要:在python官网下载好python2.x 或者 3.x, 然后在vscode 下载python插件. 写一个python程序, 运行, vscode会自动提示你配置python执行路径,并帮你创建好.vscode文件夹. 除了task需要配置外,其他的vscode都会自动帮你配好. 下面讲一下怎么
阅读全文
摘要:1. 在用python爬取小说的时候, 发现在内容里每次换行都有\r\n(即回车, 换行)出现. 此时可以采用 s.replace('\\r\\n','') , 其中s为字符串类型. 2. 在爬取完小说内容后, 用记事本打开时每个段落无论长短都只占一行, 此时可以点击记事本上方的 '格式' -->
阅读全文
摘要:我是在写爬虫是遇到了这个问题: c = chapter.select('href')AttributeError: 'list' object has no attribute 'select' 这是我的代码: chapter = soup.select('ul._chapter > li > a'
阅读全文
摘要:一开始按照视频上的找了笔趣阁的网站先爬一部小说, 找了《遮天》,但是章节太多,爬起来太慢, 就换了一个几十章的小说. 根据视频里的去写了代码, 在正则表达式那里出了很大的问题. from bs4 import BeautifulSoupimport requestsimport re 先找到了小说主
阅读全文