02 2019 档案
摘要:在学爬虫之前, 最好有一些html基础, 才能更好的分析网页. 主要是五步: 1. 获取链接 2. 正则匹配 3. 获取内容 4. 处理内容 5. 写入文件 代码如下: 1 #导入相关model 2 from bs4 import BeautifulSoup 3 import requests 4
阅读全文
摘要:在python官网下载好python2.x 或者 3.x, 然后在vscode 下载python插件. 写一个python程序, 运行, vscode会自动提示你配置python执行路径,并帮你创建好.vscode文件夹. 除了task需要配置外,其他的vscode都会自动帮你配好. 下面讲一下怎么
阅读全文
摘要:1. 在用python爬取小说的时候, 发现在内容里每次换行都有\r\n(即回车, 换行)出现. 此时可以采用 s.replace('\\r\\n','') , 其中s为字符串类型. 2. 在爬取完小说内容后, 用记事本打开时每个段落无论长短都只占一行, 此时可以点击记事本上方的 '格式' -->
阅读全文