摘要:
import requests import re import os if __name__ == "__main__": # 创建一个文件夹用来保存所有图片 if not os.path.exists('./qiutulibs'): os.mkdir('./qiutulibs') headers 阅读全文
摘要:
import requests import re import os if __name__ == "__main__": # 创建一个文件夹用来保存所有图片 if not os.path.exists('./qiutulibs'): os.mkdir('./qiutulibs') headers 阅读全文
摘要:
# 需求:爬取三国演义小说中的章节标题与章节内容http://www.shicimingju.com/book/sanguoyanyi.htmlimport requestsfrom bs4 import BeautifulSoupif __name__ == "__main__": # 对首页数据 阅读全文
摘要:
import requestsfrom bs4 import BeautifulSoupif __name__ == "__main__": # headers = { # 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/ 阅读全文
摘要:
# 需求:爬取搜狗首页的页面数据import requestsif __name__ == '__main__': # 1指定url url = 'https://www.sogou.com/' # 2发起请求 res = requests.get(url=url) # get方法会返回一个响应对象 阅读全文
摘要:
import json import requests if __name__ == '__main__': url = 'https://movie.douban.com/j/chart/top_list' param = { 'type': '24', 'interval_id': '100:9 阅读全文
摘要:
import requestsimport jsonif __name__ =='__main__': headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gec 阅读全文
摘要:
# UA:User-Agent(请求载体的身份标识) # UA 检测: 门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求的载体身份标识为某一浏览器 #说明该请求是一个正常的请求。否则为不正常的请求(爬虫),则服务器有可能拒绝 # UA伪装:让爬虫对应的请求载体身份标识伪装成某一款浏览器 阅读全文
摘要:
import json import requests if __name__ == '__main__': post_url = 'https://fanyi.baidu.com/sug' # 进行UA伪装 headers = { 'User-Agent': 'Mozilla/5.0 (Windo 阅读全文
摘要:
爬虫1.1 爬虫概念 -通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程 爬虫价值 -实际应用 -就业1.2 爬虫的合法性探究1.3爬虫在使用场景中的分类 - 通用爬虫 抓取系统重要组成部分,抓取的是一整张页面数据 - 聚焦爬虫 建立在通用爬虫基础上,抓取局部内容 - 增量式爬虫 检测 阅读全文