随笔分类 -  python

摘要:1.爬取豆瓣电影第一页数据并下载 #get请求 #获取豆瓣电影的第一页的数据并且保持起来 import urllib.request url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=& 阅读全文
posted @ 2022-05-23 13:38 创客未来 阅读(61) 评论(0) 推荐(0) 编辑
摘要:1.通过对百度翻译的分析,现在找出在百度翻译中有个“详细翻译的接口” 即:https://fanyi.baidu.com/v2transapi?from=en&to=zh请求地址 2.查找Request Headers 3.详细代码 #百度详细翻译,反爬的第二种情况 Cookie import ur 阅读全文
posted @ 2022-05-23 10:20 创客未来 阅读(213) 评论(0) 推荐(0) 编辑
摘要:1.get请求的quote方法 quote()方法:是将汉字转换成unicode编码 import urllib.request import urllib.parse url = 'https://www.baidu.com/s?wd=' #请求对象的定制是为了解决反爬的第一种手段 headers 阅读全文
posted @ 2022-05-20 16:33 创客未来 阅读(29) 评论(0) 推荐(0) 编辑
摘要:UA介绍 User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、cpu类型、浏览器及版本。浏览器内核、浏览器渲染引擎、浏览器语言、浏览器插件等。 为什么出现UA 案例代码 import urllib.request url = 'http 阅读全文
posted @ 2022-05-20 15:18 创客未来 阅读(145) 评论(0) 推荐(0) 编辑
摘要:目的:将获取得到的信息下载到本地 这里主要用到了 urllib.request.urlretrieve()方法 1.下载网页 # # 使用urllib 下载网页、图片、视频 #@author:tnwner #@date:2022-05-20 14:22 # import urllib.request 阅读全文
posted @ 2022-05-20 14:40 创客未来 阅读(94) 评论(0) 推荐(0) 编辑
摘要:1.什么是爬虫? 通过一个程序,更加url进行爬取网页,获取有用信息。使用程序模拟浏览器,去向服务器发送请求,获取响应信息。 2.爬虫的核心? 爬取网页:爬取整个网页,包含了网页中所有的内容 解析数据:将网页中你得到的数据进行解析 难点:爬虫和反爬虫之间的博弈 3.爬虫的用途? 数据分析/人工数据集 阅读全文
posted @ 2022-05-20 14:14 创客未来 阅读(47) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示