05 2020 档案
摘要:1 爬虫介绍 # 1 本质:模拟发送http请求(requests) 》解析返回数据(re,bs4,lxml,json) 》入库(redis,mysql,mongodb) # 2 app爬虫:本质一模一样 # 3 为什么python做爬虫最好:包多,爬虫框架:scrapy:性能很高的爬虫框架,爬虫界
阅读全文
摘要:1 全站爬取cnblogs # 1 scrapy startproject cnblogs_crawl # 2 scrapy genspider cnblogs www.cnblogs.com 2 scarpy请求传参 # 1 放 :yield Request(url,callback=self.p
阅读全文
摘要:1 scarpy框架的安装和启动 # 1 框架 不是 模块 # 2 号称爬虫界的django(你会发现,跟django很多地方一样) # 3 安装 -mac,linux平台:pip3 install scrapy -windows平台:pip3 install scrapy(大部分人可以) - 如果
阅读全文
摘要:1 css选择器和xpath选择器 # css选择器 ####### #1 css选择器 ####### # 重点 # Tag对象.select("css选择器") # #ID号 # .类名 # div>p:儿子 和div p:子子孙孙 # 找div下最后一个a标签 div a:last-child
阅读全文
摘要:今日内容 1 requests+bs4爬汽车之家新闻 # 今日头条 # https://www.autohome.com.cn/news/1/#liststart ###### #2 爬取汽车之家新闻 ###### import requests # 向汽车之家发送get请求,获取到页面 ret=r
阅读全文
摘要:【一】HTML——Hypertext Markup Language HTML:超文本标记语言,是静态网页。“超文本”就是指页面内可以包含图片、链接,甚至音乐、程序等非文字元素。该文档本身有页面结构,显示页面内容;可以理解为网页中的标签,比如div、ul、p等等这些。浏览器按顺序阅读网页文件,然后根
阅读全文
摘要:python中的垃圾回收机制(GC) Python的垃圾回收机制 简介(三种方式) 引用计数(python默认): 记录该对象当前被引用的次数,每当新的引用指向该对象时,它的引用计数ob_ref加1,每当该对象的引用失效时计数ob_ref减1,一旦对象的引用计数为0,该对象立即被回收 标记清除:第一
阅读全文

浙公网安备 33010602011771号