摘要:
如下是内容 """ Django settings for luffyapi project. Generated by 'django-admin startproject' using Django 2.0.7. For more information on this file, see ht 阅读全文
摘要:
1 爬虫介绍 # 1 本质:模拟发送http请求(requests) 》解析返回数据(re,bs4,lxml,json) 》入库(redis,mysql,mongodb) # 2 app爬虫:本质一模一样 # 3 为什么python做爬虫最好:包多,爬虫框架:scrapy:性能很高的爬虫框架,爬虫界 阅读全文
摘要:
1 全站爬取cnblogs # 1 scrapy startproject cnblogs_crawl # 2 scrapy genspider cnblogs www.cnblogs.com 2 scarpy请求传参 # 1 放 :yield Request(url,callback=self.p 阅读全文
摘要:
1 scarpy框架的安装和启动 # 1 框架 不是 模块 # 2 号称爬虫界的django(你会发现,跟django很多地方一样) # 3 安装 -mac,linux平台:pip3 install scrapy -windows平台:pip3 install scrapy(大部分人可以) - 如果 阅读全文
摘要:
1 css选择器和xpath选择器 # css选择器 ####### #1 css选择器 ####### # 重点 # Tag对象.select("css选择器") # #ID号 # .类名 # div>p:儿子 和div p:子子孙孙 # 找div下最后一个a标签 div a:last-child 阅读全文
摘要:
今日内容 1 requests+bs4爬汽车之家新闻 # 今日头条 # https://www.autohome.com.cn/news/1/#liststart ###### #2 爬取汽车之家新闻 ###### import requests # 向汽车之家发送get请求,获取到页面 ret=r 阅读全文
摘要:
【一】HTML——Hypertext Markup Language HTML:超文本标记语言,是静态网页。“超文本”就是指页面内可以包含图片、链接,甚至音乐、程序等非文字元素。该文档本身有页面结构,显示页面内容;可以理解为网页中的标签,比如div、ul、p等等这些。浏览器按顺序阅读网页文件,然后根 阅读全文
摘要:
python中的垃圾回收机制(GC) Python的垃圾回收机制 简介(三种方式) 引用计数(python默认): 记录该对象当前被引用的次数,每当新的引用指向该对象时,它的引用计数ob_ref加1,每当该对象的引用失效时计数ob_ref减1,一旦对象的引用计数为0,该对象立即被回收 标记清除:第一 阅读全文
摘要:
1.python里面的 GIL是什么? GIL全称Global Interpreter Lock,即全局解释器锁。 作用就是,限制多线程同时执行,保证同一时间内只有一个线程在执行。 GIL并不是Python的特性,它是在实现Python解析器(CPython)时所引入的一个概念。python 与 p 阅读全文
摘要:
Cookie cookie 是一个非常具体的东西,指的就是浏览器里面能永久存储的一种数据,仅仅是浏览器实现的一种数据存储功能。 cookie由服务器生成,发送给浏览器,浏览器把cookie以kv形式保存到某个目录下的文本文件内,下一次请求同一网站时会把该cookie发送给服务器。由于cookie是存 阅读全文