摘要:
忙活了好久,一直没顾着新学点什么东西。最近疫情爆发被隔离在家,翻出来角落里的开发板,重新开始新的学习旅途! 板子是正点原子的阿尔法,PC用的是X86架构的笔记本,按要求是要配置交叉编译器什的,突然想起来手里还有个树莓派4,也是arm架构的,程序的编译就交给他了! IDE就用vscode,安装Remo 阅读全文
摘要:
我们在上一节最后讲到了,在一个ip下重复向一个URL发送请求,会被封ip,这时候就要用到代理ip了。方法很简单,就是随便找一个ip代理的网站,很多免费的也可以,就是要注意类型,如果我们要爬取的url是https的要找对应的类型。 比方我们从站长之家上爬一下本机的IP import requests 阅读全文
摘要:
今天来总结最后一种说句解析的方式——XPath。 XPath是一门在XML文档中查找信息的语言,用于在XML文档中通过元素和属性进行导航。 XPath简介 下面来简单介绍一下XPath。 XPath的特点 XPath使用路径表达式在XML文档中进行导航 XPath包含一个标准函数库 XPath是XS 阅读全文
摘要:
我们在上一章讲了最直接的索引方法——正则,今天今天讲一个稍微好用一点的数据解析的方法:beautifulsoup4。bs4是在python中独有的一种解析方式,而前面所讲的正则的解析方法,顾名思义,是基于正则表达式的,所以是不限制编程语言的。 通过bs4进行数据解析的流程 按照前面讲过的数据解析原理 阅读全文
摘要:
我们前面的爬虫基本上都是通用爬虫,下面我们要讲到的是聚焦爬虫。聚焦爬虫得实现就要求我们在数据持久化前对指定的数据进行解析。聚焦爬虫用于爬取页面中指定部分的数据,而不是整个数据。隐藏我们就需要对爬到底数据按照一定方式解析。我们一般用下面三种方法实现数据解析。 正则解析 beautifulsoup xp 阅读全文
摘要:
我们在前面一章做了一个稍微复杂的爬虫,这里我们再另外一个爬虫 需求分析 现在我们要从下面的网站(国家药品监督管理局)爬取到所有的企业名称和其对应的生产许可证信息 官网地址:http://scxk.nmpa.gov.cn:81/xk/ 上面的图就是主页的效果,注意一下一共是365页,美业是15条信息 阅读全文
摘要:
我们在前面学习了怎么写一个简单的爬虫,现在我们做一个比较复杂的爬虫——爬取KFC指定城市的门店信息。 需求分析 爬取KFC官网上指定城市的餐厅信息 网址:http://www.kfc.com.cn/kfccda/storelist/index.asp页面效果如下 如果我们要查询西安市的KFC所有门店 阅读全文
摘要:
下面,我们从几个简单的爬虫开始我们的爬虫之旅 通用爬虫 我们先来做一个通用的爬虫,作用是爬取一个搜索引擎的搜索结论。比方说用搜狗搜一下python这个关键字,注意看一下url: 可以看出来这是个GET请求,参数可以直接看出来,也可以通过浏览器的抓包工具看一下 上面的图里大概演示了从哪里找到抓包工具, 阅读全文
摘要:
在前面我们已经通过uWSGI服务托管了Django,但是只实现了动态的请求,静态数据(图片,css,html文件等)还没有获取,所以要交给nginx处理。 项目静态数据的迁移 第一步我们需要django帮我们把项目所需要的静态文件迁移到指定的路径下,而django就为我们提供了一个这样的功能,col 阅读全文
摘要:
在前面我们已经了解了如何利用Django框架做一个小项目,但是一直是通过命令行来实现项目的运行的,显然这样不符合生产环境使用要求。那么下面这一阶段我们就来简单的了解一下如何部署Django项目 整体思路 网上的方法用的最多的就是用uwsgi和nginx来实现项目的部署,这里也用这个方式实现。 环境准 阅读全文