摘要: Lucene 是Apache软件基金会4 jakarta项目的子项目。它是一个开源的全文检索引擎工具包。但它并不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言) 相当于一个库, 还有很多东西要自己写. ElasticSe 阅读全文
posted @ 2020-09-27 07:24 straightup 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 10进制转换成其他进制: 10进制转换成2进制:bin(n) 10进制转换成8进制:oct(n) 10进制转换成16进制:hex(n) 2进制转换为其他进制: 2进制转换成10进制:int(n,2) 2进制转换成8进制:oct(int(n,2)) 2进制转换成16进制:hex(int(n,2)) 8 阅读全文
posted @ 2020-09-24 10:28 straightup 阅读(170) 评论(0) 推荐(0) 编辑
摘要: Websocket 1.轮询: HTTP协议的轮询(无状态) TCP三次握手 缺陷: 信息不能及时传达 客户端和服务器都浪费很多的资源 HTTP无法跟踪定位客户端 2.长轮询: HTTP协议的长轮询 可能出现: HTTP请求超时, HTTP请求断开 缺陷: 消息实时性不高 占用资源 客户端线程资源占 阅读全文
posted @ 2020-09-24 09:08 straightup 阅读(175) 评论(0) 推荐(0) 编辑
摘要: MongoDB 1.准备阶段 下载MongoDB https://www.mongodb.com/ 默认监听端口:27017 (mysql:3306;redis:6379) MonogDB 启动 指定mongodb数据存储目录 mongod --dbpath="D:/mongodb/data/db" 阅读全文
posted @ 2020-09-22 20:35 straightup 阅读(227) 评论(0) 推荐(0) 编辑
摘要: Flask 中的路由 @app.route("/login",methods=['GET','POST']...) #路由中的参数 endpoint 不能重复 对应视图函数 默认是视图函数名 #路由和视图函数之间的桥梁 methods #允许请求的方式 ["GET","POST","DELETE", 阅读全文
posted @ 2020-09-21 22:09 straightup 阅读(149) 评论(0) 推荐(0) 编辑
摘要: Flask Web框架的安装和启动 安装: pip install Flask - 1.1.2 应用Flask # 三行启动flask 提供服务 from flask import Flask app = Flask(__name__) app.run() # 六行启动 实现"HelloWorld" 阅读全文
posted @ 2020-09-20 22:48 straightup 阅读(116) 评论(0) 推荐(0) 编辑
摘要: scrapy下载图片 爬虫类中,将img_src作为item的属性yield即可 关键实现点在管道类里 导入一个图片的管道类 from scrapy.pipelines.images import ImagesPipeline 发请求 import scrapy 重写图片管道类的三个父类方法 get 阅读全文
posted @ 2020-09-18 20:49 straightup 阅读(174) 评论(0) 推荐(0) 编辑
摘要: 基于Spider父类进行全站数据的爬取 全站数据的爬取:将所有页码对应的页面数据进行爬取 手动请求的发送(get): yield scrapy.Request(url,callback) 对yield的总结: 向管道提交item对象 yield item 手动请求发送 yield scrapy.Re 阅读全文
posted @ 2020-09-18 20:47 straightup 阅读(100) 评论(0) 推荐(0) 编辑
摘要: 什么是爬虫框架? 就是具有很强通用性且集成了很多功能的爬虫项目模板 Scrapy集成好的功能: 高性能的数据解析操作(xpath) 高性能的数据下载功能(异步) 高性能的数据持久化存储(管道) ** 中间件机制(拦截请求和响应) 全站数据爬取操作 将一个网站所有页面的数据进行爬取 分布式(搭建集群) 阅读全文
posted @ 2020-09-18 20:41 straightup 阅读(94) 评论(0) 推荐(0) 编辑
摘要: selenium模块实现浏览器自动化搜索京东商品并获取页面源码 from selenium import webdriver from time import sleep # 先实例化一个浏览器对象,并传入驱动程序 bro = webdriver.Chrome(executable_path='ch 阅读全文
posted @ 2020-09-18 20:36 straightup 阅读(116) 评论(0) 推荐(0) 编辑