摘要: 网络爬虫 一.基本概念 一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 1.1 网络爬虫分类 网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络 阅读全文
posted @ 2020-05-17 20:09 Satansz 阅读(352) 评论(0) 推荐(0) 编辑
摘要: 爬虫spider流程示意图 根据以上流程简单实现爬虫功能,只是一种简单的做事风格,实际更复杂,不做具体讨论。 1. 目录 2. engine.py # encoding=utf-8 import os from spider.scheduler import Scheduler def read_u 阅读全文
posted @ 2020-05-17 20:07 Satansz 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 一.基本概念 1. 类是抽象的,具有相同属性和方法(行为)的集合 2. 对象是具体的,具有某些属性和方法(行为)的 3. 创建的对象的过程,叫实例化 4. 属性与方法 1) 实例属性:self动态方式调用、赋值,及self.leg='new leg'仅限于当前对象 2) 实例方法: 同上 3) 静态 阅读全文
posted @ 2020-05-17 19:41 Satansz 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 【python之一】 python基础--property、__get__、__set__ python基础--__getattr__ 和 __getattribute__ python基础--type和metaclass python基础--魔法方法详解 python基础--数据结构 python 阅读全文
posted @ 2020-05-17 18:38 Satansz 阅读(162) 评论(0) 推荐(0) 编辑
摘要: 第一节,windows系统安装虚拟机VMware 软件 第二节,windows系统下Xshell 5软件远程访问虚拟机 Linux系统 第三节,入门知识和windows系统安装python环境 第四节,Linux基础命令 第五节,计算机(电脑)简介 第六节,初识python和字符编码 第七节,初识模 阅读全文
posted @ 2020-05-17 18:36 Satansz 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 【知识图谱之一】 【知识图谱】知识图谱概论 【知识图谱】知识表示与知识建模 【知识图谱】知识抽取与挖掘(I) 【知识图谱】知识抽取与挖掘(Ⅱ) 【知识图谱】知识融合 【知识图谱】知识存储 【知识图谱】知识推理 【知识图谱之二】 知识图谱(一)——概述 知识图谱(二)——知识表示 知识图谱(三)——知 阅读全文
posted @ 2020-05-17 17:57 Satansz 阅读(294) 评论(0) 推荐(0) 编辑
摘要: 【深度学习之一】 零基础入门深度学习(1) - 感知器 零基础入门深度学习(2) - 线性单元和梯度下降 零基础入门深度学习(3) - 神经网络和反向传播算法 零基础入门深度学习(4) - 卷积神经网络 零基础入门深度学习(5) - 循环神经网络 零基础入门深度学习(6) - 长短时记忆网络(LST 阅读全文
posted @ 2020-05-17 17:55 Satansz 阅读(428) 评论(0) 推荐(0) 编辑
摘要: 【Python机器学习笔记】 Python机器学习笔记:sklearn库的学习 Python机器学习笔记:Logistic Regression Python机器学习笔记:SVM(1)——SVM概述 Python机器学习笔记:SVM(2)——SVM核函数 Python机器学习笔记:SVM(3)——证 阅读全文
posted @ 2020-05-17 17:12 Satansz 阅读(777) 评论(0) 推荐(0) 编辑
摘要: 【分词与词向量】 主要是 jieba 和 gensim.models.word2vec 使用 【结巴分词资料汇编】结巴中文分词官方文档分析(1) 【结巴分词资料汇编】结巴中文分词源码分析(2) 【结巴分词资料汇编】结巴中文分词基本操作(3) python版本word2vec实现 python版本do 阅读全文
posted @ 2020-05-17 04:15 Satansz 阅读(1210) 评论(0) 推荐(1) 编辑
摘要: 【ElasticSeach之一】 Elasticsearch 技术分析(一): 基础入门 Elasticsearch 技术分析(五):如何通过SQL查询Elasticsearch Elasticsearch 技术分析(二): 索引映射Mapping问题 Elasticsearch 技术分析(三): 阅读全文
posted @ 2020-05-17 03:45 Satansz 阅读(171) 评论(0) 推荐(0) 编辑
摘要: 【MongoDB之一】 MongoDB 入门篇 MongoDB 分片集群技术 MongoDB存储数据原理 MongoDB的备份与恢复 MongoDB 集群搭建 - 切片+副本集 MongoDB一键化自动部署方案 MongoDB实战性能优化 Mongodb设置用户权限(整理版) 阅读全文
posted @ 2020-05-17 03:22 Satansz 阅读(132) 评论(0) 推荐(0) 编辑
摘要: 【MySql之一】 数据库访问优化法则 我必须得告诉大家的MySQL优化原理 MySQL 优化实施方案 Mysql性能优化一 Mysql性能优化二 Mysql性能优化三 数据库介绍(MySQL安装 体系结构、基本管理) MySQL用户管理及SQL语句详解 MySQL-Select语句高级应用 MyS 阅读全文
posted @ 2020-05-17 03:19 Satansz 阅读(192) 评论(0) 推荐(0) 编辑
摘要: 【redis之一】 Redis 数据库 Redis 复制、Sentinel的搭建和原理说明 Redis3.0 配置文件说明 Redis Sentinel 高可用实现说明 Redis之Sentinel高可用安装部署 Redis Cluster部署、管理和测试 Redis Codis 部署安装 使用co 阅读全文
posted @ 2020-05-17 03:17 Satansz 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 【PySpark RDD与DataFrame、Pandas转换】 官网:https://spark.apache.org/docs/latest/rdd-programming-guide.html 1. RDD=> DataFrame 2. RDD=> Pandas 3. DataFrame => 阅读全文
posted @ 2020-05-17 02:17 Satansz 阅读(877) 评论(0) 推荐(0) 编辑
摘要: 【Zookeeper之一】 Zookeeper安装使用及工作原理分析 Zookeeper能做什么 Zookeeper能做什么 Zookeeper学习之路 (一)初识 Zookeeper学习之路 (二)集群搭建 Zookeeper学习之路 (三)shell操作 ZooKeeper学习之路 (四)Zoo 阅读全文
posted @ 2020-05-17 01:01 Satansz 阅读(109) 评论(0) 推荐(0) 编辑