上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 21 下一页
摘要: 全量表全量表没有分区,表中的数据是前一天的所有数据,比如说今天是24号,那么全量表里面拥有的数据是23号的所有数据,每次往全量表里面写数据都会覆盖之前的数据,所以全量表不能记录历史的数据情况,只有截止到当前最新的、全量的数据。快照表那么要能查到历史数据情况又该怎么办呢?这个时候快照表就派上用途了,快 阅读全文
posted @ 2020-05-14 15:16 cknds 阅读(2689) 评论(0) 推荐(1) 编辑
摘要: 原文地址:https://blog.csdn.net/xiepeifeng/article/details/42431027 在数据仓库的数据模型设计过程中,经常会遇到这样的需求: 1. 数据量比较大;2. 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等;3. 需要查看 阅读全文
posted @ 2020-05-14 15:05 cknds 阅读(447) 评论(0) 推荐(0) 编辑
摘要: 数据仓库设计方案 一.概述 数据仓库的特征在于面向主题、集成性、稳定性和时变性,用于支持管理决策。数据仓库的存在的意义在于对企业的所有数据进行汇总,为企业各个部门提供统一的、规范的数据出口。数据仓库在构建过程中通常都需要进行分层处理。业务不同,分层的技术处理手段也不同。数仓分层的主要原因: 清晰数据 阅读全文
posted @ 2020-05-14 14:46 cknds 阅读(723) 评论(0) 推荐(0) 编辑
摘要: Python中的pandas模块进行数据分析。 接下来pandas介绍中将学习到如下8块内容: 1、数据结构简介:DataFrame和Series 2、数据索引index 3、利用pandas查询数据 4、利用pandas的DataFrames进行统计分析 5、利用pandas实现SQL操作 6、利 阅读全文
posted @ 2020-05-11 10:16 cknds 阅读(206) 评论(0) 推荐(0) 编辑
摘要: 矩阵和数组的区别 数组中的元素可以是字符等矩阵中的只能是数这是二者最直观的区别。因为矩阵是一个数学概念(线性代数里的),数组是个计算机上的概念。你见过纯粹数学中有数组的概念吗?没有。因为计算机上(准确的说是信息科学中)常用到线性代数的知识,就引用了矩阵的概念。 《精通MATLAB6.5版》(张志涌编 阅读全文
posted @ 2020-05-09 23:49 cknds 阅读(1076) 评论(0) 推荐(1) 编辑
摘要: 链接地址:https://github.com/AimeeLee77/keyword_extraction 1、基于TF-IDF的文本关键词抽取方法 词频(Term Frequency,TF) 指某一给定词语在当前文件中出现的频率。由于同一个词语在长文件中可能比短文件有更高的词频,因此根据文件的长度 阅读全文
posted @ 2020-05-09 14:03 cknds 阅读(13369) 评论(1) 推荐(2) 编辑
摘要: 为什么需要在python使用结巴分词(jieba)创建自己的词典/词库,因为很多时候分词给我们的结果了能刚好相反,如:不回家变成了不,回家;从上一篇文章文章我们已经讲诉了python使用结巴中文分词以及训练自己的分词词典,基本的安装和基本使用大家直接去看那篇文章即可,我们主要介绍如何python创建 阅读全文
posted @ 2020-05-09 13:46 cknds 阅读(15461) 评论(1) 推荐(1) 编辑
摘要: 深度优先是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续追踪链接 广度优先,有人也叫宽度优先,是指将新下载网页发现的链接直接插入到待抓取URL队列的末尾,也就是指网络爬虫会先抓取起始页中的所有网页,然后在选择其中的一个连接网页,继续抓取在此网页中链接的 阅读全文
posted @ 2020-04-17 09:54 cknds 阅读(2260) 评论(0) 推荐(0) 编辑
摘要: downloader中间件:可以自定义中间件,及中间价优先级; i. 如何新增downloader middleware?重写process_request、process_response、process_exception函数; ii. 为什么要设计downloader middleware? 阅读全文
posted @ 2020-04-15 13:57 cknds 阅读(215) 评论(0) 推荐(0) 编辑
摘要: 在settings.xml文件中的mirrors下添加mirror标签 <!-- 阿里云仓库 --> <mirror> <id>alimaven</id> <mirrorOf>central</mirrorOf> <name>aliyun maven</name> <url>http://maven 阅读全文
posted @ 2020-04-15 10:21 cknds 阅读(1991) 评论(0) 推荐(0) 编辑
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 21 下一页