摘要:
Jupyter Notebooks是一款非常便利,功能强大的Python IDE,能为数据科学家提供强大的交互能力和工具,被广泛用于以更具教学性的方式展示代码。 一,如何安装 Jupyter Notebooks? 首先需要在机器上安装 Python开发包,推荐安装Python 3.3 及以上版本。然 阅读全文
摘要:
SQL Server在服务器级别和数据库级别都有默认的安全主体(Principal),用户经常遇到的有sa 登录,dbo 用户,guest 用户和public角色,public 角色分为服务器级别和数据库级别。 一,sa 登录 sa login 是服务器级别的特殊安全主体,登录名是sa,是服务器级别 阅读全文
摘要:
评估分类模型性能的方法是:混淆矩阵,其总体思路是统计A类别实例被预测(分类)为B类别的次数。召回率(Recall)和精度(Precise)是广泛用于统计学分类领域的两个度量值,用来评估分类结果的质量。 召回率(Recall Rate,也叫查全率)是检索出的相关文档数和文档库中所有的相关文档数的比率, 阅读全文
摘要:
从表中删除数据,或导致行移动的更新操作,通常会把数据从表中就地删除,并释放行所占用的存储空间,但是在某些情况下,该行实际上可以作为幽灵数据保留在数据页上。一行数据从索引页面的叶级别删除,并不总是实时从数据页中物理删除,而是把该记录标记为已删除,这个记录称作幽灵(ghost)记录。这意味着该行数据仍然 阅读全文
摘要:
产品数据库的环境是: Microsoft SQL Server 2017(14.x),有一个ETL运行失败,从系统中查看到错误消息是: Cannot continue the execution because the session is in the kill state. 从错误消息中推测,应 阅读全文
摘要:
在回归分析中,线性模型的一般预测公式是: 是预测值,读作"y hat",是特征的线性组合,把向量w称作 coef_(系数),公式是: 把w0称作intercept_(截距),这两个属性是线性模型的共有属性。 一,线性回归 最基本的线性模型是线性回归,也称作最小二乘法(OLS),线性回归的原理是:计算 阅读全文
摘要:
sklearn.neighbors 提供了针对无监督和受监督的基于邻居的学习方法的功能。监督的基于最邻近的机器学习算法是值:对带标签的数据的分类和对连续数据的预测(回归)。 无监督的最近算法是许多其他学习方法的基础,尤其是流形学习(manifold learning)和频谱聚类(spectral c 阅读全文
摘要:
基于最邻近算法的分类,本质上是对离散的数据标签进行预测,实际上,最邻近算法也可以用于对连续的数据标签进行预测,这种方法叫做基于最邻近数据的回归,预测的值(即数据的标签)是连续值,通过计算数据点最临近数据点平均值而获得预测值。 一,sklearn的knn回归 scikit-learn实现了两个不同的最 阅读全文
摘要:
SQL Server 列存储系列: SQL Server 列存储索引 第一篇:概述 SQL Server 列存储索引 第二篇:设计 SQL Server 列存储索引 第三篇:维护 SQL Server 列存储索引 第四篇:实时运营数据分析 实时运营数据分析(real-time operational 阅读全文
摘要:
SQL Server 列存储系列: SQL Server 列存储索引 第一篇:概述 SQL Server 列存储索引 第二篇:设计 SQL Server 列存储索引 第三篇:维护 SQL Server 列存储索引 第四篇:实时运营数据分析 列存储索引分为两种类型:聚集的列存储索引和非聚集的列存储索引 阅读全文
摘要:
SQL Server 列存储系列: SQL Server 列存储索引 第一篇:概述 SQL Server 列存储索引 第二篇:设计 SQL Server 列存储索引 第三篇:维护 SQL Server 列存储索引 第四篇:实时运营数据分析 列存储索引可以是聚集的,也可以是非聚集的,用户可以在表上创建 阅读全文
摘要:
SQL Server 列存储系列: SQL Server 列存储索引 第一篇:概述 SQL Server 列存储索引 第二篇:设计 SQL Server 列存储索引 第三篇:维护 SQL Server 列存储索引 第四篇:实时运营数据分析 在2017年,我第一次接触列存储索引(ColumnStore 阅读全文
摘要:
对于数据框,可以按照行或列,计算相邻两个元素的之间的差值或变化百分比, 有如下数据框: >>> df = pd.DataFrame({'a': [1, 2, 3, 4, 5, 6], ... 'b': [1, 1, 2, 3, 5, 8], ... 'c': [1, 4, 9, 16, 25, 36 阅读全文
摘要:
游标(Cursor)是SQL Server的一种数据访问机制,它使得程序可以逐行处理数据,即允许用户访问单独的数据行,对每一行数据进行单独的处理。 一,创建游标对象 创建游标对象,注意不是游标变量,游标名称不需要带前导@: DECLARE cursor_name CURSOR [ LOCAL | G 阅读全文
摘要:
查看Windows 用户和组 查看Windows 用户和组,可以使用扩展命令: xp_logininfo [ [ @acctname = ] 'account_name' ] [ , [ @option = ] 'all' | 'members' ] [ , [ @privilege = ] var 阅读全文
摘要:
时间序列是在时间点上形成的数值序列,时间序列预测是通过观察历史数据预测未来的值。ARIMA模型(Autoregressive Integrated Moving Average model)是时间序列预测分析方法之一,全称叫做自回归差分移动平均模型。 本文是看网上博客整理而来,原始文章是: 时间序列 阅读全文
摘要:
计算两个数字向量u和v之间的距离函数 1,欧氏距离(Euclidean distance) 在数学中,欧几里得距离或欧几里得度量是欧几里得空间中两点间“普通”(即直线)距离。使用这个距离,欧氏空间成为度量空间。计算公式为 二维空间中的欧氏距离: 三维空间中的欧式距离: n维空间中的欧式距离: x = 阅读全文
摘要:
简单来说,每一个以扩展名py结尾的Python源代码文件都是一个模块(Module),其他文件可以通过导入一个模块的内容。从本质上来说,导入就是载入另一个文件,并能够读取该文件的内容。 默认情况下,第一次导入模块之后,后续的导入将不再工作。这是因为导入是一个开销很大的操作,需要编译成字节码,并且运行 阅读全文
摘要:
pyodbc是Python包,使用ODBC驱动器来连接SQL Server数据库,pyodbc的基本类型是Connection,Cursor和Row,其中,Connection表示客户端和数据库的连接,并用于提交事务;Cursor表示向数据库发送的查询请求,Row表示获取的结果集。 从微软官方文档来 阅读全文
摘要:
pymssql包是Python语言用于连接SQL Server数据库的驱动程序(或者称作DB API),它是最终和数据库进行交互的工具。SQLAlchemy包就是利用pymssql包实现和SQL Server数据库交互的功能的。 一,pymssql包的基本组成 pymssql包由两个模块构成:pym 阅读全文