摘要:在Linux登录Mysql主要有: 1. 登录本地mysql: mysql -u 用户名 -p # 例如 mysql -u root -p #先输入,回车 # 也可不用空格 mysql -u用户名 -p 然后提示输入密码,回车即可; 2. 登录远程mysql:有主机名和端口号,有时也没有端口号 my
阅读全文
摘要:用惯了hive的row_number,在Mysql中想要使用分组排序的功能时,却发现不那么简单 —— 貌似不能一个函数解决。 有时候又特别需要使用,怎么办呢?不慌,这也还是有方法的。 首先建立数据表: create table t_variable ( name_people VARCHAR(255
阅读全文
摘要:Mysql用户变量的形式是:@var,其可以使用的场合很多,例如新增一列排序值、分组排序等。 下面让我们来探讨一下其部分应用场景。 1. 首先建表,插入数据: create table t_variable ( name_people VARCHAR(255) NOT NULL comment '姓
阅读全文
摘要:本篇主要讲述Mysql的curdate、curtime、date_add、date_sub、datediff、timediff等函数。 1. 获取当前的日期时间:now select now(); #获取当前的日期时间 2. 当前日期、时间:curdate、curtime select curdat
阅读全文
摘要:用Python实现爬虫的包有很多,可以结合使用,但是目前个人觉得BeautifulSoup至少在看上去会更方便和美观一些。 这里只涉及静态网页的爬取,暂不支持cookie、session等。 Python实现微博热搜榜的爬取 微博热搜地址:https://s.weibo.com/top/summar
阅读全文
摘要:python的内置函数中,有一对函数:chr 和 ord,有着相反的功能。 1. chr(x):用一个数值作参数,返回一个对应的unicode字符,该参数的有效范围是从0到1114111(16进制时为0x10FFFF),参数可以是十进制,也可以是十六进制。 print(chr(105)) # > i
阅读全文
摘要:1. hive建表:create create table if not exists db_name.test_tb(id string, name string, age string, province string, score string)partitioned by (str_date
阅读全文
摘要:最近刚好用到距离相关的知识,于是过来回顾记录一下 ~~~ 相信大家都非常熟悉欧拉公式了,从小到大使用的最多的距离公式,比如两点之间的距离、点到直线的距离等。 如今,在机器学习等领域,还有一些其他的公式也应用的非常广,例如曼哈顿距离、余弦距离、马氏距离等。 这些距离部分直观表示如下: 其中,每个距离都
阅读全文
摘要:轮盘赌在遗传算法中应用的很多,效果也不错,而且它的思想很简单直观 —— 物竞天择、适者生存 —— 越强获得的资源越多 —— 在一个圆中,扇形的面积越大,圆中的点落在该扇形的概率越大。 其主要步骤是: 1. 计算每个个体被选中的概率p(在遗传算法中,先通过适应度函数计算适应度,然后根据适应度计算选择概
阅读全文
摘要:当你执行大型程序的时候,突然出现exception,会让程序直接停止,这种对服务器自动程序很不友好,而python有着较好的异常捕获机制,不会立刻终止程序。 这个机制就是try-except。 1. 发生异常时可配置备用程序 aa = [1,2,4,5,7,0,2] for ii in aa: tr
阅读全文
摘要:在做数据分析或者统计的时候,经常需要进行数据正态性的检验,因为很多假设都是基于正态分布的基础之上的,例如:T检验。 在Python中,主要有以下检验正态性的方法: 1. scipy.stats.shapiro —— Shapiro-Wilk test,属于专门用来做正态性检验的模块,其原假设:样本数
阅读全文
摘要:在python中,用于数组拼接的主要来自numpy包,当然pandas包也可以完成。 而,numpy中可以使用append和concatenate函数: 1. 建立数组 # pandas有专门的连接方法 import numpy as np # np.size(a, 0) 行数 # np.size(
阅读全文
摘要:hive中可用于分组排序的函数主要有:row_number,rank,dense_rank,它们分别有不同的特点,关键词主要用到:partition by和order by等。 【1】row_number:排序时给每一行分配唯一的顺序,相同行顺序也不同 select age, grade, row_
阅读全文
摘要:ROC曲线:全称 Receiver Operating Characteristic曲线,即受试者工作特性曲线,在机器学习领域常用于判断分类器的好坏。 要了解ROC曲线,首先要了解该曲线的横纵坐标 —— FPR(1-特异度)和TPR(召回率或者灵敏度)。 1. 基本概念 —— 混淆矩阵 绘制混淆矩阵
阅读全文
摘要:1. 稀疏矩阵的建立:coo_matrix() from scipy.sparse import coo_matrix # 建立稀疏矩阵 data = [1,2,3,4] row = [3,6,8,2] col = [0,7,4,9] c = coo_matrix((data,(row,col)),
阅读全文
摘要:mysql中的条件语句主要有if 和case when。 首先,一个初始表格:felix_test 1. IF(expr1,expr2,expr3):如果第一个条件为True,则返回第二个参数,否则返回第三个 select if(author='Felix', 'yes', 'no') as AU
阅读全文
摘要:类似于mysql,hive中也有处理日期和时间的方法。 1. 日期转时间戳:unix_timestamp select unix_timestamp('2020/03/25 15:54:24', 'yyyy/MM/dd HH:mm:ss') from db_name.tb_name # 如果不写第二
阅读全文