09 2018 档案
摘要:spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。 在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。 首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。 而合并就用到union函数,重新入库,就
阅读全文
摘要:将一个字段分组,统计每组重复个数,并排序 SELECT Customer, OrderDate, count(*) as Num FROM `all_orders` GROUP BY Customer, OrderDate ORDER BY Num
阅读全文
摘要:连接Mysql file->data source general 填写host,port,user,password, 下载驱动,先别test connection 在ssh中填写host,port,suer,password, 点击test connection 在回头点击general中的te
阅读全文
摘要:https://blog.csdn.net/five3/article/details/78615589 https://blog.csdn.net/Aerry_ale/article/details/81566832 file >setting add >ssh interpreter 标记部分填
阅读全文
摘要:飞机票 一、 首先你需要一个github账号,所有还没有的话先去注册吧! https://github.com/ 我们使用git需要先安装git工具,这里给出下载地址,下载后一路直接安装即可: https://git-for-windows.github.io/ 1.进入Github首页,点击New
阅读全文
摘要:这段代码等同于: python 中 counter用法 >>>from collections import Counter >>>c = Counter()>>>for ch in 'programing':... c[ch]=c[ch]+1 >>>cCounter({'g': 2, 'r': 2
阅读全文
摘要:1.比如我要在anaconda环境下安装一个包 就将安装目录切换到anaconda,随即安装即可
阅读全文
摘要:飞机票 飞机票 步骤: 1. 离线求的模型 2. 用模型对新文本预测topic,取topic概率带到阈值(例如0.2)且topN个topic,例如doc1 :topic1:0.5, topic2:0.2 3. 用户点击doc1,就说明用户对topic1和topic2感兴趣,保存用户新闻分析结果,以待
阅读全文
摘要:数据预处理 标准化 (Standardization) 规范化(Normalization) 二值化 分类特征编码 推定缺失数据 生成多项式特征 定制转换器 1. 标准化Standardization(这里指移除均值和方差标准化) 标准化是很多数据分析问题的一个重要步骤,也是很多利用机器学习算法进行
阅读全文
摘要:看不见的叫做远方 飞机票 分类 回归 聚类 降维 模型选择 预处理
阅读全文
摘要:update 语句可用来修改表中的数据, 简单来说基本的使用形式为: update 表名称 set 列名称=新值 where 更新条件; 以下是在表 students 中的实例: 将 id 为 5 的手机号改为默认的 - : update students settel=default where
阅读全文
摘要:delete 语句用于删除表中的数据, 基本用法为: delete from 表名称 where 删除条件; 以下是在表 students 中的实例: 删除 id 为 3 的行: delete from students where id=3; 删除所有年龄小于 21 岁的数据: delete fr
阅读全文
摘要:LIKE用法 SELECT * FROM TABLE WHERE col Like '%a';//检索以a结尾的内容 SELECT * FROM TABLE WHERE col Like '%a%';//检索包含a的内容 SELECT * FROM TABLE WHERE col Like 'a%'
阅读全文
摘要:你可以使用任何字段来作为排序的条件,从而返回排序后的查询结果。 你可以设定多个字段来排序。 你可以使用 ASC 或 DESC 关键字来设置查询结果是按升序或降序排列。 默认情况下,它是按升序排列。 你可以添加 WHERE...LIKE 子句来设置条件。 如果字符集采用的是 gbk(汉字编码字符集),
阅读全文
摘要:GROUP BY 语句根据一个或多个列对结果集进行分组。 在分组的列上我们可以使用 COUNT, SUM, AVG,等函数。 因为聚合函数通过作用于一组数据而只返回一个单个值, 因此,在SELECT语句中出现的元素要么为一个聚合函数的输入值, 要么为GROUP BY语句的参数,否则会出错反, HAV
阅读全文
摘要:删除表内数据,用 delete。格式为: 实例:删除学生表内姓名为张三的记录。 清除表内数据,保存表结构,用 truncate。格式为: 实例:清除学生表内的所有数据。 删除表用 drop,就是啥都没了。格式为: 实例:删除学生表。 1、当你不再需要该表时, 用 drop; 2、当你仍要保留该表,但
阅读全文
摘要:飞机票 面向对象是一种编程方式,此编程方式的实现是基于对 类 和 对象 的使用 类 是一个模板,模板中包装了多个“函数”供使用(可以讲多函数中公用的变量封装到对象中) 对象,根据模板创建的实例(即:对象),实例用于调用被包装在类中的函数 面向对象三大特性:封装、继承和多态 本篇将详细介绍Python
阅读全文
摘要:飞机票 概述 面向过程:根据业务逻辑从上到下写垒代码 函数式:将某功能代码封装到函数中,日后便无需重复编写,仅调用函数即可 面向对象:对函数进行分类和封装,让开发“更快更好更强...” 面向过程:根据业务逻辑从上到下写垒代码 函数式:将某功能代码封装到函数中,日后便无需重复编写,仅调用函数即可 面向
阅读全文
摘要:读文件 打开一个文件用open()方法(open()返回一个文件对象,它是可迭代的): r表示是文本文件,rb是二进制文件。(这个mode参数默认值就是r) 如果文件不存在,open()函数就会抛出一个IOError的错误,并且给出错误码和详细的信息告诉你文件不存在: 文件使用完毕后必须关闭,因为文
阅读全文
摘要:1.数据类型:字符串,列表,元组,字典,集合。处理每种数据类型的函数 2.判断与循环部分 3.高级函数:lambda,map,reduce,filter 4.自定义模块以及第三方模块 5.函数式编程 6.文件读写编程 7.面向对象编程 8.正则表达 9.线程与进程
阅读全文
摘要:飞机票 一.列表方法 1.ls.extend(object) 向列表ls中插入object中的每个元素,object可以是字符串,元组和列表(字符串“abc”中包含3个元组),相当于ls和object合并。注意:object如果是整型,必须以列表的方式传入,不可以以整型或元组的方式传入 2.ls.a
阅读全文
摘要:当我们从数据库中获取一写数据后,一般对于列表的排序是经常会遇到的问题,今天总结一下python对于列表list排序的常用方法: 第一种:内建方法sort() 可以直接对列表进行排序 用法: list.sort(func=None, key=None, reverse=False(or True))
阅读全文