09 2020 档案
摘要:词向量: GloVe词向量:2014年的英文维基百科上训练。400k词,每个词用100维向量表示。 数据集: 20种新闻文本数据。 建模步骤: 1.把新闻样本转化为词索引序列。 词索引:每个词依次分配一个ID,只保留最常见的词(设置vocabulary_size)。 2.生成一个词向量矩阵。第i行表
阅读全文
摘要:Lambda架构介绍 https://blog.csdn.net/rav009/article/details/85690985 从业务角度,数据的应用有实效性,常见电子商务。有的数据的应用对实效性要求比较低。比如客户画像分析。 所以lambda架构分为两种解决方法。 第一种是speed layer
阅读全文
摘要:Keras介绍 keras建立变量后,会建立一个“计算图”。计算图规定了各个变量之间的计算关系。之后往计算图中输入数据,在整个模型形成数据。 https://github.com/MoyanZitto/keras-cn Moyan等大佬的翻译 http://blog.keras.io/ keras作
阅读全文
摘要:Kalfka是一个集群模式。 生产者生产数据放到消息系统(Kalfka)中,消费者从Kalfka中读取数据。
阅读全文
摘要:模式设计基础 1.表至少有一个主键。 2.只有主键才会被索引。(考虑查询会使用什么作为条件) 3.不能更新主键。 4.只有主键才能被用来做表分区。 主键和列的设计 设计表模式,最重要的一项是决定你的主键。你只能将主键用作分区模式的一部分,但无法更新它们。 其他列可以通过update和upsert选项
阅读全文
摘要:KUDU开发 使用MapReduce、Spark或Impala,你可以读取Kudu表并将其写入HDFS KUDU API Kudu以结构化、强类型的方式存储数据,因此可以提供KUDU的SQL访问。 目前你可以Spark Sql来访问和操作数据。还可以使用Impala。Impala是Hadoop生态系
阅读全文
摘要:为什么要使用云端? 当你要部署一个应用的多个副本时,每个副本要有自己的私有数据。 与虚拟机的区别 借助虚拟机你可以在单个主机运行Windows和Linux。虚拟机的缺点在于需要大量的磁盘空间。 比如Linux虚拟机至少需要一个处理核心和1GB内存。Windows虚拟机可能需要两个处理核心和4GB内存
阅读全文
摘要:master服务器和tablet服务器 这些服务器是管理表的,而表又是tablet(分区)组成的。(分区)分散在各个tablet服务器上。 通常一个集群包含3个master服务器(为了保证部分服务器故障时,程序仍能提供服务) master服务器上有一个分区,这个分区保存了系统目录表的元数据。还有一个
阅读全文
摘要:行存储 行存储系统是以行的方式组织数据。行存储适合OLTP在线处理系统。 优点:数据写入更快。 不足,随着OLAP系统(在线分析系统)需求增多,数据写入和查询都不是关注点。变成了数据过滤,统计。 行存储举例 列存储 列存储以列的方式存储数据。 优点:有利于统计 不足:需要将每一列存储到对应的位置。
阅读全文
摘要:Kudu介绍 需要实时分析应用场景下,便可能用到Kudu。 2.Kudu提供了更接近于RDBMS的功能和数据模型,提供类似于关系型数据库的存储结构来存储数据,允许用户以和关系型数据库相同的方式插入、更新、删除数据。 3.Kudu仅仅是一个存储层,然而它并不存储数据,而是依赖外部的Hadoop处理引擎
阅读全文
摘要:进程 进程是程序运行实例,运行在计算机中的多个进程都被分配了一个称为进程ID的数字。 列出占用CPU最多的前5个进程: $ ps -eo comm,pcpu --sort -pcpu | head -5 comm:可执行文件名。 pcpu:cpu占用率。 top命令: top会列出CPU占用最高的进
阅读全文
摘要:TCP/IP TCP/IP网络运作过程就是节点之间传递(parket)。每个分组包含了IP地址,相关应用程序端口号。 节点接收到分组时,它会查看自己是否就是该分组的目的地。 如果是,节点会检查端口号调用相应的应用程序来处理分组数据。 如果不是,节点会将分组发送到距离最终目的地更近的下一个节点。 DN
阅读全文
摘要:序列标注问题 给定一个序列x1x2x3....xn,列出序列中每个元素对应的标签y1y2y3.....yn问题。 应用场景:中文分词,词性标注,命名实体识别 中文分词:{B,M,E,S}:将一句话的每个字打上一个标签,B代表词首,M代表词中, E代表词尾,S代表单字 词性标注:给每个词语标注一个词性
阅读全文
摘要:tar命令归档文件 tar可以将多个文件和文件夹打包为单个文件,同时还能保留所有的文件属性 示例一: tar -tf
阅读全文
摘要:git: 修订版本控制系统 linux安装方式: sudo yum install git-all Windows系统安装: 去这个网址:https://git-scm.com/downloads 创建git仓库: $ git init git init命令会在当前工作目录下创建子目录.git并初始
阅读全文
摘要:sed替换文本 1.文本替换: cat file | sed "s/pattern/replace_string" file 2.使用-i选项,sed将替换结果应用于file文件(sed默认打印出被替换的文本) sed -i "s/text/replace/" file 3.由于sed默认只替换每行
阅读全文
摘要:使用场景: 多名开发人员共事时,某个人对于文件的修改必须告知他人,通常不会发送整个源代码,知识发送一个差异文件。 用法: diff -u version1.txt version2.txt diff输出中,以+起始的是新加入的行,以-起始的是被删除的行。 diff -u version1.txt v
阅读全文
摘要:查看权限 输入ls -l可以列出文件权限相关信息: 第一列是文件类型: -:代表普通文件,d:代表目录 接下来的9个字符分为三个部分 依次代表:用户权限、用户组权限、其他用户权限。 字符如果是-,表示没有设置对应权限。 r表示该文件、设备和目录可读 w表示可以被修改,如果是目录,就表示可以在目录下创
阅读全文
摘要:将制表符显示^I 制表符和空格,在文本编辑器中,看起来差不多。可以利用cat命令的-T特性,将制表符识别出来 find /home/slynux -name
阅读全文
摘要:shell脚本定义变量 查看当前shell中定义的全部环境变量: PID/environ,PID是相关进程的进程ID 生成易读的报表,将cat命令的输出通过管道传给tr,将其中\0替换成\n,因为该文件默认以\0分隔 cat /proc/1
阅读全文
摘要:linux如何将新的路径添加到环境变量的起始部分? 环境变量保存了可用于搜索的可执行文件、库文件等的路径列表 比如下面两个环境变量 PATH=/usr/bin; /bin LD_LIBRARY_PATH=/usr/lib; /lib 现在新安装了一个程序,需要为新的可执行文件和库文件添加特定路径。
阅读全文
摘要:数学运算操作 1.let命令实现变量间的操作 #!/bin/bash no1=4; no2=5; let result=no1+no2 echo [ no1+ no2 ]
阅读全文
摘要:文件描述符与重定向 预备知识: 文件描述符是与输入和输出流相关联的整数。stdin 0(标准输入)、stdout 1(标准输出)、stderr 2(标准错误) linux可以将某个文件描述符的内容重定向到另一个文件描述符内容中。 重定向操作符(>和>>),两者都可将文本重定向到文件,前者会先清空文件
阅读全文