摘要:
在linux上,使用yum安装,默认安装完成之后会删除下载的rpm包;想要yum安装软件后,还保留安装包,那么需要修改/etc/yum.conf配置文件中的keepcache参数。 使用vim或者sed修改 不懂sed的,就使用vim修改 把文件夹下的所有rpm包复制到指定文件夹 阅读全文
摘要:
cp命令用来将一个或多个源文件或者目录复制到指定的目的文件或目录。它可以将单个源文件复制成一个指定文件名的具体的文件或一个已经存在的目录下。cp命令还支持同时复制多个文件,当一次复制多个文件时,目标文件参数必须是一个已经存在的目录,否则将出现错误。 语法 选项 参数 源文件:制定源文件列表。默认情况 阅读全文
摘要:
标准动作 在脚本第一行指定编码格式: 将默认的ascii字符流处理方式变为utf-8: 把各种字符都统一成unicode来处理 常见字符编码知识 ascii编码 是最早使用、最常见的一种字符编码,包含了128个字符(英文字母、数字、符号、控制字符等),也是下面讲到的所有编码的公共集合。 ISO885 阅读全文
摘要:
上述代码中,bg.jpg图片如下,是一只豹子的剪影,像一个在黑暗森林中潜伏的猎人: 注:作为词云背景的图片一定要轮廓分明,且图片主体颜色要和图片自身的背景颜色对比度较大,这样生成的词云图片才能更清晰。一般剪影图片更容易满足这种要求。 此外,三体全集santi.txt文本从网上很好搜到。 运行上述代码 阅读全文
摘要:
https://www.cnblogs.com/jiayongji/p/7119072.html 文本准备 到网上随便一搜"三体全集",就很容易下载到三体三部曲的全集文本(txt文档大概有2~3Mb),这里重命名为santi.txt,并存放到当前目录下。 读取三体全集文本 可以看出文本的长度有268 阅读全文
摘要:
https://www.cnblogs.com/jiayongji/p/7119065.html 安装 简单用法 结巴分词分为三种模式:精确模式(默认)、全模式和搜索引擎模式,下面对这三种模式分别举例介绍: 精确模式 可见分词结果返回的是一个生成器(这对大数据量数据的分词尤为重要)。 全模式 可见全 阅读全文
摘要:
sed:Stream Editor文本流编辑,sed是一个“非交互式的”面向字符流的编辑器。能同时处理多个文件多行的内容,可以不对原文件改动,把整个文件输入到屏幕,可以把只匹配到模式的内容输入到屏幕上。还可以对原文件改动,但是不会再屏幕上返回结果。 sed命令的语法格式: sed的命令格式: sed 阅读全文
摘要:
https://www.cnblogs.com/edgedance/p/7044753.html 查看多核CPU命令mpstat -P ALL 和 sar -P ALL 说明:sar -P ALL > aaa.txt 重定向输出内容到文件 aaa.txt top命令经常用来监控Linux的系统状况, 阅读全文
摘要:
kafka简介(摘自百度百科) 简介: kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Ha 阅读全文
摘要:
通常用gzip压缩过的云端数据需要做解压处理,以下代码主要用python3实现对获取到的云端gzip压缩数据进行还原。 从/opt/mat/*.gz文件中读取每一行,找到包含'GET~#~ ~#~'或者'POST~#~ ~#~'的输出该行 阅读全文