摘要:
在数据处理中,分箱、分组是一种常见的技术,用于将连续数据的间隔分组到“箱”或“桶”中。我们将讨论以下两种方法: 使用 Pandas 的 between 和 loc 方法: between 方法返回一个布尔向量,指示 Series 元素是否位于给定的边界值之间。 loc 方法用于根据条件选择数据。 示 阅读全文
摘要:
问题 假设我们有一张超大的订单表(N亿),里面有order_id、user_id等字段。 能通过order_id快速查找对应订单 能通过user_id快速查找该用户具有的订单列表 像上面这样的要求改怎样做呢?通过哈希订单ID取模?那如何满足通过用户ID快速查找订单列表呢? 什么是基因算法 理论: H 阅读全文
摘要:
不久之前在配置CentOS 7网络,记录一下操作过程。 CentOS 7,你可以按照以下步骤配置网络: 打开终端,输入命令查看本台服务器的IP信息。 ip a 输入命令查看网关。 ip r 输入命令查看服务器的DNS。 cat /etc/resolv.conf 输入vim /etc/sysconfi 阅读全文
摘要:
一级来源:https://toutiao.io/posts/0kwkbbt 二级来源:https://mp.weixin.qq.com/s?__biz=MjM5NzMyMjUwMg==&mid=2247500397&idx=1&sn=1dfe1dfdd8374d326cd36db8366663dd 阅读全文
摘要:
如果遇到Python正在运行中的进程卡住,找不到原因。可以试试以下工具方法, 对于python就像jstack对于java一样。 ### 法一 使用pystack-debugger #### 安装方式如下: ```bash yum install gdb pip install pystack-de 阅读全文
摘要:
#### hive如何实现两个区域人均利润一样的时候,排名一样,出现1、2、2、3、4,这种重复排名的情况? 1. 方案一 在Hive中,可以使用窗口函数和排名函数来实现重复排名的情况。具体步骤如下: 使用窗口函数计算每个区域的人均利润,并按照人均利润降序排列。 使用排名函数对每个区域的人均利润进行 阅读全文
摘要:
如何排查网络丢包问题 原文链接:https://mp.weixin.qq.com/s/k0s0kYSpCdF8SHBotuWCrg 要明白一个知识点,首先要快速的对这个知识点建立一个概念模型,有了概念模型之后,再在这个模型上不断的去填充一些细节的东西,会有助于我们把握知识的本质。 带宽是什么? 带宽 阅读全文
摘要:
# Hive Hive官网:https://hive.apache.org/ ##### 简介 Hive是由Facebook开发,后来由Apache软件基金会开发,并作为进一步将它作为名义下Apache Hive为一个开源项目。Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thri 阅读全文
摘要:
Python ipset iptables 实现蜜罐 自动封堵扫描者IP 蜜罐可以诱捕入侵者,但无法实时封堵入侵者,必须在事后通过日志进行手工封堵。 有没有什么办法可以实现自动封堵入侵者IP? iptables 实际上是带这个功能的,它是基于 ipset 实现的。通过 iptables 规则可以自动 阅读全文
摘要:
问题1 并发场景下,常常会出现一个进程最大文件句柄数不足的情况,会报如下错误: 24: Too many open files 解决办法 ulimit -a S:表示软限制,超出设定的值会告警。 H :表示硬限制,超出设定的值会报错。 a :列出系统所有资源限制的值 c:当某些程序发生错误时,系统可 阅读全文