随笔档案「2023年9月」 - bonelee

机器学习算法原理实现——朴素贝叶斯

摘要：【先说条件概率】条件概率是指在某个事件发生的条件下，另一个事件发生的概率。以下是一个实际的例子：假设你有一副扑克牌（不包括大小王，共52张牌），你随机抽一张牌。我们设事件A为"抽到的牌是红色的"（红心和方块为红色，共26张），事件B为"抽到的牌是心"（红心共13张）。1. 首先，我们可以计算事件A 阅读全文

posted @ 2023-09-30 23:21 bonelee 阅读(478) 评论(0) 推荐(0)

机器学习算法原理实现——最大熵模型

摘要：【写在前面】在sklearn库中，没有直接称为"最大熵模型"的类，但是有一个与之非常相似的模型，那就是LogisticRegression。逻辑回归模型可以被视为最大熵模型的一个特例，当问题是二分类问题，且特征函数是输入和输出的线性函数时，最大熵模型就等价于逻辑回归模型。【最大熵模型的原理】最阅读全文

posted @ 2023-09-30 18:00 bonelee 阅读(608) 评论(0) 推荐(0)

大模型强化学习——PPO项目实战

摘要：【PPO算法介绍】 PPO（Proximal Policy Optimization）是一种强化学习算法，它的目标是找到一个策略，使得根据这个策略采取行动可以获得最大的累积奖励。PPO的主要思想是在更新策略时，尽量让新策略不要偏离旧策略太远。这是通过在目标函数中添加一个额外的项来实现的，这个额外的项阅读全文

posted @ 2023-09-30 09:46 bonelee 阅读(7959) 评论(2) 推荐(0)

GLM大模型训练

摘要：ChatGPTBook/LLMFTProj Name Last commit message Last commit date parent directory .. ChatGLM-6B (Directory) update code 3 months ago data (Directory) u 阅读全文

posted @ 2023-09-28 16:32 bonelee 阅读(342) 评论(0) 推荐(0)

大模型中的提示学习——情感预测示例项目

摘要：【提示学习】提示学习（Prompting）是一种自然语言处理（NLP）中的训练技术，它利用预训练的语言模型（如BERT、GPT等）来解决各种下游任务，如文本分类、命名实体识别、问答等。这种方法的关键思想是通过设计合适的提示（Prompt），将下游任务转化为一个填空任务，然后利用预训练的语言模型来预阅读全文

posted @ 2023-09-27 16:31 bonelee 阅读(540) 评论(1) 推荐(0)

大模型增量训练--基于transformer制作一个大模型聊天机器人

摘要：针对夸夸闲聊数据集，利用UniLM模型进行模型训练及测试，更深入地了解预训练语言模型的使用方法，完成一个生成式闲聊机器人任务。项目主要结构如下： data 存放数据的文件夹 dirty_word.txt 敏感词数据 douban_kuakua_qa.txt 原始语料【数据量：大概20M的样子】= 阅读全文

posted @ 2023-09-27 11:32 bonelee 阅读(1134) 评论(0) 推荐(0)

金融领域预训练模型用于分类任务，大模型应用参考

摘要：在bert的基础上加了一个分类层：代码实现： output = bert.model.output output = Lambda(lambda x: x[:, 0], name='CLS-token')(output) output = Dense( units=num_classes, act 阅读全文

posted @ 2023-09-24 19:31 bonelee 阅读(290) 评论(2) 推荐(0)

一些大模型生成图片和视频的站点

摘要：生成图片： https://clipdrop.co/stable-diffusion?output=true 效果比百度文心的好比如我让他生成美女坐在月亮上（beauty sitting on the moon）效果如下：生成视频 https://app.runwayml.com/video-t 阅读全文

posted @ 2023-09-23 16:29 bonelee 阅读(133) 评论(0) 推荐(0)

图像生成Diffusion技术和stable diffusion原理说明——Diffusion是加入图片模糊化的噪声再用GAN，Stable Diffusion是融入了CLIP

摘要：在图像处理和计算机视觉领域，Diffusion技术也有广泛的应用。以下是一些具体的应用示例：1. 图像去噪：Diffusion技术可以用于图像去噪。原理是通过模拟扩散过程，平滑图像中的噪声，同时保留图像的主要特征。这种方法通常被称为非线性扩散滤波或各向异性扩散滤波。2. 图像分割：Diffusion 阅读全文

posted @ 2023-09-23 16:05 bonelee 阅读(628) 评论(0) 推荐(0)

【转载】人人都能看懂的大模型原理（五）

摘要：五、组合创新理论和智能涌现回顾如上文所述，大模型只是学习数据内在模式的分布。生成的过程是采样并解码出数据。那么AIGC怎么可能有创新能力呢？然而现实中大模型表现出很强的创新能力，广泛用于作画和写文章。大模型表现出的创新能力来源哪里呢？大模型为什么会出现幻觉呢？这一章，我们一起来揭开这些现象的神秘阅读全文

posted @ 2023-09-22 16:49 bonelee 阅读(269) 评论(0) 推荐(0)

【转载】人人都能看懂的大模型原理（四）

摘要：四、 AIGC可控生成原理本章我们将揭露AIGC的神秘面纱，解答AIGC和大模型的区别和关系。我们也将讨论open AI和其他大模型公司的关键区别点，为什么他们能够遥遥领先。本章试图从机器学习理论出发，对图像生成和文本生成建立统一的理论。本章诸多理论和观点均为作者原创，如有纰漏，请包含，也希望大家阅读全文

posted @ 2023-09-22 16:37 bonelee 阅读(495) 评论(0) 推荐(0)

【转载】人人都能看懂的大模型原理（三）

摘要：三、多头注意力算子和transformer 如前文所述，我们已经发现了自监督学习特性，也发明了对应的代理任务，接下来我们需要发明一种具体的算子能够实现这种代理任务。在介绍self-attention之前，我们先介绍一下传统CNN和RNN方案是怎么来的，他们的理论依据是什么。他们的优点和短板是什么。阅读全文

posted @ 2023-09-22 16:22 bonelee 阅读(383) 评论(0) 推荐(0)

【转载】人人都能看懂的大模型原理（二）

摘要：二、自然语言的自解释性和自监督学习方法为了训练一个超级大的模型，我们需要准备海量的数据。然而我们不可能对全部数据进行标注。比如在自动驾驶领域，标注2000W公里的数据需要耗费上亿资金。然而如果最后量产车100W辆的话，每辆车只开20公里，就达到2000W公里了。实际上每台车一年要运行1.5W公里。阅读全文

posted @ 2023-09-22 12:14 bonelee 阅读(401) 评论(0) 推荐(0)

【转载】人人都能看懂的大模型原理（一）

摘要：前言当前大模型的学习资源呈现爆发趋势，各种角色的人都用自己的视角参与到大模型的讨论。但是我发现这些学习资源都有几个特点：只摆事实而不讲道理；只讲应用可能而不提实现代价；只讲可能性而缺乏实操经验分享；洞察材料比比皆是而缺乏深入分析。当然，大模型的技术体系非常庞大，全面了解非常困难。从横向来看，涉及到阅读全文

posted @ 2023-09-22 12:04 bonelee 阅读(1781) 评论(0) 推荐(0)

机器学习算法原理实现——pca降维

摘要：pca降维的通俗理解 PCA降维可以被通俗地理解为一个“信息压缩”的过程。假设你有一个多维的数据集，每个维度都包含一些信息。但是，这些维度之间可能存在一些关联，这就意味着一些信息是被重复的。PCA就是要找出这些重复的信息，并尽可能地去除它们，从而降低数据的维度。举个例子，假设你在一个水果店里，你有苹阅读全文

posted @ 2023-09-22 00:40 bonelee 阅读(508) 评论(0) 推荐(0)

shellcode工具汇总

摘要：1、shellcode提取 https://github.com/hasherezade/pe-sieveshellcode扫描和内存可疑hook扫描工具虽有误报但是对于调查取证还是够用的 2、shellcode模拟speakeasy -t payload.bin -r -a x64* exec: 阅读全文

posted @ 2023-09-21 17:04 bonelee 阅读(324) 评论(0) 推荐(0)

windows下进程注入的各种技术汇总、代码示例和检测思考

摘要：注入类型 C++代码实现链接和检测思考检测优先级备注Portable Executable Injection - PE注入 https://www.cnblogs.com/bonelee/p/17719649.html 高核心还是创建远程线程，不过有PE重定位表的修复Thread Execu 阅读全文

posted @ 2023-09-21 12:18 bonelee 阅读(596) 评论(0) 推荐(0)

进程注入之Portable Executable Injection，PE注入的核心是创建远程线程，注意重定位表修复

摘要：PE（Portable Executable）注入是一种常见的代码注入技术，主要用于在目标进程中执行恶意代码。以下是PE注入的基本流程：1. 获取当前PE映像的基地址：使用GetModuleHandle(NULL)函数获取当前PE映像（即要注入的代码）的基地址。2. 复制PE映像：使用Virtual 阅读全文

posted @ 2023-09-21 12:07 bonelee 阅读(616) 评论(0) 推荐(0)

进程注入之Extra Window Memory（额外窗口内存）注入——利用用户自定义的数据注入恶意代码

摘要：Extra Window Memory（额外窗口内存）注入是一种在Windows环境下隐藏恶意代码的技术。这种技术的基本思想是利用Windows的窗口子系统（Window Subsystem）中的一个特性：每个窗口都可以有一段额外的内存，这段内存可以用来存储用户自定义的数据。在Extra Windo 阅读全文

posted @ 2023-09-21 11:32 bonelee 阅读(550) 评论(0) 推荐(0)

超参数调优——网格搜索、随机搜索和贝叶斯优化

摘要：在Python中，我们可以使用sklearn.model_selection.GridSearchCV进行网格搜索。这是一个用于系统地遍历多种参数组合，通过交叉验证确定最佳效果参数的方法。它的主要目的是通过网格搜索在指定的值集合中找到最优的模型参数。以下是一个使用XGBoost分类器的网格搜索示例：阅读全文

posted @ 2023-09-20 23:54 bonelee 阅读(571) 评论(0) 推荐(0)

进程注入之ListPlanting——滥用listview控件的消息回调函数

摘要：效果：注入代码到“注册表编辑器”（当然，必须是要有listview这种列表显示才可以执行） Process Injection: ListPlanting Other sub-techniques of Process Injection (12) 看看官方的介绍 Adversaries may a 阅读全文

posted @ 2023-09-20 18:14 bonelee 阅读(177) 评论(1) 推荐(0)

进程注入之Process Doppelganging（进程替身或进程分身）——技术限制较大，win7 64下实验成功，在我的win11 64下失效

摘要：写在前面先说效果：win11 64位下 processrefund.exe calc.exe MalExe.exe [+] Got ntdll.dll at 0x7ff93ee10000 [+] Got NtCreateSection at 0x00007FF93EEAF580 参数错误。就算是阅读全文

posted @ 2023-09-20 17:28 bonelee 阅读(805) 评论(0) 推荐(0)

机器学习算法原理实现——随机森林，核心是就是行列抽样，可以并行

摘要：记得参考之前的文章机器学习算法原理实现——cart决策树：分类&回归随机森林算法训练步骤：代码实现（决策树复用了之前的深度剪枝实现）： # 导入numpy库 import numpy as np from sklearn.metrics import accuracy_score class 阅读全文

posted @ 2023-09-19 23:59 bonelee 阅读(160) 评论(0) 推荐(0)

进程注入Process Injection之Thread Local Storage——常用在恶意软件反调试，在OEP前检测是否有调试器存在进而exit程序

摘要：线程本地存储攻击者可能会通过线程本地存储 (TLS) 回调将恶意代码注入进程，以逃避基于进程的防御以及可能提升的权限。TLS 回调注入是一种在单独的实时进程的地址空间中执行任意代码的方法。 TLS 回调注入涉及操作可移植可执行文件 (PE) 内的指针，以在到达代码的合法入口点之前将进程重定向到恶意阅读全文

posted @ 2023-09-19 17:55 bonelee 阅读(327) 评论(0) 推荐(0)

C++ 11 中的 Thread Local Storage (TLS)应用——实际效果就是将全局变量在各个线程都copy一份，互不干扰独立使用

摘要：C++ 11 中的 Thread Local Storage (TLS) 线程本地存储 (TLS)是 C++ 11 中引入的一项功能，允许多线程程序中的每个线程拥有自己单独的变量实例。简而言之，我们可以说每个线程都可以有自己独立的变量实例。每个线程都可以访问和修改自己的变量副本，而不会干扰其他线程。阅读全文

posted @ 2023-09-19 17:53 bonelee 阅读(1890) 评论(0) 推荐(0)

windows进程注入技术——线程劫持C++示例和检测思考

摘要：线程劫持：运行方法 C:\Users\l00379637\source\repos\thread_hijack\x64\Release\thread_hijack.exe 18132 C:\Users\l00379637\source\repos\injected_dll\x64\Release\i 阅读全文

posted @ 2023-09-19 12:11 bonelee 阅读(1539) 评论(1) 推荐(0)

机器学习算法原理实现——lightgbm，核心leaf-wise生长结合数据和特征并行+直方图算法+单边梯度抽样+互斥特征捆绑

摘要：算法亮点： 1、leaf-wise生长策略+特征并行和数据并行让我们通过一个简单的例子来详细解释 LightGBM 的 Leaf-wise 生长策略。假设我们有以下的数据集：| 年龄 | 收入 | 购买 || | | || 20 | 3000 | 0 || 25 | 3500 | 0 || 30 阅读全文

posted @ 2023-09-18 23:59 bonelee 阅读(1253) 评论(0) 推荐(0)

机器学习算法原理实现——xgboost，核心是加入了正则化和损失函数二阶泰勒展开

摘要：先看总的图：本质上就是在传统gbdt的决策树基础上加入了正则化防止过拟合，以及为了让损失函数求解更方便，加入了泰勒展开，这样计算损失函数更方便了（除了决策树代码有差别，其他都是gbdt一样，本文仅实现xgboost的决策树）。如下：再解释各个步骤：。。。补充下：让gpt来汇总下：好了，我阅读全文

posted @ 2023-09-16 22:40 bonelee 阅读(815) 评论(0) 推荐(0)

机器学习算法原理实现——gbdt

摘要：前面的文章介绍了决策树的实现，我们基于之前决策树的实现（https://www.cnblogs.com/bonelee/p/17691555.html），写一个gbdt： import numpy as np from sklearn.model_selection import train_tes 阅读全文

posted @ 2023-09-16 16:59 bonelee 阅读(80) 评论(0) 推荐(0)

机器学习算法原理实现——adaboost，三个臭皮匠顶个诸葛亮

摘要：adaboost算法的基本原理是什么？举一个简单的例子说明呢 AdaBoost（Adaptive Boosting）是一种集成学习方法，其基本原理是结合多个弱学习器来构建一个强学习器。AdaBoost的工作方式如下：权重初始化：给定一个训练数据集，首先为每个训练样本分配一个权重，开始时这些权重都是阅读全文

posted @ 2023-09-16 12:52 bonelee 阅读(526) 评论(0) 推荐(0)

APC进程注入C++示例和检测思考

摘要：直接贴C++代码效果： apc注入到pid为39712的进程 procexp可以看到注入的DLL！好了，我们看看代码如何写：注入部分 // inject3.cpp : 此文件包含 "main" 函数。程序执行将在此处开始并结束。 #include <iostream> #include<Wind 阅读全文

posted @ 2023-09-15 17:53 bonelee 阅读(612) 评论(1) 推荐(0)

机器学习算法原理实现——跟着gpt学习svm求解的SMO算法

摘要：算法实现： import numpy as np from sklearn.metrics import confusion_matrix import matplotlib.pyplot as plt import random as rnd class SVM(): def __init__(s 阅读全文

posted @ 2023-09-14 11:41 bonelee 阅读(58) 评论(0) 推荐(0)

跟着GPT学习拉格朗日对偶性

摘要：上面的例子严格说来，还需要去验证下x>=2的kkt条件是否满足，见文章最后的说明。再来一个例子：拉格朗日对偶性如何通俗理解呢？有没有实际例子可以说明下？拉格朗日对偶性是优化理论中的一个重要概念，尤其在机器学习和运筹学中经常遇到。在对偶性中，我们从一个优化问题（称为原问题）中衍生出另一个相关的优阅读全文

posted @ 2023-09-13 20:46 bonelee 阅读(146) 评论(0) 推荐(0)

pppay.exe恶意代码分析

摘要：业界微步和vt沙箱样本分析： https://s.threatbook.com/report/file/376255ae3f745766ad2a3250c933467cdc3cff886b759bc3e1f656ddf4171433 https://www.virustotal.com/gui/fi 阅读全文

posted @ 2023-09-11 15:11 bonelee 阅读(174) 评论(0) 推荐(0)

机器学习算法原理实现——kmeans聚类算法

摘要：kmeans算法原理和步骤 K-means是一种常用的聚类方法，它将数据划分为K个相似的簇，其中每个簇的中心为该簇内所有数据点的均值。以下是K-means的基本原理和步骤：原理： K-means基于一个简单的想法：相似的数据点应该在空间中彼此靠近，并且可以通过计算每个点到各个簇中心的距离来找到这些阅读全文

posted @ 2023-09-11 10:21 bonelee 阅读(425) 评论(0) 推荐(0)

机器学习算法原理实现——神经网络反向传播，链式求导核心

摘要：记得先看之前的梯度下降文章！链式求导的核心来了，就高中数学知识：代码实现： import numpy as np import matplotlib.pyplot as plt # Sigmoid 激活函数及其导数 def sigmoid(z): return 1 / (1 + np.exp(- 阅读全文

posted @ 2023-09-10 22:20 bonelee 阅读(122) 评论(0) 推荐(0)

机器学习算法原理实现——cart决策树：分类&回归

摘要：cart决策树示例：本文目标，仿照sklearn写一个cart树，但是仅仅使用max_depth作为剪枝依据。我们本次实现cart分类，因此用到gini指数：为了帮助理解：好了，理解了基尼指数。我们看下cart树的构建步骤：注意还有几个细节： cart树每个treenode存储了哪些数据？阅读全文

posted @ 2023-09-10 17:32 bonelee 阅读(603) 评论(0) 推荐(0)

机器学习算法原理实现——决策树里根据信息增益选择特征

摘要：先说熵的定义：再看信息增益信息增益是一种用于特征选择的指标，用于衡量特征对于数据集分类的贡献程度。它基于信息熵的概念，通过比较特征划分前后的信息熵差异来评估特征的重要性。信息熵是衡量数据集纯度的指标，表示数据集中的不确定性或混乱程度。信息熵越高，数据集的不确定性越大。上述例子计算错误，gpt识阅读全文

posted @ 2023-09-10 11:39 bonelee 阅读(444) 评论(0) 推荐(0)

机器学习算法原理实现——k近邻算法 KNN

摘要：K近邻算法是一种基于距离度量的数据分类模型，其基本做法是首先确定输入实例的[插图]个最近邻实例，然后利用这[插图]个训练实例的多数所属的类别来预测新的输入实例所属类别。 k最近邻（k-nearest neighbors，KNN）算法是一种基本的分类和回归算法。其基本原理如下：1. 训练阶段：将训练样阅读全文

posted @ 2023-09-10 00:00 bonelee 阅读(186) 评论(0) 推荐(0)

GPT大模型帮助我们理解拉格朗日乘子法——拉格朗日乘子法背后的直觉和依据是基于梯度的性质

摘要：什么是拉格朗日乘子法？如何通俗理解基本原理呢？再举一个通俗的例子吧？拉格朗日乘子法是数学中的一种方法，用于求解受约束的优化问题。当我们要在某些限制或约束条件下寻找函数的最大值或最小值时，拉格朗日乘子法就显得非常有用了。通俗来说，你可以将它想象成在一张地图上找最高点或最低点，但是你只能在某些特定路阅读全文

posted @ 2023-09-09 12:25 bonelee 阅读(137) 评论(0) 推荐(0)

机器学习算法原理实现——线性判别分析LDA

摘要：介绍线性判别分析（Linear Discriminant Analysis, LDA）是一种有监督式的数据降维方法，是在机器学习和数据挖掘中一种广泛使用的经典算法。LDA的希望将带上标签的数据（点），通过投影的方法，投影到维度更低的空间中，使得投影后的点，按类别区分成一簇一簇的情况，并且相同类别的阅读全文

posted @ 2023-09-09 12:12 bonelee 阅读(660) 评论(0) 推荐(0)

GPT教我回忆学习大学里的协方差矩阵——太厉害了，让我迅速认识了协方差内在本质

摘要：具体例子：阅读全文

posted @ 2023-09-09 01:07 bonelee 阅读(54) 评论(0) 推荐(0)

兔死狗烹的根本原因什么？看看GPT的回答

摘要：兔死狗烹的根本原因什么？ “兔死狗烹”是一句中国古代的成语，意为“利用完别人后，就抛弃或害他。”这一成语揭示的是一种权谋策略和人际关系中的利用性。这个成语的出处与背景来自《左传》。公元前598年，晋景公利用屠盂击败楚军，事成后害怕屠盂功高震主，于是栽赃陷害，使其被处死。屠盂曾因帮助晋景公而被称作“ 阅读全文

posted @ 2023-09-08 13:04 bonelee 阅读(165) 评论(0) 推荐(0)

机器学习算法原理实现——使用梯度下降求解Lasso回归和岭回归

摘要：本文本质上是在线性回归的基础上进行扩展，加入了正则化而已！机器学习算法原理实现——使用梯度下降求解线性回归正则化在机器学习中是一种防止过拟合的技术，它通过在损失函数中添加一个惩罚项来限制模型的复杂度。举一个实际的例子，假设你正在训练一个机器学习模型来预测房价。你有很多特征，如房间数量、地理位置、阅读全文

posted @ 2023-09-08 11:33 bonelee 阅读(1760) 评论(0) 推荐(0)

机器学习算法原理实现——使用交叉熵、梯度下降求解逻辑回归

摘要：交叉熵的定义以及和熵的区别？交叉熵是衡量两个概率分布之间的差异的一个度量。在机器学习和深度学习中，尤其是分类问题，交叉熵常被用作损失函数。交叉熵度量的是实际分布（标签）与模型预测之间的不一致程度。这个值越小，模型的预测与真实分布越接近。完美的预测会有交叉熵为0，这是因为模型的预测概率分布与真实概阅读全文

posted @ 2023-09-07 19:38 bonelee 阅读(698) 评论(0) 推荐(0)

机器学习算法原理实现——使用梯度下降求解线性回归

摘要：什么是梯度下降？机器学习算法都需要最大化或最小化一个函数，这个函数被称为"目标函数"，其中我们一般把最小化的一类函数，称为"损失函数"。它能根据预测结果，衡量出模型预测能力的好坏。在求损失函数最小化的过程中使用梯度下降法。 ��(�)�� 在直线方程中，导数代表斜率，在曲线方程中，导数代表阅读全文

posted @ 2023-09-06 19:58 bonelee 阅读(666) 评论(0) 推荐(0)

机器学习算法编程小技巧——numpy用法之numpy.empty

摘要：numpy.empty 函数用于创建一个指定形状和数据类型的新数组，但不填充任何值。这意味着它可以比其他创建数组的函数（如 numpy.zeros 或 numpy.ones）更快，因为它不需要花时间去初始化数组的值。但是，这也意味着数组的初始内容是随机的，取决于内存的状态。因此，除非你打算在创建数组阅读全文

posted @ 2023-09-05 09:15 bonelee 阅读(189) 评论(0) 推荐(0)

机器学习算法编程——正则化

摘要：正则化在机器学习中是一种防止过拟合的技术，它通过在损失函数中添加一个惩罚项来限制模型的复杂度。举一个实际的例子，假设你正在训练一个机器学习模型来预测房价。你有很多特征，如房间数量、地理位置、建筑年份等。如果你的模型过于复杂，例如它尝试拟合每一个训练样本的细微差异，那么它可能在训练数据上表现得很好，但阅读全文

posted @ 2023-09-04 17:37 bonelee 阅读(109) 评论(0) 推荐(0)

机器学习算法编程小技巧——numpy用法之np.c_

摘要：import numpy as np # 创建两个一维数组 a = np.array([1, 2, 3]) b = np.array([4, 5, 6]) # 使用numpy.c_将它们连接在一起 """ numpy.c_ 是一个方便的工具，用于沿第二轴连接数组。它将数组转换为至少2-D，并将它们阅读全文

posted @ 2023-09-04 10:04 bonelee 阅读(243) 评论(0) 推荐(0)

将者，智、信、仁、勇、严也。

Hi，我是李智华，华为-安全AI算法专家，欢迎来到安全攻防对抗的有趣世界。

09 2023 档案

公告