机器学习 - 随笔分类 - 启林O_o

NLP文本分类学习笔记7.1：基于ERNIE的文本分类

摘要：ERNIE 相关链接：ERNIE官方使用介绍，ERNIE项目地址基于transformer的encoder，主要思想是将文本中已有的知识融入到模型训练中，因此采用实体mask的方式（实体指人名，地名等词）预训练模型结构图如下所示文本中已有的知识主要有人名，地名等实体，这些词本来就蕴含一些信息阅读全文

posted @ 2022-04-08 11:19 启林O_o 阅读(1650) 评论(0) 推荐(0)

NLP文本分类学习笔记7：基于预训练模型的文本分类

摘要：预训练模型预训练是一种迁移学习的思想，在一个大数据集上训练大模型，之后可以利用这个训练好的模型处理其他任务。预训练模型的使用方法一般有：用作特征提取：利用预训练模型提取数据特征，再将这些特征用作自己模型的训练，如word2vec，GLOVE 使用模型结构参数：使用预训练模型的结构和参数，再输入自阅读全文

posted @ 2022-04-08 11:13 启林O_o 阅读(910) 评论(0) 推荐(0)

NLP文本分类学习笔记6：基于tansformer的文本分类

摘要：transformer 参考: https://www.cnblogs.com/erable/p/15072941.html https://www.cnblogs.com/xiximayou/p/13978859.html 在论文Attention Is All You Need中提出了trans 阅读全文

posted @ 2022-04-08 10:58 启林O_o 阅读(616) 评论(0) 推荐(0)

NLP文本分类学习笔记5：带attention的文本分类

摘要：本节内容有些抽象，自己也可能理解不到位，可能有些错误，请批判性参考 seq2seq 分为encoder和decoder两部分，如下图所示，每一个部分可以使用CNN，RNN，LSTM等模型，输入2针对不同情况可有可无，模型在翻译，文本摘要生成等方面有广泛应用。在编码器encoder中可以对输入内容编阅读全文

posted @ 2022-04-08 10:31 启林O_o 阅读(1006) 评论(0) 推荐(0)

NLP文本分类学习笔记4.1：基于RCNN的文本分类

摘要：循环卷积神经网络RCNN 1、CNN与RNN缺点 CNN通过窗口获取特征，窗口尺寸不合适就会捕获不到好特征，窗口也不能太大，这样就捕获不到全局的特征，所以它类似于传统的N-gram RNN使用最后的输出作为特征，使得序列后的词会比前面的词更加重要，从而影响捕获准确的特征 2、CNN与RNN优点 CN 阅读全文

posted @ 2022-04-08 10:29 启林O_o 阅读(179) 评论(0) 推荐(0)

NLP文本分类学习笔记3.1：基于DPCNN的文本分类

摘要：深度卷积网络DPCNN 在NLP文本分类学习笔记3中介绍了CNN的结构和如何用于文本分类，但是也存在一些问题（在之后将看到）。在这篇论文Deep Pyramid Convolutional Neural Networks for Text Categorization中提出了DPCNN模型，其结构阅读全文

posted @ 2022-04-08 10:28 启林O_o 阅读(340) 评论(0) 推荐(0)

NLP文本分类学习笔记4：基于RNN的文本分类

摘要：循环神经网络RNN RNN拥有一个环路，数据可以通过这个环路不断循环，因此拥有了记忆性，所以更针对序列数据。序列数据上一刻的输出和下一刻的数据一起作为新的输出，结构如下图所示，$X_{t}$和$H_{t}$为t时刻的输入和输出，输入的序列数据为$X_{1}X_{2}X_{3}……X_{t}$ 但是R 阅读全文

posted @ 2022-04-08 10:26 启林O_o 阅读(514) 评论(0) 推荐(0)

NLP文本分类学习笔记3：基于CNN的文本分类

摘要：卷积神经网络CNN CNN是前馈神经网络，包含输入层，卷积层，池化层，全连接层，输出层 1、输入层，以输入彩色图像为例，输入数据为二维，包含RGB三个通道 2、卷积层，使用多个不同权重，大小的卷积核，平移固定的步长，提取图像的特征（对应位置相乘求和，如下图所示，3*3的卷积核对5*5的图像计算，步长阅读全文

posted @ 2022-04-08 10:23 启林O_o 阅读(284) 评论(0) 推荐(0)

NLP文本分类学习笔记2：基于MLP的文本分类

摘要：多层感知机MLP MLP是最简单的深度学习模型，有输入层，多个隐藏层和输出层，可以采用任意激活函数。它是前馈神经网络，基于反向传播学习。简单的例子如下：基于MLP的深度平均网络DAN 在论文Deep Unordered Composition Rivals Syntactic Methods fo 阅读全文

posted @ 2022-04-08 10:21 启林O_o 阅读(647) 评论(0) 推荐(0)

NLP文本分类学习笔记1：文本表示

摘要：1. 分词文本需要经过处理，成为计算机理解的语言。对于中文文本首先需要分词。如：“安全的出行环境”分词后为“安全的出行环境”。（同时也应使用停用词表，罕见词表对分词结果进行过滤）但是这样处理后会忽略词序，造成信息的损失。所以也可以使用N-gram，可以保留一定的词序，一般为2-gram。阅读全文

posted @ 2022-04-08 10:20 启林O_o 阅读(364) 评论(0) 推荐(0)

NLP文本分类学习笔记0：数据预处理及训练说明

摘要：本系列文章参考了github项目Chinese-Text-Classification-Pytorch 数据集及划分使用来自github中的online_shopping_10_cats中文数据集，数据集包含10个类别，共6万多条评论数据，正、负向评论各约3万条。10个类别为：包括书籍、平板、手机阅读全文

posted @ 2022-04-08 10:19 启林O_o 阅读(1396) 评论(0) 推荐(0)

基于决策树的五子棋

摘要：人工智能五子棋背景介绍五子棋是两名玩家使用黑白两种棋子轮流在15*15的棋盘上下棋，只要白方或黑方的棋子在横，竖或斜三个方向上任意一个方向能够连成五子，则判定为胜利。本次设计五子棋游戏为真人玩家与AI对战，真人持黑棋先下，AI持白棋后下。程序设计思路及主要方法整个游戏框架采用pygame框阅读全文

posted @ 2022-02-20 15:31 启林O_o 阅读(933) 评论(0) 推荐(0)

apriori算法

摘要：Apriori算法简单实现前言以如下数据为例，来说明算法的运行过程，找出其频繁项。数据中每一行代表一条数据，每一列可以代表待关联的事物，比如每个客户购买的每个商品 [['a','c','e'], ['b','d'], ['b','c'], ['a','b','c','d'], ['a','b'] 阅读全文

posted @ 2022-02-18 17:35 启林O_o 阅读(88) 评论(0) 推荐(0)

针对天气数据的决策树建立

摘要：针对天气数据的决策树建立目标如下图所示，利用图中天气数据建立决策树，但是对于温度与湿度进行预处理，即将温度与湿度分为4个范围，以这0-3这四个值代替原来的值作为特征。对应关系如下所示： [60,70)对应0 [70,80)对应1 [80,90)对应2 [90,100)对应3 建立决策树树的建立阅读全文

posted @ 2022-02-18 17:34 启林O_o 阅读(337) 评论(0) 推荐(0)

kmeans及PAM算法

摘要：使用Kmeans算法对数据进行聚类前言数据 Waveform数据来自该链接：https://archive.ics.uci.edu/ml/machine-learning-databases/waveform/ 其中每条数据已经进行了分类，分为了0，1，2类，这些标签位于每一条数据的最后。图片阅读全文

posted @ 2022-02-18 17:34 启林O_o 阅读(464) 评论(1) 推荐(1)

网页聚类

摘要：网页聚类目标爬取网页内容，提取其关键词，并进行聚类。网页爬取数据来源为央视新闻网，计划先提取本页面链接，然后根据链接请求页面内容。但是模拟发包请求数据后发现，接受到的内容中并没有包含想要的内容。于是查看其发送数据，发现传入数据的接口，其中包含几十条数据，里面包含网页的链接，直接复制数据，保存阅读全文

posted @ 2022-02-18 17:33 启林O_o 阅读(277) 评论(0) 推荐(0)

天气数据爬取及分析

摘要：气象数据爬取与分析前言通过爬取2020年长治市的气温和天气状况来简要分析。数据来源地址：http://lishi.tianqi.com/changzhi 而每月的数据，以2020年1月为例，链接为：http://lishi.tianqi.com/changzhi/202001.html 数据爬阅读全文

posted @ 2022-02-18 17:33 启林O_o 阅读(306) 评论(1) 推荐(0)

医学数据预处理

摘要：医学数据预处理前言任务处理pO2，pCO2两个指标，按照采集时间的前后顺序，汇总每个病人每次住院期间的所有的pO2, pCO2指标值数据集数据来自： https://physionet.org/content/mimiciii-demo/1.4/ 中的CHARTEVENTS.csv和LAB 阅读全文

posted @ 2022-02-18 17:32 启林O_o 阅读(330) 评论(0) 推荐(0)

细胞识别与分类

摘要：前言细胞图片数据如下细胞识别要想对图片中细胞进行分类，首先就要将图片中的细胞识别出来首先读入图片，接着转化为灰度图，接着对图片进行高斯模糊化处理，接着采用自适应的阀值将图片转化为二值图像，接着定义椭圆形的核对图像进行先腐蚀后膨胀的操作，用于处理噪声。效果图如下：灰度图像阀值处理为二值图阅读全文

posted @ 2022-01-08 13:22 启林O_o 阅读(773) 评论(0) 推荐(0)

webshell扫描器

摘要：参考《web安全之深度学习实战》这本书前言目前常用的木马病毒等的检测工具主要有两种：一种是静态检测，通过匹配一些特征码或者危险函数来识别webshell等，但是这种方式需要完善的匹配规则，而且只能识别已知的webshell。另一种是动态检测，通过检测文件执行时表现出来的特征，查看它是否是一个we 阅读全文

posted @ 2020-07-15 11:58 启林O_o 阅读(816) 评论(0) 推荐(0)

启林O_o忍住诱惑，耐住寂寞

忍住诱惑，耐住寂寞。

随笔分类 - 机器学习

公告