Yanqiang - 博客园

2020年2月23日

摘要：文章作者：刘知远（原载于知乎： "NLP日知录" ）课件来自于学堂在线直播：在微博和知乎上关注自然语言处理（NLP）技术的朋友，应该都对 NLP太难了、自然语言理解太难了两个话题标签不陌生，其下汇集了各种不仅难煞计算机、甚至让人也发懵的费解句子或歧义引起的笑话。然而，这些例子只是让人直觉阅读全文

posted @ 2020-02-23 12:40 Yanqiang 阅读(689) 评论(0) 推荐(0) 编辑

2020年2月20日

【阿里云新人赛】恶意程序检测-项目实践总结

摘要： ###1. 比赛信息比赛地址：阿里云恶意程序检测新人赛比赛介绍：使用自然语言处理的方法对恶意程序的行为（API调用序列）进行分析，实现对恶意程序鉴别及分类。 ###2. 我的主要工作 1）数据预处理：格式转换csv->txt->pkl，根据fileid分组数据，排序后生成api序列，用于训练；阅读全文

posted @ 2020-02-20 12:31 Yanqiang 阅读(1583) 评论(0) 推荐(0) 编辑

2019年12月27日

【计算语言学实验】基于 Skip-Gram with Negative Sampling (SGNS) 的汉语词向量学习和评估

摘要：一、概述训练语料来源：维基媒体 https://dumps.wikimedia.org/backup index.html 汉语数据用word2vec训练词向量，并用所学得的词向量，计算 pku_sim_test.txt 文件中每行两个词间的余弦距离作为两词相似度，并输出到文件中。二、数据准备阅读全文

posted @ 2019-12-27 22:21 Yanqiang 阅读(1916) 评论(0) 推荐(0) 编辑

【数据挖掘实验】利用朴素贝叶斯方法对百万搜狐新闻文本数据进行分类

摘要：一、概述本实验做的是一个很常见的数据挖掘任务：新闻文本分类。语料库来自于搜狗实验室2008年和2012年的搜狐新闻数据，下载地址：https://www.sogou.com/labs/resource/cs.php 实验工作主要包括以下几步： 1）语料库的数据预处理； 2）文本建模； 3）训练阅读全文

posted @ 2019-12-27 17:25 Yanqiang 阅读(1229) 评论(0) 推荐(0) 编辑

2019年12月14日

【感知机模型】手写代码训练 / 使用sklearn的Perceptron模块训练

摘要：读取原始数据训练感知机模型使用自己写的MyPerceptron类训练 perceptron = MyPerceptron() time1 = datetime.datetime.now() perceptron.fit(X_train, y_train) time2 = datetime.dat 阅读全文

posted @ 2019-12-14 10:10 Yanqiang 阅读(997) 评论(0) 推荐(0) 编辑

2019年11月22日

【读书笔记】自然语言处理综论 -- 第十四章 -- 统计剖析

摘要：第14章统计剖析 CKY算法和Earley算法可以有效地表示句法歧义，但却没有提供排歧的手段。概率语法提供的方法是，可以计算歧义的每一种解释的概率，然后从中选择概率最大的解释。概率上下文无关语法（PCFG）最常用。 14.1 概率上下文无关语法上下文无关语法由四个参数定义： N（非终极符集合）阅读全文

posted @ 2019-11-22 16:47 Yanqiang 阅读(449) 评论(0) 推荐(0) 编辑

【新人赛】阿里云恶意程序检测 -- 实践记录 11.24 - word2vec模型 + xgboost

摘要：使用word2vec训练词向量使用word2vec无监督学习训练词向量，输入的是训练数据和测试数据，输出的是每个词的词向量，总共三百个词左右。求和：然后再将每行数据中的每个词的词向量加和，得到每行的词向量表示。其他还可以通过求平均，求众数或者最大值等等方法得到每行的词向量表示。代码如下：训阅读全文

posted @ 2019-11-22 10:58 Yanqiang 阅读(1410) 评论(0) 推荐(0) 编辑

2019年11月10日

【sklearn】Toy datasets上的分类/回归问题 (XGBoost实践)

摘要：分类问题 1. 手写数字识别问题 ((1797, 64), (1797,)) 划分70%训练集，30%测试集， ((1257, 64), (540, 64), (1257,), (540,)) 使用默认参数， XGBClassifier(base_score=0.5, booster='gbtree 阅读全文

posted @ 2019-11-10 18:21 Yanqiang 阅读(1901) 评论(0) 推荐(0) 编辑

【新人赛】阿里云恶意程序检测 -- 实践记录11.10 - XGBoost学习 / 代码阅读、调参经验总结

摘要： XGBoost学习：集成学习将多个弱学习器结合起来，优势互补，可以达到强学习器的效果。要想得到最好的集成效果，这些弱学习器应当“好而不同”。根据个体学习器的生成方法，集成学习方法可以分为两大类，序列化方法，并行化方法。序列化方法的代表就是Boosting方法，其中XGBoost和lightGBN 阅读全文

posted @ 2019-11-10 16:34 Yanqiang 阅读(571) 评论(0) 推荐(0) 编辑

2019年11月8日

【读书笔记】自然语言处理综论 -- 第六章 -- 隐马尔可夫模型和最大熵模型

摘要：第六章隐式马尔可夫模型与最大熵模型马尔可夫模型发展出了隐式马尔可夫模型HMM和最大熵模型MaxEnt，与马尔可夫有关的最大熵模型称为最大熵马尔可夫模型MEMM。 HMM和MEMM都是序列分类器。给定一个单元（单词、字母、语素、句子等）的序列，可以计算在可能的标号上的概率分布，并选择最好的标号序列阅读全文

posted @ 2019-11-08 22:03 Yanqiang 阅读(608) 评论(0) 推荐(0) 编辑

【读书笔记】自然语言处理综论 -- 第五章 -- 词性标注

摘要：第五章词类标注词类(Part-of-Speech, POS)，能够提供关于单词及其近邻成分的大量有用信息。词类标注的方法：手写规则(基于规则标注)，统计方法(隐式马尔科夫模型标注HMM，最大熵标注，基于转换的标注，基于记忆的标注)。 5.1 英语词的分类词类是根据单词的句法功能和形态功能来定阅读全文

posted @ 2019-11-08 16:39 Yanqiang 阅读(871) 评论(0) 推荐(0) 编辑

2019年11月3日

【新人赛】阿里云恶意程序检测 -- 实践记录11.3 - n-gram模型调参

摘要：主要工作本周主要是跑了下n gram模型，并调了下参数。大概看了几篇论文，有几个处理方法不错，准备下周代码实现一下。 xgboost参数设置为： param = {'max_depth': 6, 'eta': 0.1, 'eval_metric': 'mlogloss', 'silent': 1, 阅读全文

posted @ 2019-11-03 19:37 Yanqiang 阅读(670) 评论(0) 推荐(0) 编辑

2019年11月2日

【sklearn】特征选择和降维

摘要： 1.13 特征选择 sklearn.feature_selection模块中的类可以用于样本集上的特征选择/降维，以提高估计器的精度值，或提高其应用在高维数据集上的性能。 1.13.1 删除低方差的特征 VarianceThreshold是一种简单的特征选择baseline方法。它删除了方差不满足某阅读全文

posted @ 2019-11-02 12:45 Yanqiang 阅读(2177) 评论(0) 推荐(0) 编辑

2019年10月25日

【新人赛】阿里云恶意程序检测 -- 实践记录10.27 - TF-IDF模型调参 / 数据可视化

摘要： TF IDF模型调参 1. 调TfidfVectorizer的参数 ngram_range, min_df, max_df： "上一篇博客" 调了ngram_range这个参数，得出了ngram_range=(1, 4)时效果最好这个结论，并在线上验证了下。本篇博客继续调其他的参数。考虑到训练的速阅读全文

posted @ 2019-10-25 15:44 Yanqiang 阅读(1490) 评论(0) 推荐(0) 编辑

2019年10月24日

【读书笔记】自然语言处理综论 -- 第十六章 -- 语言和复杂性

摘要：第十六章语言和复杂性自然语言中的形式化方法，比如有限状态自动机、马尔科夫模型、转录机、音位重写规则、上下文无关语法等，都可以用他们的能力来描述，这种能力等价于它们所描述的现象的复杂性。 Chomsky层级是一种理论方法，可以比较这些形式化方法的表达能力或复杂性。上下文无关语法没有足够的能力来模拟阅读全文

posted @ 2019-10-24 14:24 Yanqiang 阅读(589) 评论(0) 推荐(0) 编辑

2019年10月23日

【读书笔记】自然语言处理综论 -- 第四章 -- N元语法

摘要：第四章 N元语法本章开篇的两句话很有意思，代表了当时两个学派的思想和矛盾。一句是"有史以来最伟大的语言学家"乔姆斯基说的："句子的概率，在任何已知的对于这个术语的解释中，都是一个完全无用的概念"。他提出了形式语言，坚信可以通过语法规则来处理文字，对概率不屑一顾。而另一句是语言处理大师贾里尼克阅读全文

posted @ 2019-10-23 11:46 Yanqiang 阅读(1277) 评论(2) 推荐(0) 编辑

2019年10月20日

【新人赛】阿里云恶意程序检测 -- 实践记录10.20 - 数据预处理 / 训练数据分析 / TF-IDF模型调参

摘要： Colab连接与数据预处理 Colab连接方法见 "上一篇博客" 数据预处理：训练数据分析查看行列索引 Index(['file_id', 'label', 'api', 'tid', 'index'], dtype='object') RangeIndex(start=0, stop=8980 阅读全文

posted @ 2019-10-20 15:58 Yanqiang 阅读(1718) 评论(0) 推荐(0) 编辑

【sklearn文本特征提取】词袋模型/稀疏表示/停用词/TF-IDF模型

摘要： 1. 词袋模型 (Bag of Words, BOW) 文本分析是机器学习算法的一个主要应用领域。然而，原始数据的这些符号序列不能直接提供给算法进行训练，因为大多数算法期望的是固定大小的数字特征向量，而不是可变长度的原始文本。为了解决这个问题，scikit learn提供了从文本内容中提取数字特征阅读全文

posted @ 2019-10-20 10:05 Yanqiang 阅读(3651) 评论(0) 推荐(0) 编辑

2019年10月12日

【新人赛】阿里云恶意程序检测 -- 实践记录10.13 - Google Colab连接 / 数据简单查看 / 模型训练

摘要： 1. 比赛介绍比赛地址： "阿里云恶意程序检测新人赛" 这个比赛和已结束的 "第三届阿里云安全算法挑战赛" 赛题类似，是一个开放的长期赛。 2. 前期准备因为训练数据量比较大，本地CPU跑不起来，所以决定用Google的Colaboratory来跑，期间也遇到了几个坑。首先是文件上传比较慢，几阅读全文

posted @ 2019-10-12 09:47 Yanqiang 阅读(1442) 评论(0) 推荐(0) 编辑

2019年10月5日

【sklearn朴素贝叶斯算法】高斯分布/多项式/伯努利贝叶斯算法以及代码实例

摘要：朴素贝叶斯朴素贝叶斯方法是一组基于贝叶斯定理的监督学习算法，其“朴素”假设是：给定类别变量的每一对特征之间条件独立。贝叶斯定理描述了如下关系：给定类别变量$y$以及属性值向量$x_1$至$x_n$： $P(y \mid x_1, \dots, x_n) = \frac{P(y) P(x_1, \ 阅读全文

posted @ 2019-10-05 20:13 Yanqiang 阅读(4077) 评论(0) 推荐(0) 编辑

2019年9月27日

【sklearn决策树算法】DecisionTreeClassifier(API)的使用以及决策树代码实例 - 鸢尾花分类

摘要：决策树算法决策树算法主要有ID3, C4.5, CART这三种。 ID3算法从树的根节点开始，总是选择信息增益最大的特征，对此特征施加判断条件建立子节点，递归进行，直到信息增益很小或者没有特征时结束。信息增益：特征 A 对于某一训练集 D 的信息增益 $g(D, A)$ 定义为集合 D 的熵 $ 阅读全文

posted @ 2019-09-27 21:31 Yanqiang 阅读(23984) 评论(0) 推荐(1) 编辑

2019年9月25日

【笔记】机器学习 - 李宏毅 - 14 - Semi-supervised Learning

摘要：半监督学习在监督学习中，通常训练数据有input $x^r$, 也有output $\hat{y}^r$。但是在实际情况下，数据不难收集，但做数据的标记需要花费很大的功夫。所以半监督学习，就是利用了很多没有标记的数据$x^u$，通常U R。 transductive learning: unl 阅读全文

posted @ 2019-09-25 16:00 Yanqiang 阅读(1225) 评论(0) 推荐(0) 编辑

2019年9月6日

【笔记】机器学习 - 李宏毅 - 13 - Why Deep

摘要：当参数一样多的时候，神经网络变得更高比变宽更有效果。为什么会这样呢？其实和软件行业的模块化思想是一致的。比如，如果直接对这四种分类进行训练，长发的男孩数据较少，那么这一类训练得到的classifier不是很好。但如果分成长发or短发，男孩or女孩，这两种基分类器，那么数据就是足够的，可以得阅读全文

posted @ 2019-09-06 16:54 Yanqiang 阅读(514) 评论(0) 推荐(0) 编辑

2019年8月23日

【笔记】机器学习 - 李宏毅 - 12 - CNN

摘要： Convolutional Neural Network CNN 卷积神经网络 1. 为什么要用CNN？ CNN一般都是用来做图像识别的，当然其他的神经网络也可以做，也就是输入一张图的像素数组(pixel vector)，最后输出n个分类(dimension)。但是为什么不用Fully Conne 阅读全文

posted @ 2019-08-23 15:53 Yanqiang 阅读(502) 评论(0) 推荐(0) 编辑

【笔记】机器学习 - 李宏毅 - 11 - Keras Demo2 & Fizz Buzz

摘要： 1. Keras Demo2 前节的Keras Demo代码： Keras Demo中的结果不是很好，看一下在Training Data上的结果：结果如下：说明在Training Data上结果也不好，接下来开始调参： loss function 分类问题mse不适合，将loss mse fun 阅读全文

posted @ 2019-08-23 15:52 Yanqiang 阅读(527) 评论(7) 推荐(0) 编辑

2019年8月21日

【笔记】机器学习 - 李宏毅 - 10 - Tips for Training DNN

摘要：神经网络的表现在Training Set上表现不好可能陷入局部最优在Testing Set上表现不好 Overfitting 过拟合虽然在机器学习中，很容易通过SVM等方法在Training Set上得出好的结果，但DL不是，所以得先看Training Set上的表现。要注意方法适用的阶段阅读全文

posted @ 2019-08-21 10:08 Yanqiang 阅读(292) 评论(0) 推荐(0) 编辑

2019年8月20日

【笔记】机器学习 - 李宏毅 - 9 - Keras Demo

摘要： 3.1 configuration 3.2 寻找最优网络参数代码示例： Keras 2.0 代码类似 x_train, y_train解释小批量梯度下降，速度更快的原因是因为可以并行计算。完整的Keras演示：运行结果： Downloading data from https://s3.am 阅读全文

posted @ 2019-08-20 12:34 Yanqiang 阅读(459) 评论(0) 推荐(0) 编辑

【笔记】机器学习 - 李宏毅 - 8 - Backpropagation

摘要：反向传播反向传播主要用到是链式法则。概念：损失函数Loss Function 是定义在单个训练样本上的，也就是一个样本的误差。代价函数Cost Function 是定义在整个训练集上的，也就是所有样本误差的总和的平均。有没有这个平均不会影响最后的参数求解结果。总体损失函数Total Los 阅读全文

posted @ 2019-08-20 10:54 Yanqiang 阅读(421) 评论(0) 推荐(0) 编辑

【笔记】机器学习 - 李宏毅 - 7 - Deep Learning

摘要：深度学习发展历史：感知机和逻辑回归很像，只是没有$sigmoid$激活函数。深度学习训练的三个步骤： Step1：神经网络（Neural network） Step2：模型评估（Goodness of function） Step3：选择最优函数（Pick best function） St 阅读全文

posted @ 2019-08-20 09:25 Yanqiang 阅读(276) 评论(0) 推荐(0) 编辑

2019年8月9日

【笔记】机器学习 - 李宏毅 - 6 - Logistic Regression

摘要： Logistic Regression 逻辑回归逻辑回归与线性回归有很多相似的地方。后面会做对比，先将逻辑回归函数可视化一下。与其所对应的损失函数如下，并将求max转换为min，并转换为求指数形式，便于计算。最后得到的是两个伯努利分布（function output & target）的交叉熵阅读全文

posted @ 2019-08-09 15:43 Yanqiang 阅读(377) 评论(0) 推荐(0) 编辑

【笔记】机器学习 - 李宏毅 - 5 - Classification

摘要： Classification: Probabilistic Generative Model 分类：概率生成模型如果说对于分类问题用回归的方法硬解，也就是说，将其连续化。比如 $Class 1$ 对应的目标输出为 1, $Class 2$ 对应 1。则在测试集上，结果更接近1的归为$Class 阅读全文

posted @ 2019-08-09 13:51 Yanqiang 阅读(408) 评论(0) 推荐(0) 编辑

【笔记】机器学习 - 李宏毅 - 4 - Gradient Descent

摘要：梯度下降 Gradient Descent 梯度下降是一种迭代法（与最小二乘法不同），目标是解决最优化问题：${\theta}^ = arg min_{\theta} L({\theta})$，其中${\theta}$是一个向量，梯度是偏微分。为了让梯度下降达到更好的效果，有以下这些Tips： 1 阅读全文

posted @ 2019-08-09 10:50 Yanqiang 阅读(301) 评论(0) 推荐(0) 编辑

2019年8月5日

【论文翻译】An overiview of gradient descent optimization algorithms

摘要：这篇论文最早是一篇2016年1月16日发表在Sebastian Ruder的 "博客" 。本文主要工作是对这篇论文与李宏毅课程相关的核心部分进行翻译。论文全文翻译： An overview of gradient descent optimization algorithms 梯度下降优化算法概述阅读全文

posted @ 2019-08-05 09:17 Yanqiang 阅读(694) 评论(0) 推荐(0) 编辑

2019年7月31日

李宏毅 - 课程笔记及作业解答 - 汇总 -- 更新中

摘要：李宏毅课程学习笔记总结，以及作业，参考论文总结。阅读全文

posted @ 2019-07-31 09:06 Yanqiang 阅读(2137) 评论(0) 推荐(0) 编辑

2019年7月30日

【笔记】机器学习 - 李宏毅 - 3 - Bias & Variance

摘要： A more complex model does not always lead to better performance on testing data. Because error due to both of 'bias' and 'variance'. From training dat 阅读全文

posted @ 2019-07-30 16:24 Yanqiang 阅读(489) 评论(0) 推荐(0) 编辑

【笔记】机器学习 - 李宏毅 - 2 - Regression + Demo

摘要： Regression 回归应用领域包括：Stock Market Forecast, Self driving car, Recommondation,... Step 1: Model 对于宝可梦的CP值预测问题，假设为一个最简单的线性模型 y = b + $\sum w_i x_i$ $x_i 阅读全文

posted @ 2019-07-30 11:42 Yanqiang 阅读(782) 评论(0) 推荐(0) 编辑

2019年7月28日

【NLP】暑假课作业3 - 词性标注（简单词频概率统计）

摘要：作业任务：使用98年人民日报语料库进行词性标注训练及测试。作业输入： 98年人民日报语料库（1998-01-105-带音.txt），用80%的数据作为训练集，20%的数据作为验证集。运行环境： Jupyter Notebook, Python3 作业方法：使用简单的统计词频的方法，对于单词的阅读全文

posted @ 2019-07-28 16:27 Yanqiang 阅读(680) 评论(9) 推荐(0) 编辑

2019年7月27日

【NLP】暑假课作业1 - 中文分词（前向匹配算法实现）

摘要：作业任务：使用98年人民日报语料库进行中文分词训练及测试。作业输入： 98年人民日报语料库（1998 01 105 带音.txt），用80%的数据作为训练集，20%的数据作为验证集。运行环境： Jupyter Notebook, Python3 作业方法：实现了前向匹配算法的分词功能。源码阅读全文

posted @ 2019-07-27 20:09 Yanqiang 阅读(619) 评论(0) 推荐(0) 编辑

2019年7月18日

【笔记】机器学习 - 李宏毅 - 1 - Introduction & next step

摘要： Machine Learning == Looking for a Function AI过程的解释：用户输入信息，计算机经过处理，输出反馈信息（输入输出信息的形式可以是文字、语音、图像等）。因为从输入到输出的处理不是简单的数学运算，甚至很多时候科学家并不知道如何来实现这个过程。所以最初的时候科阅读全文

posted @ 2019-07-18 12:50 Yanqiang 阅读(703) 评论(0) 推荐(0) 编辑

2016年7月3日

Android学习笔记-事件处理

摘要：第三章 Android的事件处理 Android提供两种事件处理方式，基于回调和基于监听器。前者常用于传统图形界面编程中，而后者在开发中常用。 3.1 事件处理概述对于基于回调的事件处理而言，主要是重写组件特定的回调方法，或者重写的回调方法，一般用于处理通用性的事件。对于监听的事件处理而阅读全文

posted @ 2016-07-03 16:56 Yanqiang 阅读(417) 评论(0) 推荐(0) 编辑

Morfeo

github.com/YanqiangWang

公告