_Meditation - 博客园

2020年4月20日

2020年4月20号阿里笔试题

摘要：概述今天晚上7.00-8.00参加了阿里巴巴集团的算法工程师--自然语言处理的笔试题，谈几点感受，仅记录这忙碌的一天。要求要求录制屏幕，关闭所有通信和其他网页，手机扫码锁定手机，反正你能想到的作弊手段基本给你搞没了，足见大厂的严格。内容内容为两道算法题。平常也刷一些leetcode，优先队阅读全文

posted @ 2020-04-20 22:11 _Meditation 阅读(127) 评论(0) 推荐(0) 编辑

机器学习(三) --决策树

摘要： 1. 什么是决策树 1.1 决策树的基本思想其实用一下图片能更好的理解LR模型和决策树模型算法的根本区别，我们可以思考一下一个决策问题：是否去相亲，一个女孩的母亲要给这个女海介绍对象。大家都看得很明白了吧！LR模型是一股脑儿的把所有特征塞入学习，而决策树更像是编程语言中的if-else一样，去做阅读全文

posted @ 2020-04-20 15:03 _Meditation 阅读(291) 评论(0) 推荐(0) 编辑

机器学习(二) --逻辑回归

摘要： 1. 什么是逻辑回归逻辑回归是用来做分类算法的，大家都熟悉线性回归，一般形式是Y=aX+b，y的取值范围是[-∞, +∞]，有这么多取值，怎么进行分类呢？不用担心，伟大的数学家已经为我们找到了一个方法。也就是把Y的结果带入一个非线性变换的Sigmoid函数中，即可得到[0,1]之间取值范围的数S 阅读全文

posted @ 2020-04-20 15:02 _Meditation 阅读(246) 评论(0) 推荐(0) 编辑

机器学习汇总(一) ----线性回归和正则化

摘要： 1.什么是线性回归线性：两个变量之间的关系是一次函数关系的——图象是直线，叫做线性。非线性：两个变量之间的关系不是一次函数关系的——图象不是直线，叫做非线性。回归：人们在测量事物的时候因为客观条件所限，求得的都是测量值，而不是事物真实的值，为了能够得到真实值，无限次的进行测量，最后通过这些测量阅读全文

posted @ 2020-04-20 15:00 _Meditation 阅读(678) 评论(0) 推荐(0) 编辑

2020年4月19日

主题建模(理论理解)

摘要：在优秀的词嵌入方法出现之前，潜在语义分析模型（LSA）和文档主题生成模型（LDA）都是解决自然语言问题的好方法。LSA模型和LDA模型有相同矩阵形式的词袋表示输入。不过，LSA模型专注于降维，而LDA模型专注于解决主题建模问题。在自然语言理解任务中，我们可以通过一系列的层次来提取含义——从单词、句阅读全文

posted @ 2020-04-19 17:41 _Meditation 阅读(2286) 评论(0) 推荐(0) 编辑

2020年4月16日

编辑距离

摘要： 1. 递归形式： 1 def Levenshtein_Distance_Recursive(str1, str2): 2 3 if len(str1) == 0: 4 return len(str2) 5 elif len(str2) == 0: 6 return len(str1) 7 elif 阅读全文

posted @ 2020-04-16 09:48 _Meditation 阅读(169) 评论(0) 推荐(0) 编辑

2020年4月3日

tensorflow环境下实现bert_base量化，完成bert轻量级

摘要：环境： windows 10 python 3.5 GTX 1660Ti tensorflow-gpu 1.13.1 numpy 1.18.1 1. 首先下载google开源的预训练好的model。我本次用的是 BERT-Base, Uncased(第一个) BERT-Base, Uncased: 阅读全文

posted @ 2020-04-03 20:42 _Meditation 阅读(2686) 评论(0) 推荐(0) 编辑

2020年4月1日

trie->DoubleArrayTrie->ac+DoubleArrayTrie

摘要： trie人称字典树，又称前缀树，是一个比较高效的字符串检索的存储方式。 trie的应用可以详见leetcode。 DoubleArrayTrie是一个trie的升级版，通过两个数组来实现trie。性能有所提高。 https://www.cnblogs.com/zhangchaoyang/articl 阅读全文

posted @ 2020-04-01 16:09 _Meditation 阅读(257) 评论(1) 推荐(0) 编辑

java 汉字转拼音

摘要：本次调研3种工具pinyin4j；jpinyin；hanlp。经过从运行时间；词典维护代价;源代码社区活跃程度及更新速度几方面考虑，推荐使用hanlp进行汉语转拼音。 1. Pinyin4j 虽然此jar包描述信息包括可以对多音字进行识别，但是其处理逻辑是对多音字取第一个拼音。例如”长”的拼音数阅读全文

posted @ 2020-04-01 12:33 _Meditation 阅读(1967) 评论(0) 推荐(0) 编辑

2020年3月31日

NLP知识点汇总（二）

摘要：二、语言模型之前讲过一次的语言模型，直接贴上链接便于复习。 https://www.cnblogs.com/dhName/p/11357774.html 三、CNN+RNN 这两个网络已经滚瓜烂熟了。 CNN通过距离为W的窗口不断进行卷积，之后再进行池化，最终对sentence进行语义表示。 RN 阅读全文

posted @ 2020-03-31 10:30 _Meditation 阅读(251) 评论(0) 推荐(0) 编辑

Meditation

埋滴忒深

公告