上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 22 下一页
  2021年11月13日
摘要: 为什么需要归一化? 如果我们判断一个人的身体健康状况,有两个指标,一个是身高另一个是体重,假如身高1.6米,体重120斤,y=3*1.6+2*120,如果身高变为1.9对结果的影响是增加了0.9,但是如果体重变成130,对结果的影响就是增加30,显然身高1.9米看起来变化更大,但是他对结果的影响较小 阅读全文
posted @ 2021-11-13 15:37 啥123 阅读(188) 评论(0) 推荐(0) 编辑
  2021年11月12日
摘要: nn.embedding()方法的原理:https://www.jianshu.com/p/63e7acc5e890 阅读全文
posted @ 2021-11-12 16:43 啥123 阅读(6) 评论(0) 推荐(0) 编辑
  2021年11月6日
摘要: 1.seq2seq模型有遗忘问题和对齐问题,attention在原来的seq2seq模型上做出了改进,在decoder编码阶段它的输入变为原来向量的加权求和,赋予每个向量不同的权重。 获取权重的方式:找一个向量q与输入句子的每个词的向量进行比较,如果两个向量相近则获得的权重比较高。 计算权重的方式: 阅读全文
posted @ 2021-11-06 16:05 啥123 阅读(180) 评论(0) 推荐(0) 编辑
  2021年10月31日
摘要: Epoch 一个epoch指代所有的数据送入网络中完成一次前向计算及反向传播的过程。由于数据量太大,无法一次将所有数据送入模型,因此采用分批次送入模型的方式,在训练时,将所有数据迭代训练一次是不够的,需要反复多次才能拟合收敛。 Batch Size 每次送入网络中训练的一部分数据,而Batch Si 阅读全文
posted @ 2021-10-31 17:48 啥123 阅读(251) 评论(0) 推荐(0) 编辑
  2021年10月29日
摘要: 一、什么是过拟合 模型对训练的数据进行了过度的学习,没有学习到数据的一般规律,模型在训练数据中的错误越来越少,但是在验证集中的错误越来越大。 二、减少过拟合的方法 1.正则化(L1、L2正则化) L1正则化是尽量减少绝对值的权重,使w参数尽可能向0靠近,减小了网络复杂度,防止过拟合。 L2正则化在原 阅读全文
posted @ 2021-10-29 16:04 啥123 阅读(71) 评论(0) 推荐(0) 编辑
  2021年10月8日
摘要: 给你两个字符串 s1 和 s2 ,写一个函数来判断 s2 是否包含 s1 的排列。如果是,返回 true ;否则,返回 false 。 换句话说,s1 的排列之一是 s2 的 子串 。 输入:s1 = "ab" s2 = "eidbaooo" 输出:true 解释:s2 包含 s1 的排列之一 (" 阅读全文
posted @ 2021-10-08 23:10 啥123 阅读(37) 评论(0) 推荐(0) 编辑
  2021年9月27日
摘要: vector<int> cnt(26); n=s1.length(); for(int i=0;i<n;i++){ ++cnt[s1[i]-'a']; } s1是字符数组,s1[i]-'a'是为了将a变成0,b变成1,c变成2. cnt用于统计每个字母在s1中出现的次数。 ++cnt[s1[i]-' 阅读全文
posted @ 2021-09-27 13:17 啥123 阅读(1402) 评论(0) 推荐(0) 编辑
摘要: 给定一个字符串 s ,请你找出其中不含有重复字符的 最长子串 的长度。 输入: s = "abcabcbb" 输出: 3 解释: 因为无重复字符的最长子串是 "abc",所以其长度为 3。 解题思路:使用两个指针作为窗口的两个边界,每进行一步操作,左指针就向右移动一个位置。右指针是窗口的又边界,判断 阅读全文
posted @ 2021-09-27 10:10 啥123 阅读(29) 评论(0) 推荐(0) 编辑
  2021年9月25日
摘要: 977.有序数组的平方 给你一个按 非递减顺序 排序的整数数组 nums,返回 每个数字的平方 组成的新数组,要求也按 非递减顺序 排序。 输入:nums = [-4,-1,0,3,10]输出:[0,1,9,16,100]解释:平方后,数组变为 [16,1,0,9,100]排序后,数组变为 [0,1 阅读全文
posted @ 2021-09-25 17:22 啥123 阅读(29) 评论(0) 推荐(0) 编辑
摘要: 计算机并不能理解一个词语的意思,它是将词语转换成空间及位置从而进行理解,Word2vec是词嵌入的一种方式,将计算机不可计算的词语转换成可以计算的向量,主要有两种训练的方法,CBOW和skip-Gram,CBOW是用周围词来预测中心词,skip-Gram是用中心词来预测周围词,在训练过程中,相似的词 阅读全文
posted @ 2021-09-25 11:02 啥123 阅读(68) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 22 下一页