05 2021 档案

摘要:文本分类  机器学习方法(2012前) 特征+分类器 正则  词典 词典:同义词扩展 数据结构:布隆过滤器 语义反转:程度词,否定词,问句  特征工程 统计表征: TFIDF,BOW,TextRank等 语义表征:LDA,LSI(统计+降维)词向量(后话)  分类器 LR,SVM,GBDT 阅读全文
posted @ 2021-05-31 20:42 今夜无风 阅读(93) 评论(0) 推荐(0) 编辑
摘要:问题: # 给你一个由 '1'(陆地)和 '0'(水)组成的的二维网格,请你计算网格中岛屿的数量。 # # 岛屿总是被水包围,并且每座岛屿只能由水平方向和/或竖直方向上相邻的陆地连接形成。 # # 此外,你可以假设该网格的四条边均被水包围。 # # # # 示例 1: # # # 输入:grid = 阅读全文
posted @ 2021-05-26 23:35 今夜无风 阅读(41) 评论(0) 推荐(0) 编辑
摘要:并查集:也被称为不相交集数据结构。顾名思义,并查集主要操作是合并与查询,它是把初始不相交的集合经过多次合并操作后合并为一个大集合,然后可以通过查询判断两个元素是否已经在同一个集合中了。 class UnionFind(object): """并查集类""" def __init__(self, n) 阅读全文
posted @ 2021-05-26 21:08 今夜无风 阅读(90) 评论(0) 推荐(0) 编辑
摘要:问题: 假设有几种硬币,如1、3、5,并且数量无限。请找出能够组成某个数目的找零所使用最少的硬币数。 方法:dp, dp[i]: 面值为i的硬币所需要的硬币最少个数,dp[i]= 1+min(dp[i-coins[0]], dp[i-coins[1]],...) def change_coins(c 阅读全文
posted @ 2021-05-25 22:16 今夜无风 阅读(210) 评论(0) 推荐(0) 编辑
摘要:class Project(object): def __init__(self): self.node = {} self.end_char = '#' def insert(self, word): node = self.node for char in word: node = node.s 阅读全文
posted @ 2021-05-25 20:11 今夜无风 阅读(154) 评论(0) 推荐(0) 编辑
摘要:问题: 一只青蛙一次可以跳上1级台阶,也可以跳上2级台阶。求该青蛙跳上一个n级的台阶总共有多少种跳法? 方法:一维dp def go_stage(n): if not n: return if n==1 or n==2: return n if n==0: return 1 dp = [0] * ( 阅读全文
posted @ 2021-05-25 20:10 今夜无风 阅读(108) 评论(0) 推荐(0) 编辑
摘要:问题: # 给定一个三角形 triangle ,找出自顶向下的最小路径和。 # # 每一步只能移动到下一行中相邻的结点上。相邻的结点 在这里指的是 下标 与 上一层结点下标 相同或者等于 上一层结点下标 + 1 的两个结点。也就是说,如果# 正位于当前行的下标 i ,那么下一步可以移动到下一行的下标 阅读全文
posted @ 2021-05-23 19:20 今夜无风 阅读(76) 评论(0) 推荐(0) 编辑
摘要:问题: # 给定一个包含非负整数的 m x n 网格 grid ,请找出一条从左上角到右下角的路径,使得路径上的数字总和为最小。 # # 说明:每次只能向下或者向右移动一步。 # # # # 示例 1: # # # 输入:grid = [[1,3,1],[1,5,1],[4,2,1]]# 输出:7# 阅读全文
posted @ 2021-05-23 18:21 今夜无风 阅读(56) 评论(0) 推荐(0) 编辑
摘要:问题: # 一个机器人位于一个 m x n 网格的左上角 (起始点在下图中标记为 “Start” )。 # # 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角(在下图中标记为 “Finish” )。 # # 问总共有多少条不同的路径? # # # # 示例 1: # # # 输入:m 阅读全文
posted @ 2021-05-23 13:22 今夜无风 阅读(46) 评论(0) 推荐(0) 编辑
摘要:问题: # 整数数组 nums 按升序排列,数组中的值 互不相同 。 # # 在传递给函数之前,nums 在预先未知的某个下标 k(0 <= k < nums.length)上进行了 旋转,使数组变为 [nums[k], nums[# k+1], ..., nums[n-1], nums[0], n 阅读全文
posted @ 2021-05-22 22:28 今夜无风 阅读(54) 评论(0) 推荐(0) 编辑
摘要:问题: # 给定一个仅包含数字 2-9 的字符串,返回所有它能表示的字母组合。答案可以按 任意顺序 返回。 # # 给出数字到字母的映射如下(与电话按键相同)。注意 1 不对应任何字母。 # # # # # # 示例 1: # # # 输入:digits = "23"# 输出:["ad","ae", 阅读全文
posted @ 2021-05-20 23:12 今夜无风 阅读(156) 评论(0) 推荐(0) 编辑
摘要:问题: # 你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间相邻的房屋在同一晚上# 被小偷闯入,系统会自动报警。 # # 给定一个代表每个房屋存放金额的非负整数数组,计算你 不触动警报装置的情况下 ,一夜之内能够 阅读全文
posted @ 2021-05-19 23:46 今夜无风 阅读(111) 评论(0) 推荐(0) 编辑
摘要:问题: # 数字 n 代表生成括号的对数,请你设计一个函数,用于能够生成所有可能的并且 有效的 括号组合。 # # # # 示例 1: # # # 输入:n = 3# 输出:["((()))","(()())","(())()","()(())","()()()"] 实现: # leetcode s 阅读全文
posted @ 2021-05-19 23:40 今夜无风 阅读(82) 评论(0) 推荐(0) 编辑
摘要:功能: 1)微调模型后,下游任务在此模型上继续开发模型,冻结12层。方法:加载微调模型后(不是google原始ckpt),在custom_optimization.py中仅梯度更新需要的variable update_var_list = [] tvars = tf.trainable_variab 阅读全文
posted @ 2021-05-19 20:32 今夜无风 阅读(924) 评论(0) 推荐(0) 编辑
摘要:一般情况下,模型不能百分百实现完成功能情况下,需要采用特定trick二次升级,正则是一个重要的手段,之前也有总结,现将最近完成测试代码总结如下,希望能够帮到你解决问题。 import re # 匹配中文 CN_PATTERN = re.compile(u'[\u4e00-\u9fa5]') # 匹配 阅读全文
posted @ 2021-05-19 20:16 今夜无风 阅读(1726) 评论(0) 推荐(0) 编辑
摘要:有时我们有查看tensor内部变量的值的变化情况,需要挖一下,现给出解析代码: """ @Date :2021/5/18 @Author :xxx """ import os from tensorflow.python import pywrap_tensorflow base_model_dir 阅读全文
posted @ 2021-05-18 18:30 今夜无风 阅读(650) 评论(0) 推荐(0) 编辑
摘要:问题: # 给定 n 个非负整数,用来表示柱状图中各个柱子的高度。每个柱子彼此相邻,且宽度为 1 。 # # 求在该柱状图中,能够勾勒出来的矩形的最大面积。 方法一:暴力 # leetcode submit region begin(Prohibit modification and deletio 阅读全文
posted @ 2021-05-17 16:25 今夜无风 阅读(70) 评论(0) 推荐(0) 编辑
摘要:问题: # 设计一个支持 push ,pop ,top 操作,并能在常数时间内检索到最小元素的栈。 # # # push(x) —— 将元素 x 推入栈中。 # pop() —— 删除栈顶的元素。 # top() —— 获取栈顶元素。 # getMin() —— 检索栈中的最小元素。 方法:双栈结构 阅读全文
posted @ 2021-05-16 22:02 今夜无风 阅读(48) 评论(0) 推荐(0) 编辑
摘要:问题: # 给定一个链表,判断链表中是否有环。 # # 如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环。 为了表示给定链表中的环,我们使用整数 pos 来表示链表尾连接到链表中的# 位置(索引从 0 开始)。 如果 pos 是 -1,则在该链表中没有环。注意:pos 阅读全文
posted @ 2021-05-16 13:55 今夜无风 阅读(56) 评论(0) 推荐(0) 编辑
摘要:问题: # 给你一个包含 n 个整数的数组 nums,判断 nums 中是否存在三个元素 a,b,c ,使得 a + b + c = 0 ?请你找出所有和为 0 且不重# 复的三元组。 # # 注意:答案中不可以包含重复的三元组。 方法一:BF(submit超时) # leetcode submit 阅读全文
posted @ 2021-05-16 12:19 今夜无风 阅读(58) 评论(0) 推荐(0) 编辑
摘要:问题: # 给定一个表示分数的非负整数数组。 玩家 1 从数组任意一端拿取一个分数,随后玩家 2 继续从剩余数组任意一端拿取分数,然后玩家 1 拿,…… 。每次一个玩家# 只能拿取一个分数,分数被拿取之后不再可取。直到没有剩余分数可取时游戏结束。最终获得分数总和最多的玩家获胜。 # # 给定一个表示 阅读全文
posted @ 2021-05-15 12:01 今夜无风 阅读(75) 评论(0) 推荐(0) 编辑
摘要:卷友们好,我是rumor。 NLP最赚钱的落地莫属搜索、广告、推荐三大场景了,今天我们就向钱看,来了解下作为NLP算法工程师,怎样在互联网最主要的三个场景里发光发热,同时蹭得一份业绩。 搜广推这三个场景的架构都差不多,主要就是通过对内容/商品的召回和排序,来优化Query-Doc的匹配结果。可以将这 阅读全文
posted @ 2021-05-14 18:08 今夜无风 阅读(1075) 评论(0) 推荐(0) 编辑
摘要:在早先,单向语言模型广泛应用于文本处理;随之bert双向语言模型诞生后,对语义的捕捉能力更强大。应用之一就是对句子打分,通过生成每个字符的先验概率构建评估体系。 参考源码:https://github.com/xu-song/bert-as-language-model 阅读全文
posted @ 2021-05-10 10:22 今夜无风 阅读(354) 评论(0) 推荐(0) 编辑
摘要:转换成pb模型,设定多输出 def fun(): """ 保留bert第一层和第二层信息""" OUTPUT_GRAPH = 'pb_model/query_encoder.pb' output_node = ["loss/Softmax", "bert/pooler/dense/Tanh", "M 阅读全文
posted @ 2021-05-08 20:14 今夜无风 阅读(141) 评论(0) 推荐(0) 编辑