08 2019 档案

摘要:"深入理解wmd算法" WMD(Word Mover’s Distance) "1" 是2015年提出的一种衡量文本相似度的方法。它具有以下几个优点: 效果出色:充分利用了 "word2vec" 的领域迁移能力 无监督:不依赖标注数据,没有冷启动问题 模型简单:仅需要词向量的结果作为输入,没有任何超 阅读全文
posted @ 2019-08-31 20:39 FromZeroToOne 阅读(5213) 评论(0) 推荐(0) 编辑
摘要:皮尔逊相关系数 $$ r=\frac{\operatorname{Cov}\left(\operatorname{sim}_{o u t}, \operatorname{sim}_{\text {label}}\right)}{\sqrt{\operatorname{Var}\left(\opera 阅读全文
posted @ 2019-08-29 18:23 FromZeroToOne 阅读(284) 评论(0) 推荐(0) 编辑
摘要:不理解环境(Model Free RL) Q Learning Sarsa Policy Gradients 理解环境 基于概率 基于价值 阅读全文
posted @ 2019-08-28 19:15 FromZeroToOne 阅读(105) 评论(0) 推荐(0) 编辑
摘要:```python def change_text(path): with open(path,'r',encoding='utf-8') as f_read: raw_text = f_read.read() ## 删除空格和换行 raw_text = re.sub(u'([\r\n ])','',raw_text) ## ... 阅读全文
posted @ 2019-08-27 17:23 FromZeroToOne 阅读(224) 评论(0) 推荐(0) 编辑
摘要:挖坑 阅读全文
posted @ 2019-08-27 16:56 FromZeroToOne 阅读(89) 评论(0) 推荐(0) 编辑
摘要:提取句子中中英文数字 | \u4e00 \u9fa5 | 汉字的unicode范围 | | | | | \u0030 \u0039 | 数字的unicode范围 | | \u0041 \u005a | 大写字母unicode范围 | | \u0061 \u007a | 小写字母unicode范围 | 阅读全文
posted @ 2019-08-27 16:44 FromZeroToOne 阅读(314) 评论(0) 推荐(0) 编辑
摘要:英文语料 MPRC 二分类 0101 训练集4700条 测试机1700条 中文语料 微众银行 共10000条数据 阅读全文
posted @ 2019-08-25 23:19 FromZeroToOne 阅读(514) 评论(0) 推荐(0) 编辑
摘要:词嵌入在NLP领域已经很流行了,它可以让我们很简单地计算两个单词的相似度,或者去找到一个目标词最相似的词,然而,我们对两个长的句子或短文本相似度更感兴趣。在这篇博客中,我们比较最流行的方法计算句子相似度,研究他们的表现. "代码链接" 很多NLP应用需要计算短文本在语义层面的相似度。比如搜索引擎,需 阅读全文
posted @ 2019-08-23 20:27 FromZeroToOne 阅读(2765) 评论(0) 推荐(0) 编辑
摘要:排序二叉树定义 ​ 是具有以下性质的二叉树: 1. 若它的左子树不空,则左子树上所有节点的值均小于它的根节点的值; 2. 若它的右子树不空,则右子树上所有节点的值均大于它的根节点的值; 3. 它的左右子树也分别为二叉排序树。 查找算法 哈希表定义 1)每个数据按照某种聚类运算归到某一大类,然后所有数 阅读全文
posted @ 2019-08-21 11:57 FromZeroToOne 阅读(147) 评论(0) 推荐(0) 编辑
摘要:```python import tensorflow as tf class myCallback(tf.keras.callbacks.Callback): def on_epoch_end(self,epoch,logs={}): if logs.get('acc')>0.99: print('\nReaching 99% accuracy s... 阅读全文
posted @ 2019-08-20 12:53 FromZeroToOne 阅读(397) 评论(0) 推荐(0) 编辑
摘要:方法一:递归 阅读全文
posted @ 2019-08-18 18:19 FromZeroToOne 阅读(113) 评论(0) 推荐(0) 编辑
摘要:动态数据结构(依靠静态数据的resize方法实现动态添加) 动态数组 栈 队列 链表(真正的动态数据结构) 阅读全文
posted @ 2019-08-18 17:42 FromZeroToOne 阅读(117) 评论(0) 推荐(0) 编辑
摘要:Torch笔记 初始化很重要 切记 !不同的初始化产生的结果完全不同 relu函数可以解决sigmod函数梯度弥散的问题 tanh函数在卷积用的比较多 Leaky Relu 泄露的relu函数 使x 阅读全文
posted @ 2019-08-15 22:26 FromZeroToOne 阅读(239) 评论(0) 推荐(0) 编辑
摘要:twoSums解法2 c++ int[] twoSums(int[] numbers,int target){ int l = 0; int r = numbers.size() 1; while(l 阅读全文
posted @ 2019-08-15 21:48 FromZeroToOne 阅读(176) 评论(0) 推荐(0) 编辑
摘要:```python nums =[None]*8 ``` 阅读全文
posted @ 2019-08-15 17:51 FromZeroToOne 阅读(1010) 评论(0) 推荐(0) 编辑
摘要:python函数参数前面单星号( )和双星号( )的区别 将任意个数的参数以元组传入函数中 此外,单星号的另一个用法是解压参数列表: 双星号( ): kwargs 将参数以 字典 的形式导入 阅读全文
posted @ 2019-08-15 17:46 FromZeroToOne 阅读(166) 评论(0) 推荐(0) 编辑
摘要:元组tuple "参考博文" 定义 与列表类似 但是一旦定义就不可修改 因此比较安全如果可能,能用tuple代替list就尽量用tuple。 python在显示只有1个元素的tuple时,也会加一个逗号,,以免你误解成数学计算意义上的括号。这就是numpy中数字维度显示加逗号的原因 阅读全文
posted @ 2019-08-15 17:45 FromZeroToOne 阅读(129) 评论(0) 推荐(0) 编辑
摘要:jupyter 命令使用 !+bash命令 直接运行命令行 dd删除 B向下插入 A 向上插入 ctrl + enter 执行本cell 替换 ESC+F 隐藏输出 ESC+O 合并cell shift+M 拆分单元格 ctrl+shift+ Y 转化为代码状态 M 转化为markdown shif 阅读全文
posted @ 2019-08-14 15:09 FromZeroToOne 阅读(1938) 评论(0) 推荐(0) 编辑
摘要:分词 分词OR不分词选择 正向最大匹配算法 查词典 基于隐马尔科夫模型的分词 利用对字的状态标注进行分词 CRF条件随机场 句子相似度计算 DSSM "链接" 使用点击数据来训练语义层次的匹配 one hot输入 通过搜索引擎里 Query 和 Title 的海量的点击曝光日志,用 DNN 把 Qu 阅读全文
posted @ 2019-08-14 10:00 FromZeroToOne 阅读(136) 评论(0) 推荐(0) 编辑
摘要:题目要求: 在一个二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。 阅读全文
posted @ 2019-08-14 09:08 FromZeroToOne 阅读(69) 评论(0) 推荐(0) 编辑
摘要:https://blog.csdn.net/liuchunming033/article/details/39080457 logger的坑 至今还没搞明白 import的顺序很重要 日志一共分成5个等级,从低到高分别是:DEBUG INFO WARNING ERROR CRITICAL 简单输出 阅读全文
posted @ 2019-08-13 19:08 FromZeroToOne 阅读(174) 评论(0) 推荐(0) 编辑
摘要:bert 论文阅读 一、模型结构 是一个多层的双向transformer encoder 注意 这里tranformer模型输入的是embedding后的词向量 二、 "输入编码" 可以编码一个单句或一串单句 Token Embedding 每个词被表示成一个768维的向量 CLS表示开始符号 SE 阅读全文
posted @ 2019-08-12 18:13 FromZeroToOne 阅读(634) 评论(0) 推荐(1) 编辑
摘要:windows cuda10 安装 1. "下载cuda" 和cudnn 2. "参照视频" 3. 测试: nvcc V pytroch 安装 "链接" tensorflow安装 阅读全文
posted @ 2019-08-12 13:35 FromZeroToOne 阅读(1022) 评论(0) 推荐(0) 编辑
摘要:思路: 1. 将非零数与第一个0交换位置 2. 将所有非零数移到前面 最后将最后一个非零数后面全部填充为0 阅读全文
posted @ 2019-08-10 00:23 FromZeroToOne 阅读(180) 评论(0) 推荐(0) 编辑
摘要:!/bin/bash python环境配置脚本 pip安装网络报错 pip install default timeout=1000 基础计算包 sudo pip3 install i https://pypi.tuna.tsinghua.edu.cn/simple numpy sudo pip3 阅读全文
posted @ 2019-08-08 20:21 FromZeroToOne 阅读(361) 评论(0) 推荐(0) 编辑
摘要:Word Embedding Word2Vec Glove RNN改进与拓展 Seq2Seq LSTM/GRU attention/self attention Tranformer模型学习 全部采用self attention 层进行编码,引入三个变换矩阵,得到Q K V向量,然后利用词与词之间Q 阅读全文
posted @ 2019-08-08 13:46 FromZeroToOne 阅读(526) 评论(0) 推荐(0) 编辑
摘要:Cent os 安装 步骤 1. 新建虚拟机 选择自定义 2. 选择兼容性 选择稍后安装操作系统 选择LInux centos7 64 位 3. 选择安装位置 选择处理器 4. 选择桥接网络 相当与虚拟机和主机在同一个局域网内 5. 一路默认 6. 自定义硬件 —CD/DVD 设置镜像文件 7. 开 阅读全文
posted @ 2019-08-07 09:36 FromZeroToOne 阅读(205) 评论(0) 推荐(0) 编辑
摘要:双系统安装注意 1. 安装分区 分一个swap 区+uefi区+根目录区 2. 安装完成进入无画面(双显卡的坑) 按e修改 +nomodeset 此时采用默认的集显 3. 进入系统后无网络 更新系统内核 重启 即可连接wifi 4. 切记不要在软件与更新那里安装显卡驱动 否则会导致反复登陆(解决方法 阅读全文
posted @ 2019-08-07 09:35 FromZeroToOne 阅读(506) 评论(0) 推荐(0) 编辑
摘要:ubuntu 安装python "参考链接" "更新链接" 亲测有效 1. 官网下载python source code 2. tar xfz Python 3.6.1.tgz 3. cd Python 3.6.1/ 4. ./configure prefix=/usr/bin/python3.6 阅读全文
posted @ 2019-08-07 09:34 FromZeroToOne 阅读(2510) 评论(0) 推荐(0) 编辑
摘要:测试环境部署方式,按步骤执行 1. 下载 centos7 镜像 "镜像地址" DVD版本 2. 虚拟机安装centos7, 安装完成后reboot首先尝试 不能ping通的话,参照 "方法" 解决 能ping通之后,参照 "ssh远程连接" 完成远程连接 tips: 虚拟机网络采用NAT模式,远程连 阅读全文
posted @ 2019-08-07 09:33 FromZeroToOne 阅读(552) 评论(0) 推荐(0) 编辑
摘要:遇到的问题 "无法修正错误,因为您要求某些软件包保持现状,就是它们破坏了软件包间的依赖关系" 1 购买云服务器 不要买虚拟主机 2 查看IP ifconfig ip addr centos 安装软件 yum install +包名 uname r 查看系统内核版本 3 、SSH工具 sudo apt 阅读全文
posted @ 2019-08-07 09:32 FromZeroToOne 阅读(242) 评论(0) 推荐(0) 编辑
摘要:https://blog.csdn.net/lilongsy/article/details/70895753 python列表删除元素 1. 采用del语句 删除指定位置元素 del a[1] 2. 采用列表remove方法 删除指定元素 a.remove(1) python的除法 python2 阅读全文
posted @ 2019-08-04 15:26 FromZeroToOne 阅读(179) 评论(0) 推荐(0) 编辑
摘要:在做文本分类聚类的任务时,常常需要从文本中提取特征,提取出对学习有价值的分类,而不是把所有的词都用上,那样会造成维度灾难。因此一些词对分类的作用不大,比如“的、是、在、了”等停用词。这里介绍三种常用的特征选择方法: 无监督方法: TF IDF 监督方法: 卡方 信息增益 互信息 一、TF IDF 一 阅读全文
posted @ 2019-08-04 12:57 FromZeroToOne 阅读(495) 评论(0) 推荐(0) 编辑
摘要:1.特征工程介绍 这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。 特征工程包含内容: 特征清洗 清洗异常样本(缺失值填充,异常值处理) 采样( 阅读全文
posted @ 2019-08-02 20:31 FromZeroToOne 阅读(197) 评论(0) 推荐(0) 编辑
摘要:1.定义 TF(词频) = 词频数/一篇文章的总共词数 IDF(逆文档频率) = log(总文档数/出现该词的文档数+1) TF IDF = TF IDF ,其值越大表示其在文档中的重要性也越大, 2.应用 1. 可用它来提取某关键词 2. 与余弦相似度结合找出相似的文章 具体步骤如下 (1)使用T 阅读全文
posted @ 2019-08-02 15:40 FromZeroToOne 阅读(404) 评论(0) 推荐(0) 编辑
摘要:现如今,深度学习方法成了解决nlp任务的首选方案,比如textCNN、LSTM、GRU、BiLSTM、Attention、BERT等等。当然,有的nlp任务也可以用机器学习方法去解决,至于哪种任务用哪种方法,需要我们根据实际情况去选择。就目前我接触到的nlp赛题任务有,文本分类、情感分析、关系抽取、 阅读全文
posted @ 2019-08-02 14:41 FromZeroToOne 阅读(752) 评论(1) 推荐(0) 编辑

点击右上角即可分享
微信分享提示
🚀
回顶
收起
  1. 1 404 not found REOL
404 not found - REOL
00:00 / 00:00
An audio error has occurred.