Fork me on GitHub

06 2021 档案

摘要:CNN4IE 项目地址:https://github.com/jiangnanboy/CNN4IE 本项目是本人打算使用CNN的不同变体进行信息抽取,未来会持续加入不同模型。 CNN4IE根据CNN的各种改进版本,对不同模型块进行融合,并将其用于中文信息抽取中。 Intro 目前主要实现中文实体抽取 阅读全文
posted @ 2021-06-19 15:41 石头木 阅读(552) 评论(0) 推荐(0) 编辑
摘要:一.一篇文档的信息量是否丰富,可以简单利用信息熵来衡量它,计算公式如下,其中p(x)表示word在整篇文档的出现概率(此word出现次数 / 总词数)。 二.简单实现 public class DocEntropy { public static void main(String[] args) { 阅读全文
posted @ 2021-06-03 20:19 石头木 阅读(851) 评论(0) 推荐(0) 编辑
摘要:记得好几年前用es做过标签画像统计,如今再看es时已是很生疏了,再用时已更新到了7.12版本了。以前用TransportClient客户端,现在出了而且是官方推荐用RestHighLevelClient客户端。 这几天用RestHighLevelClient时还是觉得比较方便的。现将一些基本常用功能 阅读全文
posted @ 2021-06-03 20:01 石头木 阅读(580) 评论(0) 推荐(0) 编辑
摘要:一.关于gpt2的理论网上有很多资料(推荐https://jalammar.github.io/illustrated-gpt2/),它源自transformer-decoder部分,话不多説。 下图是transformer、gpt以及gpt2的简要结构图,可以从中简单看出其中不同的部分: 和tra 阅读全文
posted @ 2021-06-02 21:39 石头木 阅读(1064) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示