摘要: 概述 做nlp的肯定都听说过bert了,它属于迁移学习,官方提供了通用语料bert预训练结果,通过微调,可以提高下游任务的准确率。但是bert使用的维基百科这类的通用语料,对特定领域的文本特征学的不是很好。例如我所在的医疗领域,bert并不能很好区分医学特征,此时就需要我们对自己的语料进行预训练。b 阅读全文
posted @ 2020-05-06 20:22 大熊猫淘沙 阅读(2898) 评论(1) 推荐(0) 编辑
摘要: 概述 结巴分词是一款非常流行中文开源分词包,具有高性能、准确率、可扩展性等特点,目前主要支持python,其它语言也有相关版本,好像维护不是很实时。 分词功能介绍 这里只介绍他的主要功能:分词,他还提供了关键词抽取的功能。 精确模式 默认模式。句子精确地切开,每个字符只会出席在一个词中,适合文本分析 阅读全文
posted @ 2020-04-27 20:14 大熊猫淘沙 阅读(7302) 评论(0) 推荐(0) 编辑
摘要: 问题阐述 互联网早已成为人们生活的一部分,没事在网上看看电影、逛逛淘宝、定定外卖(有时间还是要多出去走走)。互联网的确为我们提供了非常多的便利,但它毕竟是一个虚拟的环境,具有更多的不确定性,大多数情况下我们只能通过别人的评论及打分来判别某个商品的好坏。五星打分是许多网站采用的商品排名方法,它也是消费 阅读全文
posted @ 2016-07-07 11:41 大熊猫淘沙 阅读(4584) 评论(3) 推荐(2) 编辑
摘要: 题记:毕业一年多天天coding,好久没写paper了。在这动荡的日子里,也希望写点东西让自己静一静。恰好前段时间用python做了一点时间序列方面的东西,有一丁点心得体会想和大家分享下。在此也要特别感谢顾志耐和散沙,让我喜欢上了python。 什么是时间序列 时间序列简单的说就是各时间点上形成的数 阅读全文
posted @ 2016-06-14 20:31 大熊猫淘沙 阅读(249560) 评论(92) 推荐(24) 编辑