随笔分类 -  自然语言处理

摘要:## conda环境:https://www.cnblogs.com/wxiaoli/p/8830989.html ## 镜像安装lib:python -m pip install -i https://pypi.tuna.tsinghua.edu.cn/simple [libname] 必备lib 阅读全文
posted @ 2020-06-11 16:55 wxiaoli 阅读(463) 评论(0) 推荐(0) 编辑
摘要:1. 清理杂七杂八字符 2. 社交媒体文本中清除 @其他人 阅读全文
posted @ 2019-09-27 19:53 wxiaoli 阅读(694) 评论(0) 推荐(0) 编辑
摘要:论文链接:https://aclweb.org/anthology/P18-1031 对文章内容的总结 文章研究了一些在general corpus上pretrain LM,然后把得到的model transfer到text classiffication上 整个过程的训练技巧。 这些技巧的切入点是 阅读全文
posted @ 2019-06-26 16:01 wxiaoli 阅读(514) 评论(0) 推荐(0) 编辑
摘要:Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. 2017: 5998-6008. 文章提出纯粹基于atten 阅读全文
posted @ 2018-11-06 12:23 wxiaoli 阅读(4062) 评论(0) 推荐(1) 编辑
摘要:更新: 一个解释更详细和全面的博文:https://www.cnblogs.com/zhangqigao/p/6496172.html 最近开始处理中文文本,读取文件有时候会出现乱码。原因:编码和解码方式不一样。 所以,解决这个问题的方法就是正确地解码,问题拆解为:1、弄清楚待查看文件的编码方式;2 阅读全文
posted @ 2017-10-19 21:31 wxiaoli 阅读(13585) 评论(0) 推荐(0) 编辑
摘要:背景知识: (1)tf-idf 按照词TF-IDF值来衡量该词在该文档中的重要性的指导思想:如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。 tf–idf is the product of two statistics, term fre 阅读全文
posted @ 2017-06-04 15:37 wxiaoli 阅读(11895) 评论(0) 推荐(1) 编辑
摘要:》》以下内容参考wikipedia。 https://en.wikipedia.org/wiki/Precision_and_recall 精确度 precision = (true positive)/(selected elements) = tp/(tp+fp) ,表示预测为正例的样本中,真正 阅读全文
posted @ 2017-05-16 21:39 wxiaoli 阅读(1874) 评论(0) 推荐(0) 编辑
摘要:Knowing a word means knowing both its sound and its meaning, while being able to use a word requires four kinds of information: 1) its sounds 2) its m 阅读全文
posted @ 2016-11-23 20:21 wxiaoli 阅读(432) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示