随笔分类 - NLP
摘要:大数据+AI的结合,大家可以学习一下最新的技术组合 基于大数据分布式流处理技术的实时反欺诈解决方案 1.方案引入先进的Hadoop+Spark技术,解决了互联网渠道海量并发行为数据的毫秒级实时响应分析难题,帮助金融机构IT平台向更开放的分布式处理架构演进,轻松应对互联网+时代的大数据处理场景; 2.
阅读全文
摘要:TF2.0最新架构,去除之前版本的冗余、无用接口,具有简单性和易用性 1.使用tf.data加载数据 使用输入管道读取训练数据,输入管道使用tf.data创建 利用tf.feature_column描述特征,如分段和特征交叉 2.使用tf.keras构建、训练并验证模型,或者使用Premade Es
阅读全文
摘要:ChineseGLUE Language Understanding Evaluation benchmark for Chinese: datasets, baselines, pre-trained models, corpus and leaderboard 中文语言理解测评基准,包括代表性的
阅读全文
摘要:文章名《How to Fine-Tune BERT for Text Classification》,2019,复旦大学 如何在文本分类中微调BERT模型? 摘要:预训练语言模型已经被证明在学习通用语言表示方面有显著效果,作为一种最先进的预训练语言模型,BERT在多项理解任务中取得了惊人的成果。在本
阅读全文
摘要:文章名《Deepening Hidden Representations from Pre-trained Language Models for Natural Language Understanding》,2019,单位:上海交大 从预训练语言模型中深化语言表示 摘要:基于Transforme
阅读全文
摘要:摘要:预训练语言模型如BERT等已经极大地提高了多项自然处理任务的性能,然而预训练语言模型通常具需要很大计算资源,所以其很难在有限的资源设备上运行。为了加速推理、减小模型的尺寸而同时保留精度,首先提出了一个新颖的迁移蒸馏方法,它是一种基于迁移方法的知识蒸馏思路。利用整个新颖的KD方法,大量的知识编码
阅读全文
摘要:该文主要采用“知识蒸馏”方法对BERT(预训练语言模型)精简、优化,将较大模型压缩成较小的模型,最终目的是:提高模型推理的效率,让运行在智能手机等硬件设备上的深度学习模型具有轻量级、响应快及能源利用率高等特性。 在2019年的NLP领域预训练+微调的模型训练思路百家争鸣,ElMo、GPT、BERT、
阅读全文
摘要:Link,Paper,Type,Model,Date,Citations https://arxiv.org/abs/1801.06146,Universal Language Model Fine-tuning for Text Classification,New Model ,ULMFiT,1
阅读全文
摘要:给2020年NLP方向做一个指引: 2019 年,可谓是 NLP 发展历程中具有里程碑意义的一年,而其背后的最大功臣当属 BERT ! 2018 年底才发布,BERT 仅用 2019 年一年的时间,便以「势如破竹」的姿态成为了 NLP 领域首屈一指的「红人」,BERT 相关的论文也如涌潮般发表出来。
阅读全文
摘要:预训练文本分类地址: https://www.cnblogs.com/jiangxinyang/p/10241243.html https://www.cnblogs.com/zhouxiaosong/p/11384197.html 快速适配下游任务的工程代码:https://github.com/
阅读全文
摘要:新年伊始,NLP技术在2019年大放异彩,BERT,GPT-2,Mass,ElMo,ULMFit等预训练+精调的思维路线开辟了新的方向,也给我们这一块带来新的希望! 作为工程技术人员,我们首要就是要将更好的技术应用于产品,获取利润,那么可以在大佬的步伐下吃一波红利,指导应用开发。本人也比较懒,总结做
阅读全文
摘要:以下代码可以让你更加熟悉seq2seq模型机制 参考:https://blog.csdn.net/weixin_43632501/article/details/98525673
阅读全文
摘要:1.知识图谱建立好后,下一步怎么办? 现今,各个行业都在储备自己的数据,领域知识数据的获取已不再是问题。我们能够通过自然语言处理、爬虫技术、装饰器等技术将数据整理成结构化数据,之后再将其放入到已经定义好的知识图谱里,用于支撑上层推理。那好,当你有了知识图谱也就是说有了数据,接下来你要做什么事呢?当然
阅读全文
摘要:比较好的一套处理工具吧,感谢作者,原文地址:https://github.com/ownthink/Jiagu 练习一下使用
阅读全文
摘要:在无GPU的情况下,打算安装pytorch跑几个demo练练手,但是pycharm发现总是失败,无法安装成功。错误显示如下: 无奈之下,只能够使用官方推荐的命令pip3安装,命令如下: pip3 install torch==1.2.0+cpu torchvision==0.4.0+cpu -f h
阅读全文
摘要:1.KS值--学习器将正例和反例分开的能力,确定最好的“截断点” KS曲线和ROC曲线都用到了TPR,FPR。KS曲线是把TPR和FPR都作为纵坐标,而样本数作为横坐标。但是AUC只评价了模型的整体训练效果,并没有指出如何划分类别让预估的效果达到最好。不同之处在于,ks取的是TPR和FPR差值的最大
阅读全文
摘要:地址:https://rajpurkar.github.io/SQuAD-explorer/ Stanford Question Answering Dataset (SQuAD) is a reading comprehension dataset, consisting of questions
阅读全文
摘要:使用CNN做文本分类已经有一段时间了,之前在封闭式测试集中模型的表现还是不错的。但是,拿到实际环境汇总测试,问题就来了。模型过拟合严重,泛化能力弱。最终带来的结果是,用户体验不佳。 改进的方面: 1)改变字符向量为词向量。实际发现,以字符为单元的模型,在数据量少的情况下(10W以下),更容易过拟合,
阅读全文