宋岳庭 - 博客园

2021年10月19日

摘要：就我个人而言，Foxmail客户端还是比较好用的。最近新装了电脑操作系统，重新配置一些软件，顺便记下来。安装Foxmail客户端，不赘述。在浏览器登录qq邮箱，地址是：https://mail.qq.com/。注意：登录是因为在Foxmail配置qq邮箱，需要“授权码” 点击邮箱的设置账户阅读全文

posted @ 2021-10-19 20:25 宋岳庭阅读(1424) 评论(0) 推荐(0) 编辑

2021年10月8日

声音克隆MockingBird

摘要：只要5秒就能“克隆”本人语音 https://mp.weixin.qq.com/s/jYMfp0OxnXpndBL0g8_Dxw 实时语音克隆项目地址：https://github.com/babysor/MockingBird/blob/main/README-CN.md conda creat 阅读全文

posted @ 2021-10-08 12:33 宋岳庭阅读(1888) 评论(0) 推荐(0) 编辑

多模态摘要综述

摘要：赛尔笔记 | 多模态摘要简述哈工大冯夏冲 https://mp.weixin.qq.com/s/Ce6jtp-gTtqeh9lgi-kHtQ 首篇「多模态摘要」综述论文 https://mp.weixin.qq.com/s/L51ckW-ow4_6X-KPboDLyQ 可到这里下载论文原文 ht 阅读全文

posted @ 2021-10-08 11:27 宋岳庭阅读(210) 评论(0) 推荐(0) 编辑

200字带你看完一本书，GPT-3已经会给长篇小说写摘要了

摘要：转自https://mp.weixin.qq.com/s/vLR9CwP8xq5ZOw1BfiM_3A AI分四个阶段来总结：先把原文总结成276个摘要（24796词），然后进一步压缩成25个摘要（3272词），再到4个摘要（475词）。最终得到一段175词的摘要，长度只有原片段的千分之一能给阅读全文

posted @ 2021-10-08 11:17 宋岳庭阅读(81) 评论(0) 推荐(0) 编辑

浪潮「源1.0」大模型

摘要： 2457亿参数！全球最大AI巨量模型「源1.0」发布，中国做出了自己的GPT-3 浪潮「源1.0」大模型能够从自然语言中「识别主题并生成摘要」的能力，让各行各业公司的产品、客户体验和营销团队更好地了解客户的需求。例如，未来大模型从调查、服务台票证、实时聊天日志、评论等中识别主题、情绪，然后从这个汇阅读全文

posted @ 2021-10-08 11:14 宋岳庭阅读(319) 评论(0) 推荐(0) 编辑

2021年9月29日

悟道模型

摘要：清源清华大学+智源研究院悟道1.0在今年3月发布，有文源、文汇、文澜、文溯共4个方向。文源：超大规模中文预训练模型文汇：认知文澜：多模态文溯：蛋白质序列 “文源”(以中文为核心的超大规模预训练语言模型)、 “文汇”(面向认知的超大规模新型预训练模型)、 “文澜”(超大规模多模态预训练模型阅读全文

posted @ 2021-09-29 15:00 宋岳庭阅读(811) 评论(0) 推荐(0) 编辑

2021年9月27日

torchtext支持的分词器

摘要： torchtext是pytorch自带的关于文本的处理工具。 torchtext支持的分词器 from torchtext.data.utils import get_tokenizer tokenizer = get_tokenizer('basic_english') 在/Users/xuehu 阅读全文

posted @ 2021-09-27 15:36 宋岳庭阅读(495) 评论(0) 推荐(0) 编辑

wikitext数据集

摘要： WikiText用于长时间依赖的语言建模 WikiText 英语词库数据（The WikiText Long Term Dependency Language Modeling Dataset）是一个包含1亿个词汇的英文词库数据，这些词汇是从Wikipedia的优质文章和标杆文章中提取得到，包括Wi 阅读全文

posted @ 2021-09-27 15:29 宋岳庭阅读(4866) 评论(0) 推荐(0) 编辑

使用transformer训练语言模型

摘要：准备环境安装依赖包 !which python ! pip install datasets transformers rouge-score nltk # 加载数据 from datasets import load_dataset, load_metric # raw_datasets = l 阅读全文

posted @ 2021-09-27 14:21 宋岳庭阅读(633) 评论(0) 推荐(0) 编辑

2021年9月16日

CMU博士后刘鹏飞：文本生成任务十大发展趋势（2020-2021）

摘要： CMU博士后刘鹏飞：文本生成任务十大发展趋势（2020-2021）趋势一：挑战总结。数据集的收集、指标的设计、模型结构的设计趋势二：多语言、低资源场景趋势三：非典型文本生成任务趋势四：基于seq2seq的预训练模型，成为生成任务的标配趋势五：非端到端系统（多步生成）成绩优异趋势六：显示引阅读全文

posted @ 2021-09-16 16:27 宋岳庭阅读(169) 评论(1) 推荐(0) 编辑