NLP入门1——李宏毅网课笔记

近日因为项目需要,开始恶补预习NLP的相关知识。以前也看过两本相关书籍,但是都十分浅显。这次准备详细的学一下并记录。

李宏毅老师的网课是 Deep Learning for Human Language Processing

Lecture 1 - Intro

  • 没有人能够说同一句话两次

网课特色:加强了对语音的识别的讲解

  • 有很多语言虽然有文字但是文字的使用频率非常低

这门课讲六个模型

  • 输入语音,输出文字:语音辨识 (数字语音处理)Automatic Speech Recognition (ASR)其中有个很重要的问题是——模型本身的size要小。
  • 输入语音,输出语音:Speech Separation, Voice Convention
  • 输入语音,输出分类:Speaker Recognition, Keyword Spotting (唤起语音助手)
  • 输入文字,输出文字:translation, chat-bot, question answering, summerization
  • 输入文字,输出语音:语音合成 但是对于一个很短的词汇容易出错,可能有重音的问题。
  • 输入文字,输出分类:
硬train一发

没有硬train一发不能解决的问题,如果有,那就是训练样本不够或者GPU不够。

"Every time I fire a linguist, the performance of the speech recognizer goes up." by Frederick Jelinek.

cocktail party effect 鸡尾酒效应

是指人的一种听力选择能力,在这种情况下,注意力集中在某一个人的谈话之中而忽略背景中其他的对话或噪音。
就是Speech Separation的问题,人可以这样,机器可以吗

one-shot learning
BERT

芝麻街~~

Meta Learning

例:先学其他语言的语音辨识,然后再学一个新的语言的语音辨识。

Learning from Unpaired Data

特别是再voice conversion, image style transfer 上

Knowledge Graph

发现时间好有限55555写不完笔记嗷嗷嗷真的写不完

posted @ 2023-01-29 21:56  爱吃番茄的玛丽亚  阅读(154)  评论(0编辑  收藏  举报