自然语言处理怎么最快入门? - 知乎 - 量子位

GitHub上出现了一套NLP课程,目前已经获得了2200多颗星。

课程为期13周,从文本嵌入分类开始,讲到Seq2Seq,再到机器翻译、对话系统、对抗学习等等,内容丰富。入门选手可以考虑

每周的课程,除了课堂视频之外,还有讨论课,大家可以 (用英文) 提问。已经讲完的课程带有视频Python笔记,另外还有课后作业笔记。

现在,还差第12、13周,就要完结了。

满满的13周

课程大纲如下:

第1周:文字嵌入

讲座:介绍文字嵌入、分布式语义、LSA、Word2Vec、GloVe的用法和使用场景。
讨论:单词和句子嵌入。

第2周:文本分类

讲座:文本分类。
文本表示的经典方法:BOW,TF-IDF。
神经方法:嵌入,卷积,RNN。
讨论课:卷积神经网络的薪酬预测; 解释网络预测。

第3周:语言模型

讲座:语言模型,N-gram和神经方法; 可视化训练的模型。
讨论课:使用语言模型生成ArXiv论文。

第4周:Seq2seq/注意力机制

讲座:
Seq2seq:编码器 - 解码器框架。
Attention:Bahdanau模型。
讨论课:酒店和宿舍描述的机器翻译。

第5周:结构化学习

讲座:结构化学习 (Structured Learning) ,结构化感知器,结构化预测,RL基础知识。
讨论课:POS标签。

第6周:最大期望算法 (EM)

讲座:期望最大化和单词对齐模型。
讨论课:实现期望最大化。

第7周:机器翻译

讲座:机器翻译,回顾PBMT的主要思想,过去3年NMT开发的应用程序特定思想以及该领域的一些开放性问题。
讨论课:学生演讲。

第8周:迁移学习与多任务学习

讲座:网络学习的内容和原因:“模型”永远不仅仅是“模型”!NLP中的多任务学习,如何理解,模型表示包含哪些信息。
讨论课:通过与其他任务共同学习,提高指定实体的认可度

第9周:域适应 (Domain Adaptation)

讲座:一般理论。示例加权 (Instance Weighting) 。代理标签(Proxy-Labels) 方法。特征匹配 (Feature Matching) 方法。类蒸馏 (Distillation-Like) 方法。

讨论:让通用的机翻模型去适应特定的领域。

第10周:对话系统

任务导向的对话系统 vs 一般对话系统 (Task-Oriented vs General) 。任务导向系统的框架概述。一般对话:检索与生成是两种方法。针对一般对话的生成模型;针对一般对话的基于检索的模型。

讨论课:基于检索的简单问答。

第11周:对抗学习与潜变量

讲座:先复习生成模型。后面讲生成对抗模型 (GAN) ,以及变分自编码器 (VAE) ,以及这些东西为何重要。

第12-13周

TBA。等等,等等就会更新的。

作者团

这份NLP教程一共有5位作者,其中一作小姐姐Elena Voita是俄罗斯AI公司Yandex的研究员,专供NLP、机器翻译方向,今年还发了一篇关于文本识别和机器翻译的ACL论文。

Elena Voita目前在阿姆斯特丹大学读机器学习、NLP方向的博士,同时还是爱丁堡大学访问博士。

传送门

GitHub:
https://github.com/yandexdataschool/nlp_course

Jupyter:
https://mybinder.org/v2/gh/yandexdataschool/nlp_course/master

欢迎大家关注我们的知乎号:量子位


Original url: Access
Created at: 2019-10-14 13:32:32
Category: default
Tags: none

请先后发表评论
  • 最新评论
  • 总共0条评论