全球名校LLM大语言模型经典课程自学指南

本文是全球名校AI开放课程推荐系列第一篇。推荐的课程主要来自斯坦福AI硕士项目和CMU的MCDS硕士项目,其他课程也都是来自顶级计算机名校的经典课程。所有课程都有公开的课程大纲、作业和大部份有课堂视频方便自学。文中提供了课程资源的相关链接,感兴趣的同学可以关注公众号,第一时间获取后续强化学习和视觉/生成模型方面的课程信息。

LLM第一课:斯坦福CS224n: NLP with DL

推荐指数:+++++/+额外1颗星加给作业

课程难度:中等(undergraduate level)

先修要求:

零基础的同学建议先学斯坦福的cs231n,cs221或者cmu的11-785中任意一门。匹配度最高的是cs231n。231n目前公开了视频的是2019年的版本,也可以用李飞飞的博士生Justin Johnson在密歇根大学2020年上课的版本,直接用没有任何问题。

课程体验:

本课程是斯坦福最受欢迎的NLP课程,也是NLP公开课中受关注度最高的课程。适合作为学习NLP的第一门课。注意是NLP的第一门课,不是DL的第一门课,零基础的同学请先看后文的先修要求。

课程最经典的内容集中在前10课。据说manning教授授课时,对前10课的课堂学习有要求,后面的课程会尽量留时间给大家完成小组作业。就我的学习感受而言,也是前10课系统性好。先从word embedding入手讲了table based statistic方法到word2vec和glove的思路演变。然后介绍神经网络的模型结构,从最初的LSTM讲到Attention再到Transformer和GPT的演进思路非常清晰。之后介绍最新的指令微调和强化学习对齐等post-training方法。认真学完前10课已经能够完成所有的课程Assignments,完成作业后也应该可以独立写出能够在单卡上训练的GPT-3 pre-training模型。

最近几年前10课的内容基本没有变化,但是后半部分的课程每年都会有很多调整。主要原因也是Transformer的基础结构逐渐稳定,但post-training领域仍然处理发展初期,为了不断跟进最新的研究成果,后半部分的课程每年的变动就相对大,并且主题也要零散一些。通常有好几节课是请产业界研究员针对某个主题做讲座,大部分也都很精彩。时间紧张的同学建议学完前半部分课程后将后半部分作为讲座课学习。

课程资源:- 课程网站连接:cs224n课程:cs224n最新视频(winter2023):cs231n:密歇根大学2020年的cs231n同内容版本:~justincj/teaching/eecs498/WI2022/作业:阿克的作业链接:

LLM第二课:CMU 11-711: Advanced NLP

推荐指数:++++/++额外2颗星加给作业

课程难度:中等(undergraduate level)

老师:Graham neubig(CMU教授,openhands联合创始人)

课程体验:

neubig教授的11-711和747都是cmu历年来评价很高的nlp课程。大模型火了之后,教授在2023年更新了711几乎所有内容,也不再单独开设747。相对cs224n而言,11-711的课程内容更多,覆盖面也更广。

相比这门课程前几年的精细度而言,新版为了尽可能覆盖更多的主题也带来一个问题(当然也跟这个领域本身的高速发展有关系),就是好一些主题都没有办法在一节课里讲透。教授也因此给每门课都提供了大量的参考文献。如果有对课程中感兴趣的内容,但是又不太理解的部分,就需要自己看论文。

虽然lecture部分的体验可能不如cs224n的好。但这门课相比cs224n的一个重要优点是课程作业设计得更好,非常结合实践。第一个作业是手写llama,第二个作业是写一个端到端的llm,第三个作业是论文复现。看题目也知道有多扎实了,所以我自己的感受是,这门课最大的收获是来自作业的部分。

课程资源:- 课程网站连接:- 视频:@neubig/playlists建议关注neubig的视频页面。他每年都会更新最新的课程内容。24fall的视频上传了一半后很长时间都没有更新后一半。估计教授参与了创业项目openhands之后太忙了,几天一个repo...看到课程结束两个月后还没更新vedio,我就试着给他发了信息,没想到老师隔天就全部发出来了,感慨下这个老师真挺好的。- 阿克的作业链接:待更新

LLM第三课:普林斯顿cos597r:Deep Dive into LLM

推荐指数:+++++

课程难度:中高(graduate level)

老师:陈丹琦(就不用过多介绍了吧)和Sanjeev Arora

先修要求:建议上完cs224n后再学习

课程体验:这是整个AI公开课系列中推荐的唯一一门论文讨论课。我本人很喜欢这门课有两个原因:

一是课程的内容编排非常好。整个课程的系统性强,将大语言模型的整个pipeline从dataset到pre-training再post-training都完整覆盖且详略得当。也没有像11-711那样为了广泛覆盖各种话题使得单个主题介绍有时失于简略。每个主题模块推荐的论文分为三类,如果能把required reading加上panel discussion的文章精度完,基本能对这部分主题的主流解决方案,当前研究重点和方向有很好的认知。

二是slides做得很好,要点和思路非常清晰,是少有的即使没有vedio直接看slides也能get要点的课程。这和授课老师陈丹琦的研究实践有很大关系。陈丹琦的团队在LLM领域的研究范围广成果也多,可以说是学术界llm研究的先锋,广为人知的比如Roberta。很多模块的内容都有自己结合实践的理解认知,要点的把握和研究思路的启发性很好。非常推荐陈丹琦最近的一个公开lecture:Training Language Models in Academia。可以作为本课程的一个导读。

课程资源:- 课程网站连接:- 视频:课程视频没有公开,但推荐两位老师公开的两个讲座作为课程导读,这两个vedio在ytb上都有:1. 陈丹琦:Training Language Models in Academia2. Sanjeev Arora :A Theory for Emergence of Complex Skills in Language Models- 作业:阅读课程schedule中要求的论文,建议精度required reading和panel discussion中推荐的论文,泛读recommend reading栏中涉及的论文。

其他LLM课程

斯坦福cs25 Transformers United和 MLSys Seminar

这两门课可以作为llm领域的讲座合集来听。课程形式都是邀请业界具有大模型实践经验同时又有优秀论文发表的研究员来介绍自己的研究。里面有很多非常精彩的分享。可以根据自己感兴趣的专题有选择地听。

Andrej Karpathy的LLM 101n

Andrej Karpathy(最初设计了斯坦福cs231n的人,openai联创,特斯拉自动驾驶系统高级总监)正在准备一门实践性很强的LLM课程,今年会推出,按照之前的学习经验,这门课大概率会成为最值得学习的LLM课程,没有之一。

课程计划连接:

本文是全球名校AI开放课程推荐系列的第1篇,欢迎关注公众号获得后续强化学习和视觉/生成模型课程内容。本文参考了@PKUFlyingPig开源的cs自学指南的写作方式,如果除了机器学习相关内容之外,需要自学计算机专业相关课程,非常推荐大家参考cs自学指南。

全球AI开放课程系列目录

第一类:自然语言处理和大语言模型

第二类:图像处理和生成模型

第三类:强化学习

第四类:机器学习和深度学习基础

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享