NLP自然语言处理集训营2[2019]
【课程介绍】
整个训练营历时4个月的学习时间,包括多为一线技术专家亲自授课,均毕业于美国顶尖高校。课程覆盖了10多个自然语言实际项目。从传统NLP技术到基于深度学习的NLP技术,帮助学员理解技术深层次的本质关系。学员有机会选择并完成自己感兴趣的课题,无论应用性的还是学术性的课题,导师助教团队都可以很好地指导你。或许这样的一个项目可以让你实现拥有顶会论文的目标。
最专业、最体系化的课程课程收获
掌握处理非结构化文本数据,完成知识抽取、NLU、多轮对话决策、逻辑推理等NLP核心技术;
深入理解分词、语义分析、语义表示、文本匹配、文本分类、主题识别等NLP主流领域;
掌握词向量如word2vec等以及NLP相关的深度学习(RNN、LSTM、Bert等)相关知识;
掌握NLP传统、机器学习及深度学习算法,完成QA系统、机器翻译、知识图谱、聊天机器人等实战项目。实战项目介绍
问答系统
从零开始搭建一个完整的问答系统。给定一个语料库(问题和答案对),对于用户的输入需要返回最适合的答案。涉及到的模块:1. 对于用户的输入需要做拼写纠错,这部分会用到语言模型 2. 之后对输入做文本的预处理,过滤等操作。 3. 把文本转换成向量形式,这里需要用到tf-idf, word2vec等相关的技术。 4. 针对于语料库,为了提升效率需要创建倒排表。 5. 基于相似度的计算来获得最优的答案。
情感分析系统
基于给定数据,来搭建一个完整的情感分析系统。项目涉及到的模块: 1. 数据的预处理 2. 特征工程,这部分是本项目的核心。 3. 监督学习模型的选择与调参。调参的过程需要尝试不同的优化策略。
知识图谱系统
利用非结构化数据来搭建知识图谱。项目涉及到的模块:1. 从非结构化数据中抽取实体,以及词典库的构建 2. 关系的抽取(指定的关系) 3. 实体统一以及实体消歧。 4. 知识图谱的构建以及查询
对话系统中的NLU
基于给定的对话数据来构建NLU识别部分,并结果用于聊天机器人中。 项目涉及到的模块: 1. 文本特征的提取 2. 搭建CRF模型来识别关键词 3. 搭建LSTM-CRF模型来识别关键词。
机器翻译系统
搭建一个完整的机器翻译系统。这里使用的方法论是端到端的方法。项目需要使用两种不同的方法: 1. 基于多层LSTM+Attention的方法。2. 基于多层Transformer, Bert的方法。
任务导向型聊天机器人
搭建一个完整的聊天机器人,用来服务搜索餐厅。项目涉及到的模块:1. 文本预处理 2. 意图识别和关键信息抽取 3. 对于每一个意图设计对话管理状态机 4. 设计上下文处理的方法 5. 对话生成模块 6. 处理一些常见的boundary case。
开放型Capstone项目(付费项目)
这是一个开放性的项目,学员根据自己的兴趣可以选择方向以及题目,导师以及助教团队会全程指导你完成。选择的项目可以围绕自己所熟悉的任何NLP场景,也可以是纯学术性的,当然针对学术性的项目,如果有一定创新性,导师团队也可以协助你发表顶会论文。项目的中期和最后,会有简短的学员项目展示环节,导师和助教团队会提供建设性的意见。
课程目录
课程目录
001.自然语言处理训练营
002.训练营介绍课程体系介绍
003.NLP定义以及歧义性
004.案例.机器翻译01
005.案例.机器翻译02
006.NLP的应用场景
007.NLP的关键技术
008.算法复杂度介绍
009.课后答疑
010.简单的复杂度的回顾
011.归并排序
012.MasterTheorem
013.斐波那契数的时间复杂度
014.斐波那契数的空间复杂度
015.斐波那契数的循环实现
016.PvsNPvsNPHardvsNPComplete
017.问答系统介绍
018.Review一只狗和两只猫的故事——心理学与DL,RL-01
019.Review一只狗和两只猫的故事——心理学与DL,RL-02
020.文本处理的流程
021.分词-前向最大匹配
022.分词-后向最大匹配
023.分词-考虑语言模型
024.分词-维特比算法
025.拼写错误纠正
026.拼写纠错(2)
027.拼写纠错(3)
028.停用词过滤,Stemming操作
029.文本的表示
030.文本的相似度
031.tf-idf文本表示
032.词向量介绍
033.学习词向量
034.倒排表
035.NoisyChannelModel
036.语言模型介绍
037.ChainRule和MarkovAssumption
038.Unigram,Bigram,N-gram
039.估计语言模型的概率
040.评估语言模型.Perplexity
041.Add-oneSmoothing
042.Add-KSmoothing
043.Interpolation
044.2019.2.17Review基于几个例子,书写动态规划-01
045.2019.2.17Review基于几个例子,书写动态规划-02
046.2019.2.17Review基于几个例子,书写动态规划-03
047.Lesson6直播
048.在训练数据里没有见过的怎么处理?
049.Good-TurningSmoothing
050.利用语言模型生成句子
051.专家系统与基于概率统计学习
052.专家系统介绍
053.逻辑推理
054.CaseStudy风控
055.一些难题
056.机器学习介绍01
057.机器学习介绍02
058.朴素贝叶斯介绍
059.CaseStudy垃圾邮件过滤
060.lambda表达式
061.map函数的应用
062.filter过滤器
063.reduce函数
064.python三大推导式
065.闭包
066.装饰器一
067.装饰器二
068.初识numpy
069.numpy数组的创建
070.numpy的矢量化运算
071.numpy的花式索引
072.numpy数组转置和轴对换
073.条件逻辑转数组
074.数学运算与排序
075.numpy文件处理
076.线性代数函数和随机漫步例子
077.词性标注-实战(1)
078.词性标注–实战(2)
079.词性标注-实战(3)
080.词性标注-实战(4)
081.词性标注-实战(5)
082.初识series类型
083.初识dataframe
084.重新索引、数学运算和数据对齐
085.dataframe和series之间的运算和排序
086.层次化索引
087.dataframe的层次化索引的访问和汇总运算
088.pandas读写csv文件
089.pandas读取excel文件并画图
090.matplotlib可视化及学习方法建议
091.虚拟环境的搭建
092.创建第一个爬虫项目
093.调试运行爬虫程序
094.13-scrapyshell调试方法进行元素定位
095.访问首页列表中的url
096.获取帖子标题和内容
097.处理帖子内容中的特殊标签
098.获取帖子发送时间及位于的楼数
099.爬虫的bug调试与修复
100.数据持久化代码开发
101.数据入库
102.importancesamplenegtivesamplence-01
103.importancesamplenegtivesamplence-02
104.importancesamplenegtivesamplence-03
105.精确率和召回率
106.逻辑回归介绍
107.逻辑回归是线性分类器
108.逻辑回归的目标函数
109.梯度下降法
110.逻辑回归的梯度下降法
111.当线性可分的时候
112.关于面试的话题-01
113.关于面试的话题-02
114.关于面试的话题-03
115.直播(优化算法)-01
116.直播-02
117.直播-03
118.直播-04
119.直播-05
120.直播-06
121.直播-07
122.直播-08
123.直播-09
124.直播-10
125.直播-11
126.当数据线性可分割的时候
127.限制参数变得太大
128.模型复杂度与过拟合
129.怎么避免过拟合
130.正则介绍
131.L1VSL2
132.review数据结构串讲-01
133.review数据结构串讲-02
134.AffectiveComputing&情绪识别实战
135.交叉验证(1)
136.交叉验证(2)
137.正则的作用
138.MLEVSMAP介绍
139.正则的使用
140.交叉验证
141.参数搜索策略
142.高级.正则的灵活应用
143.总结
144.MLE与MAP
145.LassoRegression介绍
146.特征选择技术
147.LASSO介绍
148.CoordinateDescent
149.CoordinateDescentforLASSO
150.其他LASSOSolver
151.变分推断指数族家族lda
152.Optimization
153.OptimizationisEverywhere
154.Optimization-Categories
155.ConvexOptimization-GlobalvsLocalOptimal
156.判断一个函数是凸函数
157.解决一个具体问题1
158.解决一个具体问题2
159.回顾凸函数
160.介绍SetCoverProblem
161.Approach1-ExhaustiveSearch
162.Approach2-贪心算法
163.Approach3-Optimization
164.总结
165.回顾-逻辑回归的梯度下降法
166.梯度下降法的复杂度
167.梯度下降法的收敛分析
168.凸函数性质以及L-Lipschitz条件
169.收敛性推导
170.LinearClassifier
171.Margin的计算
172.SVM的目标函数.Hardconstraint
173.SVM的目标函数.Softconstraint
174.HingeLoss
175.Primal-Dual介绍
176.attentiontransformerbert-01
177.attentiontransformerbert-02
178.Capstone项目介绍
179.LinearSVM的缺点
180.数据映射到高维
181.拉格朗日-等号条件处理
182.拉格朗日-不等号条件处理
183.KKT条件
184.SVM的KKT条件
185.Primal-Dual介绍
186.SVM的Dual推导
187.KernelTrick
188.信息抽取介绍直播
189.命名实体识别介绍
190.简历分析场景
191.搭建NER分类器
192.方法介绍
193.基于规则的方法
194.投票决策方法
195.特征工程与特征表示01
196.特征工程与特征表示02
197.问答
198.信息抽取介绍
199.OntologicalRelation
200.关系抽取方法介绍
201.基于规则的方法
202.基于监督学习的方法
203.cnnrnntransformer对比-01
204.cnnrnntransformer对比-02
205.关系抽取
206.bootstrap算法的缺点
207.SnowBall算法
208.生成模板
209.生成tuple与模板评估
210.评估记录+过滤
211.SnowBall总结
212.EntityDisambiguation(实体消歧)介绍
213.实体消歧算法
214.EntityResolution(实体统一)
215.实体统一算法
216.Co-referenceResolution(指代消解)介绍
217.什么是句法分析
218.句法分析的应用
219.语法
220.PCFG
221.评估语法树
222.寻找最好的树