自然语言处理面试问题集
基本概念
- 什么是语言模型?
- 语言模型 ( Language Model ) :[^1] P228
- 如何描述两个词之间的距离?
数据准备
特征抽取
文本表示模型有哪些?
词袋模型 ( Bag-of-words )
- 词袋模型的基本原理?
- 文章由数个代表性的词来表示。
- 一元、二元、三元词袋模型的异同点?
TF-IDF ( 词频-逆文档频率 )
词频:$TF ( i,d )$表示单词 i 在文档 d 中出现的频率
逆文档频率:$IDF_i=\log ( N/n_i+1 )$,N 表示集合中文档总数,$n_i$表示出现单词 i 的文档数目。
主题模型 ( Topic Model )
词嵌入模型 ( Word Embedding )
- Word2Vec:浅层的神经网络模型
- Skip-Gram:根据当前词来预测上下文中各词的生成概率
- CBOW:根据上下文出现的词语来预测当前词的生成概率
- ?
序列到序列模型
参考文献
[^1]: Francois Chollet, Python 深度学习