自然语言处理面试问题集

ZhuYuanxiang 2020-10-12 18:15:39
Categories: Tags:

自然语言处理面试问题集

基本概念

  1. 什么是语言模型?
    • 语言模型 ( Language Model ) :[^1] P228
  2. 如何描述两个词之间的距离?

数据准备

特征抽取

文本表示模型有哪些?

词袋模型 ( Bag-of-words )

  1. 词袋模型的基本原理?
    • 文章由数个代表性的词来表示。
  2. 一元、二元、三元词袋模型的异同点?

TF-IDF ( 词频-逆文档频率 )

词频:$TF ( i,d )$表示单词 i 在文档 d 中出现的频率

逆文档频率:$IDF_i=\log ( N/n_i+1 )$,N 表示集合中文档总数,$n_i$表示出现单词 i 的文档数目。

主题模型 ( Topic Model )

词嵌入模型 ( Word Embedding )

  1. Word2Vec:浅层的神经网络模型
    • Skip-Gram:根据当前词来预测上下文中各词的生成概率
    • CBOW:根据上下文出现的词语来预测当前词的生成概率

序列到序列模型

参考文献

[^1]: Francois Chollet, Python 深度学习