以下为blog主人的回复:
文本分类常用的算法大多是用向量空间模型来表示文档,并计算出文档之间的相似度(距离)。每篇文档是用特征向量来表示,即关键词组成的向量,每个关键词作为一个维度,该维度相应的数值则是常用TFIDF来计算得出。
TF是Term Frequency(词频),IDF是Inverted Document Frequency(文档频率的倒数),每个关键词对应的权重就是TFxIDF。
你问的情况是当分类模型已经训练完成之后,如何判别一篇新文档应该归属到哪个分类的问题。对于新文档来说,其中每个关键词的词频(TF)可以统计得出,而IDF是如何计算的呢?因为只有一篇文档,是不是IDF就是1呢?
当然不是,否则IDF就完全失去了意义。其实在分类训练时会生成一张关键词表,每个关键词及其DF都被记录到这张关键词表中了,因此在对新文档分类时,直接读取这张关键词表,就可以查到对应的IDF了。 |