作业帮 > 数学 > 作业

内积公式【相识度计算】

来源:学生作业帮 编辑:作业帮 分类:数学作业 时间:2024/05/25 12:56:10
内积公式【相识度计算】
文档 d1:a b c a f b a f h
文档 d2:a c
查询 q:a c a
索引项集合 = {a b c d e f g h}
查询和文档根据索引项集合建立的向量空间模型可以表示如下二值向量:
a b c d e f g h a b c d e f g h a b c d e f g h
d1=(1,1,1,0,0,1,0,1) d2=(1,0,1,0,0,0,0,0) q=(1,0,1,0,0,0,0,0)
n
求sim(d1,q)= ∑(W k,q*W k,j)
k=1
wk,q是查询q的第K个索引项权重,Wk,j是文档j的第k个索引项权重.
知道的人呢帮我解答下吧.
求求你们了.最好能写下步骤.
这种相似度貌似已经是极大简化的了.
直接拿文档向量和查询向量作内积即可.
sim(d1,q) = (1,1,1,0,0,1,0,1)(1,0,1,0,0,0,0,0) = 2.
sim(d2,q) = (1,0,1,0,0,0,0,0)(1,0,1,0,0,0,0,0) = 2.
实际上,文档d2明显更接近于查询q,但根据该相似度定义,d1和d2无法区分好坏.这说明这种简单的相似度度量基本没用.
正常的做法是计算TF-IDF的余弦相似度.如果你还不了解这个,可以上网搜搜.如果你已经掌握了,那就当我多嘴好了.:)