作业帮 > 综合 > 作业

数据挖掘中如何比较两组高维数据之间的相似度

来源:学生作业帮 编辑:作业帮 分类:综合作业 时间:2024/05/29 07:07:03
数据挖掘中如何比较两组高维数据之间的相似度
两组数据,分别都有十几个属性;两个数据组有属性重叠,如何用数据挖掘方法计算两组数据的相似度
看起来这个问题比较复杂,不是简单地分类、聚类就可以求解.
这个问题是否可以理解为比较两组数据的相似度?主要是比较对于决策变量D(“心脏病”)=Y/N的相似度?就是说两组不同的指标分别对于D的差异?
如果你能在两组数据中分别包含D(“心脏病”)的取值Yes、No,直接比较对于Yes的准确率,不就是两组数据的相似度了吗?
如果你是要做论文,可以将问题搞得复杂些,使其更加学术化;如果只是实际应用,不可以过分拘泥于漂亮的数学模型和复杂的求解过程,只要能够解决实际问题就可以了,对吧?
再问: 谢谢,我就是论文上的一个问题,数据最后的分类(y/n)也是有之前的其他属性而定,就是不好找到两组数据的重叠之处而惊醒计算
再答: 两组数据中,都有决策属性的Y/N取值吗?
再问: 对呀,就是数据挖掘的数据,很多属性决定一个结果(y/n),有很多组案例,之后就通过训练出一个模式来,是这样的。现在就是要在两组如此的数据组中找相似
再答: 相同有两种:第一是对决策属性D取值相同;第二是各个条件属性C的取值相同。答案无非有三种: 第一:相同,如果D的取值相同,两组数据条件属性C交集(共同拥有的条件属性)取值也相同,两组数据中的记录相等; 第二:不同,如果两组数据条件属性C交集(共同拥有的条件属性)取值相同,但决策属性D的取值却不同,这就是C交集外对决策属性D的影响造成的; 如果仅比较两组数据的相似性,仅计算第二种情况下的不同记录站百分比就是相似性; 如果要找出两组数据中的相似记录,可就麻烦了,要看你设定的阀值了,然后算出相似度两组数据中各个记录之间的相似度,找出满足阀值的记录为相似记录。设一组数据有m条记录,另一组数据有n条记录,那可就是m x n条记录。 还可以用聚类: 步骤1:取两组数据条件属性C交集(共同拥有的条件属性)、加决策属性D为聚类属性A,找出两组数据中包含C交集的记录为数据集S; 步骤2:用聚类算法看S重那些记录被划分在一组,如果不同两组原始数据的记录被划分在相同组。这些记录就是相似记录;