数据挖掘中如何比较两组高维数据之间的相似度

来源：学生作业帮编辑：作业帮分类：综合作业时间：2024/05/29 07:07:03

数据挖掘中如何比较两组高维数据之间的相似度
两组数据,分别都有十几个属性；两个数据组有属性重叠,如何用数据挖掘方法计算两组数据的相似度

看起来这个问题比较复杂,不是简单地分类、聚类就可以求解.
这个问题是否可以理解为比较两组数据的相似度?主要是比较对于决策变量D（“心脏病”）=Y/N的相似度?就是说两组不同的指标分别对于D的差异?
如果你能在两组数据中分别包含D（“心脏病”）的取值Yes、No,直接比较对于Yes的准确率,不就是两组数据的相似度了吗?
如果你是要做论文,可以将问题搞得复杂些,使其更加学术化；如果只是实际应用,不可以过分拘泥于漂亮的数学模型和复杂的求解过程,只要能够解决实际问题就可以了,对吧?
再问：谢谢，我就是论文上的一个问题，数据最后的分类（y/n）也是有之前的其他属性而定，就是不好找到两组数据的重叠之处而惊醒计算
再答：两组数据中，都有决策属性的Y/N取值吗？
再问：对呀，就是数据挖掘的数据，很多属性决定一个结果（y/n），有很多组案例，之后就通过训练出一个模式来，是这样的。现在就是要在两组如此的数据组中找相似
再答：相同有两种：第一是对决策属性D取值相同；第二是各个条件属性C的取值相同。答案无非有三种：第一：相同，如果D的取值相同，两组数据条件属性C交集（共同拥有的条件属性）取值也相同，两组数据中的记录相等；第二：不同，如果两组数据条件属性C交集（共同拥有的条件属性）取值相同，但决策属性D的取值却不同，这就是C交集外对决策属性D的影响造成的；如果仅比较两组数据的相似性，仅计算第二种情况下的不同记录站百分比就是相似性；如果要找出两组数据中的相似记录，可就麻烦了，要看你设定的阀值了，然后算出相似度两组数据中各个记录之间的相似度，找出满足阀值的记录为相似记录。设一组数据有m条记录，另一组数据有n条记录，那可就是m x n条记录。还可以用聚类：步骤1：取两组数据条件属性C交集（共同拥有的条件属性）、加决策属性D为聚类属性A，找出两组数据中包含C交集的记录为数据集S；步骤2：用聚类算法看S重那些记录被划分在一组，如果不同两组原始数据的记录被划分在相同组。这些记录就是相似记录；

找出下列数据中支持度和置信度.如下（数据挖掘题目数据分析挖掘的作用和意义? matlab中如何比较两列长度不同的数据? "电子商务环境下的互联网数据挖掘"这句话如何英文翻译呢? 贝叶斯分类算法在数据挖掘中有什么应用什么是svm分类数据挖掘 svd数据点计算完成后如何计算相似度如何从统计意义上判断两个数据集的相似度? 数据挖掘中的置信度的分子和分母分别表示什么意思? EXCEL2007中,如何在同一列数据中,两个一组的进行比较? execl中如何比较两列数据,比如如何计算一组数据相对于一个数据的离散度