二分类变量和连续变量之间的相关性
最佳答案
-
Telcontar120
主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年
独角兽
我相信它正在对任何名义属性进行顺序整数编码。当然,对于多标称数据来说,这在相关性可解释性方面是非常值得怀疑的,但对于二标称数据来说,这是有意义的。1
| 0评论 | 0的讨论 | 0成员 | 0在线 |
Telcontar120
主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年
独角兽
答案
嘿,
RapidMiner在内部为所有标称类型使用到整数的映射。这个映射用于关联。这在统计上不太好。所以如果你做了,我们就给你出个问题。
~马丁
德国多特蒙德
谢谢你的回答
嗨,我是RapidMiner的新用户
实际上我有31个属性和10K个实例。我想用相关矩阵来表示属性之间的关系。问题是我有很多类型的数据,包括标称数据,多标称数据和数值数据,我可以知道很多类型的数据的相关矩阵的过程是什么吗?
正如之前在这篇文章中所解释的,典型的“相关分析”只适用于数值变量。你期望名义数据的相关系数告诉你什么?
如果希望使用具有相关性的标称数据,最好先将其重新编码为一系列二项式/虚拟变量。
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询