将训练好的模型应用于新的未标记数据集时出错
最佳答案
-
lionelderkrikor
主持人,RapidMiner认证分析师,会员职位:1194年
独角兽
@Stann,
是的,这是可能的:
如前所述,在测试集“分支”中应用相同的预处理步骤。
并连接单词输出(磨破)从数据中处理文档操作员将您的训练“分支”字输入(磨破)。从数据中处理文档你的测试集分支。
问候,
莱昂内尔1
| 0评论 | 0的讨论 | 0成员 | 0在线 |
lionelderkrikor
主持人,RapidMiner认证分析师,会员职位:1194年
独角兽
答案
训练集和未标记的测试集的属性必须完全相同。
因此,您必须对未标记的测试集严格应用相同的预处理步骤(因此,您必须应用
标称文本和从数据中生成文档操作员到您的测试集)。目前,您正在将原始测试集应用于模型…
希望这能帮到你,
问候,
莱昂内尔
拥有完全相同的属性是不可能的,因为每个属性都是出现在初始文本文档中的标记(单词)。由于新的(未标记的)数据集包含不同的文本文档作为训练集,因此属性总是不同的,因为新数据集中的文本文档由“新”标记组成。
话虽如此,是否还有一种方法可以将模型应用于新的(未标记的)集合?