我刚开始使用WEKA,我会问你是否有人能帮助我理解我是否正确地使用了WEKA。
1)我有一套数据集,其中包括11377份记录,分类如下:
(由于某些原因,我只能使用J48算法进行分类)当我选择J48算法进行分类时,由于类分布不平衡,模型对数据进行了不正确的"NO“分类。我怎样才能正确地解决这个问题?
( 2)平衡班级后,我必须将数据集划分为测试集和训练集,但在WEKA上,最佳/正确的筛选器是什么?
3)当数据通过预处理阶段后,一旦选择了分类形式的J48算法,我应该测试什么?训练还是测试?我要重复几次测试?
提前感谢!
发布于 2018-01-04 05:42:21
这里有一个方法。在“预处理”选项卡中,使用ClassBalancer过滤器(在受监督的实例下)。这将适用权重,以便您的是和否将具有同等的权重。
在“分类”选项卡中,选择“培训”和“测试”之间的百分比分隔。默认情况是66%的培训,34%的测试。这是随机选择的。
(如果您想要查看结果是否取决于确切的随机拆分,您可以使用不同的随机启动多次运行它--在百分比拆分下,您将看到一个“更多选项”按钮。单击那里,您将看到随机种子设置为默认值1。将其更改为任何其他正整数。)
您应该能够从几种算法中进行选择,而不仅仅是J48算法。不知道为什么会这样。
请注意,一旦得到结果,这些结果将反映加权实例,您可能需要返回一个转换(即,取这个混淆矩阵并将其转换回是和否的实际数字)。
https://stackoverflow.com/questions/48075224