使用命令行(推荐)
虽然使用图形界面查看结果和设置参数很方便,但是
最直接最灵活的建模及应用的办法仍是使用命令行
打开“Simple CLI”模块,像上面那样使用“J48”算法的命令格式为:
java weka.classifiers.trees.J48 -C 0.25 -M 2 -t directory-path\bank.arff -d directory-path \bank.model
其中参数“ -C 0.25”和“-M 2”是和图形界面中所设的一样的。“-t ”后面跟着的是训练数据集的完整路径(包括目录和文件名),“-d ”后面跟着的是保存模型的完整路径。注意!这里我们可以把模型保存下来。
输入上述命令后,所得到树模型和误差分析会在“Simple CLI”上方显示,可以复制下来保存在文本文件里。误差是把模型应用到训练集上给出的。
把这个模型应用到“bank-new.arff”所用命令的格式为:
java weka.classifiers.trees.J48 -p 9 -l directory-path\bank.model -T directory-path \bank-new.arff
其中“-p 9”说的是模型中的待预测属性的真实值存在第9个(也就是“pep”)属性中,这里它们全部未知因此全部用缺失值代替。“-l”后面是模型的完整路径。“-T”后面是待预测数据集的完整路径。
输入上述命令后,在“Simple CLI”上方会有这样一些结果:
0 YES 0.75 ?
1 NO 0.7272727272727273 ?
2 YES 0.95 ?
3 YES 0.8813559322033898 ?
4 NO 0.8421052631578947 ?
...

这里的第一列就是我们提到过的“Instance_number”,第二列就是刚才的“predictedpep”,第四列则是“bank-new.arff”中原来的“pep”值(这里都是“?”缺失值)。第三列对预测结果的置信度(confidence )。比如说对于实例0,我们有75%的把握说它的“pep”的值会是“YES”,对实例4我们有84.2%的把握说它的“pep”值会是“NO”。
我们看到,使用命令行至少有两个好处。一个是可以把模型保存下来,这样有新的待预测数据出现时,不用每次重新建模,直接应用保存好的模型即可。另一个是对预测结果给出了置信度,我们可以有选择的采纳预测结果,例如,只考虑那些置信度在85%以上的结果。
1 选择属性 属性选择是通过搜索数据中所有可能的属性组合,以找到预测效果最好的属性子集。手工选择属性既繁琐又容易出错,为了帮助用户事项选择属性自动化。 Weka 中提供了选择属性面板。要自动选择属性需要设立两个对象:属性评估器和搜索方法,如下图所示: 属性评估器确定 使用 什么方法给每个属性分配一个评估值... 使用 命令行 (推荐)  虽然 使用 图形界面查看结果和设置参数很方便, 但是最直接最灵活的建模及应用的办法仍是 使用 命令行 。 打开 “Simple CLI”模块,像上面那样 使用 J48 ”算法的命令格式为: java weka .classifiers.trees. J48 -C 0.25 -M 2 -t directory-path\bank.arff -d directory-path \bank.mod 1、workBench 从 Weka 3.8.0开始,提供了一个名为Workbench的新用户界面。Workbench提供了一个多合一的应用程序,该应用程序包含了前面各节中描述的所有主要的 WEKA GUI,如下图所示: 这就没啥好说的了,之前几章各个界面功能都详细说明了,下面就不展开了。 2、simpleCLI 如上图所示,就是一个简单的 命令行 窗口,之前提到过,下面也不展开叙述了。 图2.6-1 可视化面板 2.6.1 散点图矩阵 选择了visualize面板后,会为所有的属性给出一个散点图矩阵,它们会根据所选的class属性来着色。在这里可以改变每个二维散图的大小,改变各点的大小,以及随机的抖动(Jitter)数据( 1、注意待预测数据集和训练用数据集各个属性的设置必须是一致的。即使你没有待预测数据集的Class属性的值,你也要添加这个属性,可以将该属性在各实例上的值均设成缺失值。比如你可以将欲预测的类别设为?即缺失值。 2、在“Test Opion”中选择“Supplied test set”,并且“Set”成你要应用模型的数据集。 3、右键点击“Res java weka .classifiers.trees. J48 -t data/weather.arffjava 类的完整名称 -t表示下一个参数是训练数据集的名称java weka .classifiers.trees. J48 -h查看java 命令行 中各个参数的具体含义-h or -helpOutput help information.-synopsis or -infoOutput synop...