使用SPSS Modeler处理MR数据的操作技法
【内容摘要】本文主要分享一款高效的数据挖掘工具IBM SPSS Modeler,主要用于网络问题点梳理中MR数据预处理工作,例如,制作MR扇区图层、栅格化图层等。
时值中秋佳节,夜静如水,终于完成这篇长文,希望助你入门Modeler实操。
在5G覆盖规划中,站址需求主要来源于两条渠道,一是由市场前端对接用户、捕捉商机和输出覆盖需求(即人工填报法),二是由网络后端统筹规划、建立评估模型、梳理网络问题点和提出解决方案(即模型评估法)。
一、工作思路
开始前,想清楚MR是什么、MR分析有什么用、在一件事情中扮演什么角色、解决什么问题,其次,才是怎么做,搞清楚操作步骤1-2-3,开始干起来。
第一点如何看待“网络问题点梳理”
一句话,“会当凌绝顶,一览众山小”,站在高位,找出MR所在位置。
第1问 意义何在: 查找网络覆盖类问题,提出解决方案和应对举措
(1)什么问题:发现XX区域弱覆盖或覆盖盲区
(2)怎么解决:例如,新增基站、优化整改等
第2问 如何操作: 分五步,获取MR数据、建立评估模型、地理化呈现、圈选问题点、输出解决方案,本节主要解决的是MR数据预处理问题
第3问结果怎样: 预期结果为,一张规整的MR数据表、一份直观的MR地理图层
提醒:你所获得的原始表可能是数据错漏、字段缺失、格式无章的,这正是MR数据预处理的必要性和意义所在。
第二点如何看待“MR数据预处理”
其目的是,获取一份规整的MR数据表,用于MR问题点梳理。
(1)获取数据: 做好三件事,工作任务分解、明确统计口径、确定格式要求
提醒:建立数据表之间联系的“牛鼻子”是关键字,例如,LAC+CI、ECI等
(2)数据预处理: 基本步骤为数据集成(即多张表合成一张表)、数据清理(例如,错误的纠正、缺失的补全、无效的剔除)、数据规约(例如,降维处理)、数据变换(例如,建立关联、汇总)等。
注意:数据预处理是开展数据挖掘的前提,每一个步骤对应到具体的实例理解。
(3)MR数据分析: 以问题为导向,思考问题会更清晰、更轻松。将上面做的事串联起来,其最终落脚点为从MR分析结果中找寻网络问题点和提出解决方案。
第3点如何使用Modeler解决问题
遇到此类问题,可借助思维导图,以MR数据为对象,将问题分解为Modeler可处理的若干个操作步骤。
(1)基本逻辑: 提问式展开思考,回答“要什么”、“是什么”、“为什么”和“怎么做”
建议,做事谋定而后动,当你知道你要什么了,做事情的驱动力会很强的。
(2)工作方法: 与机器对话,关注“输入”与“输出”,将问题拆解为软件可处理的数据流程。借助Modeler工具,创建工作节点、串联数据流程和解决商业问题。
第四点 如何学习Modeler工具
理解3个概念,做出4个步骤,以点拓面、触类旁通。抓住主要概念和逻辑,将操作要领实例化、将概念翻译成图,找到快速上手的“法门”。
第1个概念:流
简单地理解为:流程,做一件事的若干个步骤或环节。
一个流程有起点和终点,起于因,终于果,对应计算机的输入和输出。Modeler工具由数据源输入,经过若干个流程环节(节点),输出成预期的成果。
你会发现,Modeler工具主要由菜单栏、工具栏、工作窗口、节点选项版、流管理器、工程管理器等模块组成的,“节点”是其关键模块,得节点者得Modeler。
第2个概念:节点
通俗理解,节点便是做一件事的“节骨眼”,是其关键的环节。
使用Modeler工具处理数据,可视为由源节点、过程节点和输出节点组成。
源节点主要获取CSV格式、Excel格式、文本格式的大数据,输出节点则是输出一份规整的数据表,例如,Excel格式、CSV格式的。
过程节点主要由记录节点、字段节点、图形节点和建模节点组成,可从一张数据表出发,记录节点对应行(记录、样本),字段节点对应列(字段),数据预处理要做的便是对行和列数据处理,最后输出规整的数据表。
第3个概念:记录和字段
对陌生的软件操作,最好是尽快建立起与你熟悉软件的关联思考。
记录操作: 与熟悉的EXCEL操作关联,条件反射去使用,例如,合并(VLOOKUP函数)、追加(尾部添加数据)、区分(去重)、汇总(数据透视)等
字段操作: 对字段及其属性值操作,例如,仅改字段名(过滤器)、根据旧字段派生新字段名称和值(导出)、格式转换(类型)、修改字段属性值(填充)等
>>基本操作技法
Modeler工具有很多节点,要学会抓住常用的、主要的节点,快速上手用起来。快速上手的“法门”为操作要领实例化、将概念翻译成图,以合并节点的使用为例:
(1)概念理解: 与EXCEL软件的Vlookup函数划等号。其主要作用是使用“关键字”建立和获取不同数据表中的指定字段数据。
(2)操作要领实例化: 使用唯一标识(LAC_CI),从网络工参表中关联和添加经纬度、方位角等数据。做一遍,加深对合并的理解,V过来。
(3)将概念翻译成图: 打开来看,使用关键字合并会涉及“内部连接”、“完全外部连接”、“部分外部连接”、“反连接”等新的逻辑关系。
其实,它与数学上集合的交集、并集、差集概念类似,做一套逻辑关系图,以实例化数据验证之,下次直接好不思索套就行了。
(4)快速寻求帮助: 虽说“三人行必有我师”,实际上,在遇到问题时,除了向身边前辈求教之外,软件帮助是快速、系统地解决问题的最好指引。在Modeler工具使用中,当遇到问题时,可借助对话框上的“问号?”快速打开帮助文档,查阅解决方案和操作实例。
三、操作技法
目标很简单,使用Modeler构建流,输出一份规整的MR数据表和一套MR弱覆盖扇区图层。这份表格应包含三部分信息,MR弱覆盖评估结果(RSRP≥-112dBm比例大于90%)、MR弱覆盖对应扇区(对应小区级,使用到方位角)、MR弱覆盖对应站点信息(对应站点级,使用到经纬度)。
主要操作步骤分4步,汇总表格、建立关系、数据行/列操作、输出结果。
第1步:添加数据源,追加合并为一张表
(1)源节点: 添加源节点,从CSV文件中读取数据、建立节点间的连接、将若干张表追加合并为一张表
(2)变量文件: 三个常见问题,使用预览看文件内部结构;遇到乱码设置编码格式;根据行列界定符读取MR数据文件。
提醒:养成良好的工作习惯,做一件事,事前做计划,事中做跟踪,事后做总结。数据预览便是对设想的操作的检验和复核,确保每一个操作步骤出来是你想要的结果。
(3)构建流: 右键连接源节点和目标节点,同时设置各节点的参数和连接关系。
>>在“源”中找到“变量文件”节点,拖动到软件界面中;
>>在“记录选型”中找到“追加”节点,拖动到软件界面中;
>>在“变量文件”上右键,选择“连接(N)”,指向下一个目标节点“追加”节点。
第2步:多表操作,使用唯一标识建立表间关系
索引值(唯一标识/关键字)是建立关系型数据库(表)之间联系的“纽带”。
MR数据为网络指标,若要添加工程参数(方位角),需使用“导出”节点创建唯一标识(连接符为"><",与&功能类似),建立表间联系后,使用“合并”节点将各种数据引用过来(合并节点=VLOOKUP)。
第3步:先记录,后字段,开展数据预处理,做好实例化操作
在MR数据预处理中,记录侧重数据汇总、降维和提取操作,字段则涉及数据类型、字段重命名、派生新字段、查找替换和字段重排等操作。
(1)记录选项:做三件事,数据汇总、降维处理和提取样本
>>数据汇总: 将若干张表整在一起。格式相同用 追加 (多张表粘在一起),格式不同用 合并 (类似Vlookup,例如,将MR数据与网络工参做数据关联,添加方位角)
>>降维处理: 记录太多,应分组归类做降维处理。去重保留唯一值用 区分 (类似删除重复值),分类统计用 汇总 (类似数据透视表,例如,按LAC_CI汇总指标)
>>提取样本: 条件筛选用 选择 (按条件提取记录观察其特征),提取记录用 样本 (按统计截取记录做其他操作)
(2)字段选项:主要操作对象为字段名称和字段属性值,字段名称可重命名/移除字段、基于旧字段派生新字段、字段排序等;字段值可设置类型、修正错漏值、字段匿名化等。
>>设置数据类型: 使用类型节点操作,其主要是允许确定和控制元数据,为数据集中每个字段指定用法类型(例如,连续、标记类型)、建模角色(例如,输入、目标等)和数据实例化(点击读取值,直观观察字段取值范围)等。
例如,在类型节点中设置数据类型,主要是点击“读取值”,输出实例化数据,亦可根据实际设置测量级别、检查类型和字段角色等。
>>更改字段和属性值: 两种常见情况,一是仅更改字段名称而不更改属性值,二是既更改字段名称又更改属性值。
-->过滤器节点: 使用 过滤器 节点可对导入的字段重命名而不更改属性值,常用于数据导入时规范化和重命名字段名称。
-->导出节点: 在Modeler数据预处理中很常用,可使用导出节点基于现有字段派生新字段及其属性值,例如,使用导出节点中“导出为公式”的操作方法,将RSRP指标分区间汇总统计和派生出新字段。
>>填充节点: 在数据预处理的数据清理中,用于替换字段值和更改存储类型,例如,将某些字段属性值中错误的数据或空值替换为指定的数据。
>>字段重排: 对字段类型、重命名、派生新字段或错漏值修正后,为规范化输出,可对字段进行重新排序,例如,唯一标识靠前排,其他字段按重要程度分组排序和输出。
第4步:输出MR弱覆盖评估结果表、图层及解决方案
区分“输出节点”和“导出节点”,将评估结果输出到屏幕或导出为CSV文件。
对应前文,最终输出表格和图层如下图所示,本文输出的是扇区状图层。
此文主要针对小区级MR数据分析,区别于栅格状MR数据,其操作方式更为简单些,你在通信工程应用中可参考上述思路做进一步操作。
版权声明:原创文章,未经<通信民工>许可,不得私自转载。