本帖最后由 摆渡人 于 2019-11-12 10:40 编辑
当我们面对海量数据时,传统的BI技术只能够用以掌握基本情况,而数据之间的关联关系则需要进一步的挖掘分析,从而获得更多的信息和价值。 基于种种实际需求,Smartbi Mining产品应运而生,它是一个注重于实际生产应用的数据分析预测模块,它旨在为个人、团队和企业所做的决策提供预测。它不仅可为用户提供直观的流式建模、拖拽式操作和流程化、可视化的建模界面,还提供了大量的数据预处理操作。此外,它内置了多种实用的、经典的机器学习算法,这些算法配置简单降低了机器学习的使用门槛,大大节省了企业成本,可以将数据挖掘结果发送到Smartbi统一平台,与商业智能平台实现了完美整合。 产品特色它涵盖了主流数据挖掘产品的基本功能,且拥有自己的特色: 经典挖掘案例展示,快速了解BI数据挖掘平台内置了12个挖掘案例,涉及金融、地产、医疗等行业,向用户展示如何使用Smartbi Mining进行数据挖掘。 一站式体验,轻松打造自己的数据挖掘模型 数据的输入支持文本数据源,关系数据源,示例数据源以及Smartbi数据集,而数据输出的目标库支持关系型数据库,HDFS,也可以直接导入Smartbi数据库中,利用平台的分析工具,对挖掘结果做进一步展现。 数据预处理部分包括异常值处理、关键数据提取、数据整理归类等负责数据清洗的工作节点, 同时也包括PAC主成分、特征选择、特征转换等常用的特征工程方法。 平台提供分类、回归、聚类、关联规则等常见算法工作节点,只需要调整参数,便可以直接使用算法进行数据分析。如果现有算法节点无法满足模型搭建的需求,Smartbi Mining 提供灵活的扩展接口,支持自定义Python或JAVA代码,帮助用户扩展算法库及资源树节点。 平台的可视化效果主要包含的内容有:工作流可视化、数据可视化、模型可视化、分析结果可视化,使得整个数据挖掘过程逻辑清晰,便于交流。 平台支持将优化好的模型直接保存下来,之后实验直接使用该模型训练好的参数,不需要再一次进行调参工作。并且,整个工作流DAG资源也支持导出导入,方便实验的迁移和交流。 可以将训练好的模型以服务的形式发布,外部人员按照正确的方式连接后,便可以使用该模型进行相关的数据挖掘工作。 可视化性能监控,严格权限控制,便于管理 为了方便整个实验流程各方面性能的监控,Smartbi Mining 提供作业监控、服务监控、实验监控、计算节点以及操作日志的可视化窗口。 基于安全性的考虑,Smartbi Mining 采用Smartbi一贯的权限机制,对用户的操作浏览权限进行控制。 应用实例我们以预测银行客户流失来介绍本产品的数据挖掘: 背景介绍: 银行业务在实际发展过程中面临最大问题就是客户的流失,业界和学术绝提出客户关系管理的概念,即对客户留存期间产生的数据进行分析,找出流失客户具备的特征,对具有这些特征的客户进行及时的关怀工作。那么,这个分析应该如何实现呢? 解决方案: Smartbi Mining提供从原始数据源连接、数据预处理、构建数据挖掘模型,可视化展现整个流程数据挖掘流程。如下图所示: 详细流程: - 【银行客户数据】包括客户留存期间,银行积累了大量的历史业务数据以及客户信息数据,这些数据通常涉及到用户交易记录、银行接触频率、产品数量、活跃度、薪资收入水平、客户在行时间、客户单产品收益率、客户代缴费等各个方面的数据,通过Smartbi Mining的关系数据源节点,可以将这些数据直接读出来;
- 再借助数据预处理节点,例如【特征选择】、【特征离散】、【特征拟合】、【特征变化】等完成繁琐的数据清洗工作;
- 使用现成的算法模型,只要进行适当的参数调试,就可以实现模型的构建。如果现有节点不能满足需求,可以使用【PYTHON脚本】等节点,开发自定义算法节点;
- 分析结果可以直接在Smartbi Mining进行可视化展现,也可以将模型输出结果保存,使用Smartbi BI分析展现功能对结果进行深入解读;
- 模型不断调试过程中,需要进行不同参数之间对比工作,Smartbi Mining支持将训练好的模型保存,其他实验直接使用。同时也可以导出工作流,便于团队间的交流和分享;
Smartbi Mining将数据分析中繁重、琐碎的清洗工作移交给工具,可视化展现部分也引进丰富多样的展现方式,数据分析人员只需要聚焦于数据挖掘工作本身。
|