1、平台主界面 Smartbi Mining数据挖掘平台的界面主要由实验下的机器学习管理项目列表,创建机器学习项目,模型管理组成。在机器学习管理项目列表中,用户可以对任意一个项目进行编辑和删除。在模型管理中是保存的已经训练好的各类模型,可以直接使用,无需再训练,也可以一键发布到商业智能平台。此外,用户也可重新创建新的机器学习项目,新建后的机器学习项目会出现再项目列表中。 该平台是以项目为管理单位,每个项目下有一个或者多个工作流,一个工作流对应一个建模流程。而每个工作流的构建都包含了数据源、数据预处理操作、算法等组件,这些组件可以从左侧组件区域拖拽到工作流画布区域,构成工作流。
2、平台操作功能展示侧边栏组件区域:展示了数据挖掘算法组件以及算法等核心功能。 画布区域: 用户可以用鼠标将相应的组件拖拽到画布上,形成一个有向的建模流程,完成从数据输入到数据输出处理等一系列的数据挖掘工作。 参数配置区域:该区域可以设置组件内参数配置的信息。
3、平台界面主要功能搜索功能:当有很多数据、表、文件时,可以通过搜索功能快速查找所需的资料。 节点:通过选择节点,可以在平台上进行节点的参数配置、重命名、移动、删除、导出等操作,单机进入可以编辑之前没有完成的流程建模。 模型:已训练好的模型,可以导出,下次可直接用,无需再训练 执行历史:可以查看每个项目最近10条执行记录,方便进行模型效果对比。 流程导入导出:项目流程可以直接导出,待使用时直接导入画布中使用 表数据:类似于文件管理器,可以查看所有的数据表。
4、数据挖掘组件平台提供了完整的数据挖掘组件,数据挖掘包含数据预处理、数据清洗、经典算法、挖掘报告、统计分析、特征工程、统计分析、这一整套数据挖掘算法组件,共 50余种。将数据导入平台后,可通过拖拽的方式,借助组件灵活地建立模型流程来解决自身的业务场景。 4.1 数据源ü 关系型数据库(Oracle、Presto、Vertica、ClickHouse) ü CSV文件 ü TXT文件 ü HDFS数据源 ü HBASE数据源
4.2 数据清洗与处理能满足多类型的数据处理工作,包括相关性分析,JOIN,过滤,数据离散,数据抽样,特征转换,行选择,数据降维等操作。
4.3 机器学习算法支持线性回归、逻辑回归、混合高斯模型、kmeans模型、决策树、随机森林、SVM模型等算法模型。
4.4 服务支持模型的评估与发布。
4.5 可视化支持生成各类型可视化分析报告,支持数据导出到可视化平台。
5、可视化建模操作界面通过拖拽组件,进行可视化建模。从左边的组件框中拖拉组件到右边的画布中可搭建模型流程。
|