在BI(商业智能)项目中,ETL是一个重要的环节,是进行数据分析的基础。它将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。但传统的ETL工具处理过程是极为复杂的,所以今天小麦给大家安利业务人员都可以参与其中的自助ETL功能,我们先来看看它究竟是一个什么样东西,能带给我们怎样的便捷。
01 概念介绍
出轻量级ETL功能,无需单独部署,能够与Smartb无缝连接,允许将数据准备的结果,以数据表方式直接提供给BI使用。更值得注意的是,Smartbi ETL功能采用分布式计算架构,同时单节点情况下支持多线程,这极大地提高了数据处理的性能,亿级的数据量处理时间可以达到分钟级。
自助ETL具备以下四个特点: Ø 一体化:集成在Smartbi中,无需独立部署就可以使用。 Ø 可视化:完全界面化直接操作,业务人员都能参与。 Ø 高性能:分布式计性能强悍,采用业界先进架构,能够处理海量数量 Ø 强功能:大量组件兼顾一般数据处理,与高级数据处理。
02 界面介绍 界面主要分为如下几个区: 元素选择区:是包含了数据源、预处理方式以及目标源的选择,通过拖拽进行选择相应的元素到数据处理区。 数据处理区:该区主要用于对拖拽过来的数据源进行逻辑处理,将处理完的最终结果输出至对应的目标源。 属性配置区:该区用于对选择的元素进行属性配置,如配置输出结果将导至哪个目标源。
03创建流程 入口:数据准备 >> 自助ETL >> 新建自助ETL 第一步:选择数据源:从左侧元素选择区拖拽对应的数据源到数据处理区,并对其属性进行配置,如拖拽关系数据源,需要配置数据源名称、SCHEMA、表名等; 第二步:数据预处理方式选择:从左侧元素选择区拖拽数据预处理的方式到数据处理区,通过连线与数据源连接起来,数据预处理方式可拖拽多个,可自由设置执行的先后顺序,预处理的方式包含合并列、去除重复值、空值处理等; 第三步:选择目标源:从左侧元素选择区拖拽对应的目标源到数据处理区,并对其属性进行配置,确定最终输出的目标。
|