麦粉社区
>
帖子详情

小麦教你用自助ETL进行数据处理

系统运维 发表于 2021-10-9 16:03
发表于 2021-10-9 16:03:55
  在BI(商业智能)项目中,ETL是一个重要的环节,是进行数据分析的基础将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据但传统的ETL工具处理过程是极为复杂的,所以今天小麦给大家安利业务人员都可以参与其中的自助ETL功能,我们先来看看它究竟是一个什么样东西,能带给我们怎样的便捷。

01 概念介绍  
  出轻量级ETL功能,无需单独部署,能够与Smartb无缝连接,允许将数据准备的结果,以数据表方式直接提供给BI使用。更值得注意的是,Smartbi ETL功能采用分布式计算架构,同时单节点情况下支持多线程,这极大地提高了数据处理的性能,亿级的数据量处理时间可以达到分钟级。

  自助ETL具备以下四个特点:
  Ø 一体化:集成在Smartbi中,无需独立部署就可以使用。
  Ø 可视化:完全界面化直接操作,业务人员都能参与。
  Ø 高性能:分布式计性能强悍,采用业界先进架构,能够处理海量数量
  Ø 强功能:大量组件兼顾一般数据处理,与高级数据处理。

02 界面介绍
  界面主要分为如下几个区:
  元素选择区:包含了数据源、预处理方式以及目标源的选择,通过拖拽进行选择相应的元素到数据处理区。
  数据处理区:该区主要用于对拖拽过来的数据源进行逻辑处理,将处理完的最终结果输出至对应的目标源。
  属性配置区:该区用于对选择的元素进行属性配置,如配置输出结果将导至哪个目标源。

2.png

03创建流程
  入口:数据准备 >> 自助ETL >>  新建自助ETL
  第一步:选择数据源从左侧元素选择区拖拽对应的数据源到数据处理区,并对其属性进行配置,如拖拽关系数据源,需要配置数据源名称、SCHEMA、表名等;
  第二步:数据预处理方式选择从左侧元素选择区拖拽数据预处理的方式到数据处理区,通过连线与数据源连接起来,数据预处理方式可拖拽多个,可自由设置执行的先后顺序,预处理的方式包含合并列、去除重复值、空值处理等;
  第三步:选择目标源:从左侧元素选择区拖拽对应的目标源到数据处理区,并对其属性进行配置,确定最终输出的目标。


1.png


高级模式
B Color Image Link Quote Code Smilies
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表