麦粉社区
>
帖子详情

掌握这些功能,数据准备事半功倍!

系统运维 发表于 2021-10-9 17:01
发表于 2021-10-9 17:01:15
  在企业信息化及其BI平台的搭建过程中,数据准备一直是一个非常重要的环节,它是数据分析的基础。我们通过数据准备工作保证数据的准确性、真实性和完整性,提高数据的显示质量,从而保证数据分析高质量高效率的进行。

  数据准备主要包括数据处理、数据抽取、数据集市创建等环节。数据处理指的是在数据分析之前对数据进行清洗(extract)、转换(transform)、加载(load),简称ETL。源数据可能来自不同的业务系统,它们有不同的数据格式,也包含一些冗余的信息。ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后,进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘提供决策支持的数据。

1.png

  Smartbi产品拥有专业的数据准备功能模块家族,通过自助ETL功能、业务主题、自助数据集、透视分析等功能成员,提高数据的质量和性能,缩短数据准备的时间。
下面我们来进行一一介绍:

自助ETL
出生时间:2019年
效忠对象:ETL数据处理需求的技术人员、业务人员
战斗频率:☆☆☆☆
创造背景:有些客户有数据处理的需求,需要相关的加工工具。客户的源数据可能来自不同的业务系统,它们有不同的数据格式,也包含一些冗余的信息,往往需要通过ETL将分散的、异构数据源中的数据进行抽取、清洗、转换、集成等。但是一般的ETL工具比较技术,需要比较专业的人员才能进行。
功能简介:Smartbi通过封装ETL算法,将技术分离,可以实现业务人员进行自助ETL操作。自助ETL以工作流的形式实现为库表提取数据模型的语义,它通过简单的拖放操作进行预处理,支持:过滤与映射、空值处理、JOIN、去除重复值、分列、派生列等多种预处理方法,解决企业数据分散、凌乱、标准不统一等问题,将数据加工成具备语义一致性与完整性的数据模型,也可以增强自助数据集构建数据模型的能力。

2.png

技能绝招:自助ETL,无需单独部署,能够与Smartbi无缝连接,允许将数据准备的结果,以数据表方式直接提供给BI使用。自助ETL采用分布式计算架构,同时单节点情况下支持多线程,这极大地提高了数据处理的性能,亿级的数据量处理时间可以达到分钟级。它主要具备以下四个特点:
l 一体化:集成在Smartbi中,无需独立部署就可以使用。
l 可视化:完全界面化直接操作,流式数据处理,自带丰富处理节点,业务人员都能参与。
l 高性能:分布式计性能强悍,采用业界先进架构,能够处理海量数量,最大规模可以达到PB级,数据量处理的性能是同类型传统工具的10倍。
l 强功能:大量组件兼顾一般数据处理,与高级数据处理。

业务主题
出生时间:2011年之前
效忠对象:一般由技术人员通过拖拽创建,业务人员使用
战斗频率:☆☆☆☆☆
创造背景:语义虚拟层, Semantic Virtual Tier,是Gartner明确定义的概念, 语义模型是差不多的概念,它是指能涵盖整个仓库或者分析范围的的逻辑视图。
如果要做到由业务用户自行组织宽表,语义模型是构建动态大宽表的前提。只有具备了全仓库建模后,业务人员才有可能构建自己分析的模型。
比如在项目的实际应用中,接入数据源后,关系数据源中的基础表,可能属于不同的业务逻辑。比如,数据源下有20张基础表,其中10张是人力资源数据相关的表,另外10张是产品销售相关的表。根据实际业务需要,可以将这些原始数据库基础表,按业务逻辑重新定义组装成业务对象(逻辑表),以供相关人员使用。
上述情况,我们通过设置不同的表关系,使用业务主题对表字段进行自由组合,分级分层的将人力资源相关的10张表重新封装成“人力资源”主题,产品销售相关的10张表重新封装成“产品销售”主题,将这两个主题提供给不同业务人员使用,这样会更加便于查询。
功能简介:业务主题是最常用的数据资源类型,它是技术人员通过拖拽原始表的方式构建语义虚拟层,从而将复杂的数据关系转换为业务分析师可认知和使用的逻辑模型。它通常基于分析场景实现业务建模,用户可以将数据库中的字段与表关系按照业务逻辑进行定义,形成业务人员也能看懂的主题,并且可以控制权限。

3.png

战斗频率:☆☆☆☆☆
技能绝招
l 全仓建模。可对整个仓库进行建模,支持设置表关联信息,对表、字段名称进行业务含义翻译,设置字段的数据类型、显示格式;支持对表字段进行自由组合,分级分层,更加便于查询拖拽;支持相关表不同主题不同表关系设置,实现表关系灵活设置。
l 权限控制。可以实现主题权限、数据行权限、列权限等,真正做到专业级别的安全控制。
l 数据整合。拥有强大的数据整合能力,支持设置计算字段、设置维度层次,地理维、时间维等。
形象展示
业务对象是构成业务主题的基本元素。业务对象可以嵌套业务对象,被嵌套的业务对象,我们统称为“业务子对象”。业务对象可以从左侧拖拽表进来,也可以新建。
业务属性是组成业务对象的最基本元素,相当于表中的字段。

4.png

5.png
自助数据集
出生时间:2018年
效忠对象:业务人员
创造背景:传统的数据集构建需要技术人员来进行。而在实际情况中,当业务人员在进行数据分析数据资源不能满足需求时(比如业务人员需要将多个公共数据集进行关联分析,或是将本地Excel上传再结合公共数据集进行关联分析),就需要一种业务人员可以很容易创建使用的数据集。
功能简介:
自助数据集是一类基于个性化需求并具备灵活查询能力的数据集,业务用户可以根据业务要求,通过可视化的方式,使用跨数据库、多表关联、数据转换、复杂逻辑关系计算、数据抽取ETL等功能,将数据提取到自助数据集。比如有大屏展示需求的业务人员可选择Smartbi提供的自助数据集来制作自助仪表盘。
战斗频率:☆☆☆☆☆
技能绝招
l 可视化操作。操作界面可视化,无需任何代码。
l 高性能保障。数据量大时可定义抽取规则到高速缓存,加速后续分析应用。
l 支持数据行权限控制通过可视化界面设置即可实现数据行权限的控制
l 支持跨库查询当用户查询数据的范围比较广不限于一个数据库时,可以跨多库进行查询。
l 支持维层次定义自助数据集支持对日期字段的时间维层次定义和对区域字段的地理维层次定义,维层次实现了在自助仪表盘中钻取的功能

透视分析
出生时间:2014年
效忠对象:数据分析师、一线业务人员等都可以使用
战斗频率:☆☆☆☆☆
创造背景:人人都是数据分析师。当前时代无时无刻都在产生大量的数据,市场的竞争格局、变量要素变化迅猛,数据分析的频率提升至每天甚至每小时,数据分析的角度也要随时调整。而专业的数据分析需要复杂的数据加工过程,OLAP多维分析需要Cube,建立维度表、事实表、定维度层次、聚合指标等等,数据查询需要高深的SQL语句。
而企业的每一位员工都需要变身为数据分析师,利用自助BI数据分析工具,最大化单兵作战的能力。透视分析在此基础上应运而生。
功能简介:采用“类Excel数据透视表”的设计,多维分析不再需要建立模型,就能够组合维度、汇总计算、切片、钻取,洞察数据。不仅如此,任何字段都可直接作为输出字段或筛选条件,轻松实现对数据的查询与探索。

6.png
图:类似Excel数据透视表的操作示例


技能绝招
l 简单易用。类似Excel透视表,简单易用。无需SQL或建模即可完成数据的交叉组合,多维度钻取,灵活查询。
l 高性能。支持抽取数据到高速缓存库,支持大数据量的查询性能,秒级响应。
l 多维度。支持超多维度、甚至维度无法固定的分析场景。
l 多种时间计算。可根据业务属性设置时间计算及二次计算,如快速分析年/月/日的增长率等;并支持多种应用场景,如自定义周开始时间,取相同时间段的数据做环比等。

高级模式
B Color Image Link Quote Code Smilies
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表