在数据分析与决策支持领域,数据是驱动的核心。Smartbi 作为一款强大的企业级 BI 平台,深知便捷、高效地将各类数据源整合入库是发挥其价值的关键第一步。为了满足不同场景下的数据接入需求,Smartbi 提供了丰富且灵活的数据导入方式,帮助用户轻松连接内外部数据,构建统一的分析基础。
接下来,我们将详细介绍在 Smartbi 中将数据导入数据库的几种主要途径。
类型
|
功能
|
适宜场景
|
适用对象
|
注意事项
|
本地文件数据导入
|
加载文件数据
|
- 分散的本地离线文档上传
- 文档更新频率低,更新时间不固定
- 同一个Excel文件中有多个sheet数据上传
- 文件数据较小:Excel最大100M、其它文件最大200M
- 场景示例:用户需要快速将本地文件(如Excel、CSV)的数据加载到Smartbi中进行即席分析或制作报表。这些用户通常不具备数据库操作权限,但需要自主探索数据。
|
普通业务用户
数据分析师
|
1、加载的文件数据的目标数据源必须支持“允许加载Excel数据”。
2、执行加载文件数据的用户必须拥有”本地数据源“的操作权限和目标数据源的”编辑“资源权限。
|
Excel导入模板
|
- 固定模板格式的线下数据采集
- 多数据列指定列数据录入
- 录入数据格式需要校验及异常数据信息反馈
- 企业有固定格式的数据需要定期收集(如销售日报、财务预算表),模板可确保数据规范性。
- 在导入界面显示预设列,用户可直接填写或选择值,该值将作为导入数据的一部分。(即字段绑定参数)
- 自动生成列值:系统自动为列生成值,如唯一ID、当前时间、操作人信息等,也可通过扩展实现自定义生成规则。详细请见“列设置使用Java类自定义规则”。
|
业务部门人员
数据填报人员
|
1、对于星环数据库,只有Hyperbase/ES/Transaction Orc类型的数据库表才支持insert ……values的语法,所以在创建数据库表的时候需要创建这三种类型的。
|
批量导入
|
- 列表式数据回写。
- 文件数量量较小的文件数据前端回写。
- 固定名称的数据sheet录入。
|
数据维护人员
数据填报人员
|
1、父格必须是默认父格。
2、数据设置必须是列表。
3、填报报表所在sheet名称与Excel文件导入数据所在sheet名称必须一致。
4、回写设置时,必须勾选”允许批量导入“项。
|
自助ETL-Excel文件数据源
|
- 非标准数据清洗转换
- 多文件聚合分析
- 实时+离线数据混合计算
|
数据分析师
数据工程师
|
1、需要购买自助ETL功能
2、授予用户自助ETL的操作权限
|
文件服务器/系统数据导入
|
自助ETL- 文本数据源
|
- 非结构化的文本数据挖掘分析
- 已构建Hadoop数仓,但传统BI工具无法直连HDFS
- 跨数据中心的联合处理
|
自助ETL-FTP/SFTP数据源
|
- 生产网与办公网物理隔离,数据需通过FTP单向传输至BI平台分析
- 多系统数据整合分析
- 非标数据清洗整合
|
本地文件数据的导入
当关键业务数据散落在本地文件(如Excel、CSV)中,需要与系统数据进行合并分析时,Smartbi 提供了便捷的本地文件导入功能。它能快速将您的线下数据上传或整合到平台或目标数据库,打破数据孤岛,助力统一分析决策。
一、加载文件数据
1、支持文件类型
支持以下类型的本地文件导入:Excel、CSV、TXT
2、支持导入的数据库
目前以下数据源类型可支持文件导入:INFOBRIGHT, VERTICA, CLICK_HOUSE, HADOOP_HIVE(作为高速缓存库presto+hive才支持),XINGHUAN, PRESTO, MYSQL, TIDB, ORACLE, ORACLE_OCI,MSSQL, DB2, SYBASE, MONETDB,POSTGRESQL, GAUSS200, GREENPLUM, PanWeiDB 、SelectDB。详细可查看:数据连接支持情况-汇总
3、适宜场景
(1)分散的本地离线文档上传
(2)文档更新频率低,更新时间不固定
(3)同一个Excel文件中有多个sheet数据上传
(4)文件数据较小:Excel最大100M、其它文件最大200M
4、设置入口
(1)【数据连接】-【文件或程序数据源】-【文件】

(2)电子表格设计器中的工具中,点击【导入文件】按钮,如图:

(3)数据模型中也支持导入Excel、CSV、TXT或数据分析包。
注:
1、导入文件是将文件数据导入到Smartbi配置好的高速缓存库,如果环境没有配置高速缓存库,无法导入文件成功。
2、导入文件只支持抽取模型;如果原先是直连模型,加入了导入文件会切换成抽取模式。

5、注意事项
1、V10 新用户(空库部署V10),在【加载文件数据】默认不允许导入高速缓存库,可手动在高级设置中添加DISABLE_WRITE_TO_SMARTBI_CACHE=false,允许导入高速缓存库。
2、CSV/TXT文件:数据与数据之间以“,”分隔。
3、用户导入的关系数据源为MySQL8.0时,建议先开启load data local配置,再导入数据文件,能够显著提升导入速度。开启load data local配置方法:
在MySQL命令行输入:set global local_infile = 'ON';

6、文件导入常见问题
(1)导入文件时,选择【导入数据源】看不到对应的数据源

需要在对应数据源的界面上勾选【允许加载Excel数据】

二、Excel导入模板
1、支持文件类型
支持导入Excel 2003的xls文件和Excel 2007、Excel 2010及Excel 2010以上版本的xlsx文件
2、支持导入的数据库
详细可查看:数据连接支持情况-汇总
3、适宜场景
(1)固定模板格式的线下数据采集
(2)多数据列指定列数据录入
(3)录入数据格式需要校验及异常数据信息反馈
4、设置入口
(1)新建
在“分析展现” 资源目录区现有文件夹下的更多操作,选择 【新建分析 > Excel导入模板】

(2)编辑
点击已建Excel导入模板,在更多操作,选择【编辑】,进入模板编辑界面

(3)导入
双击已建Excel导入模板(或者在更多操作,选择【打开】或【新窗口打开】 )进入导入Excel数据界面

5、Excel导入模板常见问题
(1)Excel导入模板导入到星环数据库报错

对于星环数据库,只有Hyperbase/ES/Transaction Orc类型的数据库表才支持insert ……values的语法,所以在创建数据库表的时候需要创建这三种类型的。后续Excel导入模板中也优化提示,会在后台逻辑中执行“show create table”查询对应表结构的建表语句,以判断当前的数据表类型是否是Excel导入模板支持导入的。
三、批量导入
填报报表支持通过导入已有的Excel数据文件实现回写。
1、支持文件类型
".xlsx"格式的Excel文件
2、支持导入的数据库
详细可查看:数据连接支持情况-汇总
3、适宜场景
(1)列表式数据回写。
(2)文件数量量较小的文件数据前端回写。
(3)固定名称的数据sheet录入。
4、设置入口
列表式回写报表的回写规则中,勾选【允许批量导入】

在分析展现界面打开保存的填报报表,工具栏中会显示【批量导入 】按钮,可选择导入对应模板的excel文件数据。

5、注意事项
批量回写成功必须注意如下几个要点:
1、父格必须是默认父格。
2、数据设置必须是列表。
3、填报报表所在sheet名称与Excel文件导入数据所在sheet名称必须一致。
4、回写设置时,必须勾选”允许批量导入“项。
6、常见问题
(1)电子表格【页面设置】可以绑定Excel导入模板,工具栏中会同时有【Excle导入模板】和【批量导入】,这两者有什么区别

- 回写的批量导入仍然走的是前端保存回写数据的逻辑(在页面上更新某个单元格的值,或者插入几行数据,最后点击保存按钮), 回写批量导入会先解析导入的文件,然后将导入文件中的数据与报表中现有的数据根据主键(回写规则设置的)进行对比,如果主键相同则默认走更新的逻辑,不同则是走插入的逻辑。最终生成一系列修改的数据内容,发送到前端,最后在前端模拟点击保存按钮,来回写对应的数据。
- Excel导入模板的逻辑和直接通过数据库管理工具执行insert或者update语句类似,通过解析导入的文件,获取到数据后,根据配置信息构建出sql语句,最后执行。Excel导入不存在前端和后端的二次交互,导入速度理论上会快一些,同时在大数据量的情况下,勾选了批量导入,Excel导入会走sql语句的executeBatch方法,来批量的执行sql语句 这会比普通的一条一条地执行sql,速度会快很多。
- 适宜数据量不大的场景推荐使用回写的批量导入,数据量较大则推荐Excel导入模板。
四、自助ETL
1、Excel文件数据源
Excel文件数据源是指将Excel文件中的数据导入到Smartbi中。通常需【上传Excel文件】与【读取Excel sheet】两个节点结合使用
上传Excel文件:用于上传excel文件;
读取Excel sheet:用于读取指定sheet页的数据,只能接在上传Excel文件节点后面。
2、适宜场景
(1)非标准数据清洗转换
(2)多文件聚合分析
(3)实时+离线数据混合计算
3、设置入口
自助ETL节点中选择【Excel文件-读取Excelsheet】节点,在【Excel文件】节点上传Excel文件执行完成后,可在【读取Excel指定sheet】选择文件指sheet页读取数据。

文件系统的数据导入
一、文本数据源
文本数据源是指将HDFS读取的csv等数据文件导入到Smartbi中。
1、支持文件类型
支持从hdfs读取的csv、json、parquet等数据格式文件。
2、适宜场景
(1)非结构化的文本数据挖掘分析
(2)已构建Hadoop数仓,但传统BI工具无法直连HDFS
(3)跨数据中心的联合处理
3、设置入口
在数据输入节点拖拽文本数据源,并配置文本数据在HDFS的路径。

4、常见问题
(1)若文件名称是动态更新的,如今天的是20250618.csv, 明天自动更新成20250619.csv,能否支持动态读取hdfs的文件
可通过在hdfs地址中引入参数即可,示例:hdfs://ip:port/data/mllib/${curdate}.csv
该参数需先在【运维设置-参数定义】中使用sql方式每天动态查询指定日期格式数据,并在ETL参考【数据挖掘-参数设置】映射参数配置。

二、FTP/SFTP数据源
FTP数据源是指通过FTP方式读取数据,支持FTP、SFTP协议。
1、支持文件类型
支持Excel文件、CSV文件
2、适宜场景
(1)生产网与办公网物理隔离,数据需通过FTP单向传输至BI平台分析
(2)多系统数据整合分析
(3)非标数据清洗整合
3、设置入口
在数据输入节点拖拽FTP/SFTP,并配置对应协议、服务器地址、用户密码、文件路径等参数。

以上就是Smartbi导入本地数据的操作指南啦!欢迎大家在评论区分享你的本地数据分析小技巧,优质回复将获得惊喜麦豆奖励哦~ |