近日,在2024 Smartbi AIChat新品发布会上,思迈特软件创始人吴华夫发表了精彩演讲,宣布正式发布思迈特软件第三代AI应用新品即Smartbi AIChat。思迈特软件将为企业提供准确、安全、可靠的智能BI+指标管理一站式解决方案,以行业领先的技术和稳定可靠的产品助力更多客户在数智化浪潮中掌握先机。
以下为本次演讲实录:
各位朋友下午好,欢迎大家参加思迈特软件的AI新品发布会。我是思迈特创始人吴华夫。今天我会分享一下整个BI行业发展趋势、新产品背后的技术原理及新产品规划。
Part1.行业篇
BI发展到今天已经有几十年的历史了,究竟哪些在变,哪些不变?我们认为不变的是BI的目标,帮助用户从数据获取价值,实现企业的数字化运营。包括帮助管理者从拍脑袋到数字化决策,帮助业务人员优化流程、更好地服务客户,最终提升企业的竞争力和效率。
但从效果上来看的话,却一直是差强人意。这个市场一直没有发展出它该有的规模,为什么呢?我们发现人和数据之间一直存在一个巨大的鸿沟。如何才能跨越鸿沟,挖掘到数据的宝藏?整个技术不断地发展,数据挖掘的手段也不断地提升,这也就是这些年一直在变的一个东西。而不变的方向是如何真正地把数据还给业务,让业务人员利用数据做创新。其核心点是让更多的人更简单地、更深入地洞察数据。
我们看到早期的BI阶段,由于报表开发复杂度很高,需要依赖于IT人员开发报表,基本上只能为管理者服务。到了自助BI阶段,出现了既懂业务又懂技术的数据分析师,通过拖拉拽的方式实现可视化分析,效率得到提升,可以为更多的业务人员服务了。但我们发现,企业员工的素质素养参差不齐,分析师的数量仍然是很少的。另一方面,业务人员和数据分析师之间也存在一个gap,存在沟通信息的损失和沟通效率的问题。
在2022年,随着OpenAI的ChatGPT的发布,让生成式AI和BI深度融合,降低用户的使用门槛,真正地把数据还给业务出现了转机。这个阶段我们称之为智能BI。智能体现在两点,第一点是广度,因为简单,所以能覆盖更多的用户群体。第二点是深度,从早期报表只能展现指标回答发生了什么,到自助BI阶段能够通过各种钻取部分的回答为什么发生。而到了智能BI阶段,能够做到异常发现、深度的归因和预测,甚至能提供建议,能够基于用户的问题自动生成分析报告,这是技术趋势。
另外从需求端来看,无论是从国家战略还是企业本身,都希望通过AI技术的应用加速企业转型和发展。但是在选择AI的落地应用场景方面,有几个难点要考虑,如何让AIGC跟企业的战略能够匹配,能够对齐?如何能够清晰地衡量AIGC应用带来的业务收益?因为数据分析它是面向管理者提供企业经营管理提升效率的工具,自然而然它是企业的一个最佳选择。但是由于AIGC技术天生的幻觉特性,而依赖数据做决策是一个非常谨慎的行为。所以我们需要解决准确性的问题,才能够真正地用起来。而这个也是我们今天接下来重点介绍的基于指标库的对话式分析产品。
这是我们今天发布的思迈特全新的智能BI产品——Smartbi AIChat。他的中文名叫白泽,白泽是山海经的十大神兽之一,能够讲人话,知天下事,象征着知识与智慧。白泽也承载着我们Smartbi对话式分析产品的期待。我们期待它能够彻底地填平人与数据之间的鸿沟,跨越最后一公里,把数据还给业务人员,助力数据创新。
我们的追求首先是可用,意味着准确性和安全性,这是对话式分析的一个基础。其次是易用,这个是AIGC带来的好处,因为AIGC就是零门槛,没有学习成本。最后是乐用,受益于大模型的涌现能力,我们希望用户在使用产品的过程中,能够获得超常规分析功能的一些惊喜。
Part2.技术篇
通过Smartbi产品家族图谱,我们可以看到,产品发展多年,体系比较完整,能全面满足客户所有的数据分析需求。而白泽这款产品,目前主要满足高管问数和业务数据分析的场景。
重点说明一下,今天的AIChat产品,在数据层依赖Smartbi的指标模型和数据模型,它起到供数的作用,是白泽数据查询准确性的核心,同时提供了强大的计算能力和安全性。在接入指标模型之后,除了强大的时间计算能力,包括同环比,年累计同环比之外,还提供了数据异常检测,归因分析,预测分析,以及推荐和建议等高级分析能力。通过全面的RAG,除了将指标模型,业务知识,都加载到向量库,还能根据用户使用情况去持续迭代,越用越聪明。
接下来,比较一下实现对话式分析的4种技术路线:
首先是NL2SQL,将自然语言问句转换成SQL语句。这个领域的研究非常火爆,经常有新的论文出现,有新的数据集产生,有新的调优后的模型发布,宣布准确率提升多少多少。
这种方案面临的主要问题就是准确性的问题。由于SQL语句表达非常之灵活,用户的问句随意性也非常强,就很容易导致准确性问题。比如一些指标口径的问题,用户的一个问句涉及的指标在多个表出现,大模型不知道该用哪个表。特别是如果一个问句内容涉及到多个表,比如ERP系统有成百上千张表,如何正确地处理表关联,也是一个挑战。
第二个挑战,是数据权限问题,不同用户能看到的数据肯定是不一样的,如何把这个权限设置的代码片段嵌入到复杂的SQL中去?当然我们也可以不改SQL,通过DBA去后台数据库设置用户访问权限,那就很不方便了。最后,还有很多分析是SQL不好做的,比如我想做年累计同期比,会用到复杂的开窗函数,归因和预测分析也没法做。
第二个路线是NL2DSL。DSL是自定义的领域分析语言。DSL最大的好处就是受控,能力范围自己定义,语法自定义,能很好的避免SQL过于灵活导致的幻觉问题。
DSL最大的问题是成本,由于大模型并不认识你的DSL,所以需要做微调。其中涉及到训练数据的准备,微调的计算资源开销都比较大。并且基座模型频繁升级,能力日新月异,针对不同模型,或同一模型的不同版本,每次适配新的基座模型都需要重新微调。另外,泛化能力比较差,这个项目微调的结果在另外项目不一定很好适应。
第三个路线是对DSL进行改进。使用基于指标库的JSON SQL作为DSL,由于SQL是大模型通用能力,可以避免模型微调。而使用JSON格式,限制了SQL自由度,规避了SQL的复杂性,减少出错可能性。最后,使用指标维度替代表和字段,通过RAG增强检索进一步减少大模型幻觉。
由此带来的SQL表达能力的缩减,可以通过函数扩展去弥补。比如同期前期等运算,直接用一个函数代替,没必要复杂SQL开窗函数了。而同期函数的实现,是基于指标库背后的OLAP引擎实现。
所以这种方式能很好的保证准确性,提升性能,保证数据安全。
但就算采用了第三种方案,也只是解决了单个查询准确性问题。有时候用户问题无法用单个查询完成,需要多个数据集的融合; 有时候,用户不仅是数据查询,还需要各种高级分析,比如异常检测,归因分析,预测,甚至是推荐和建议;还有时候,问题的答案不光是来自数据库,还需要融合外部知识.....
这时候简单的查询就无法满足需求了,需要引入第四条路线:AI智能体。
什么是智能体呢?大模型就像个大脑,输入输出都是文本。智能体在大脑的基础上增加了眼睛和耳朵,能感知外面的环境变化,再装上手脚,可以执行任务了。智能体作用于BI,就能通过简单交互,实现非常上面提到的复杂的分析能力了。
下面我解释一下基于AI Agent的对话式分析的技术架构图,以及内部运行的流程。
整个智能体由规划器,代码解释器,和记忆体组成。首先,用户提出问题,然后规划器基于上下文的语义理解问题,进行问题规划,并生成一个执行计划,计划它包含多个子任务,这里的子任务可能还有依赖关系,有些可以并行,有些只能串行,最后形成一个图。
对于每一个单独的子任务是通过代码解释器去处理的。代码解释器首先需要理解子任务,然后通过代码生成器Code Generator去生成python代码,通过Python执行器去执行代码。在代码中能够调用一些已有的python的类去实现计算,比如scikit-learn实现科学计算,也可以调用插件的功能去扩展代码能力,这里我们封装了Smartbi的BI能力,包括模型数据查询,归因分析,预测等高级分析插件。在模型查询插件中,其实调用的就是上面提到的基于指标的JSON SQL查询能力。
在代码执行完成后,代码解释器会把子任务的计算结果返回给规划器,规划器会综合所有子任务的执行情况,将最终结果反馈给用户。整个规划和执行的过程,都记录在记忆体中。我们知道大模型是无状态的,没有记忆力,所以需要通过记忆体存储上下文。
另外值得一提的是,这里代码生成器和规划器都能具备自我纠错的能力,在执行结果不满意的时候,重新调整执行策略。当然整个过程中,用户也可以进行干涉,反馈和补充信息等。以上就是整个处理流程。
讲完原理,看看白泽的交付。
它的整个交付很简单,第一个安装部署,你可以私有化,或者调大模型API都行。第二个是需求分析,我们其实从具体的场景开始做,明确用户是谁,它的问句是什么,它涉及哪些指标和维度。确认清楚之后,我们就可以做指标建模,然后是指标数据对接工作。
建了指标模型之后就是简单构建向量库的过程。除了指标维度这些元信息放到向量库,业务知识,示例,经验,都会放到向量库。
然后马上就可以用了,基本上初次使用就可以到百分之八九十的准确度,然后稍微做一个RAG的微调,就可以更高。在特定场景下,可以做到99%的准确率,不对的部分也最多是词不达意,而不会产生数据错误或权限漏洞。
最后我们总结一下它的几个优势:
首先最核心的是准确性,怎么实现准确性?通过接入统一的指标模型和数据模型,保证口径的唯一。通过全面的RAG,接入示例,业务知识和外部知识,通过用户的反馈让他越用越聪明,越用越准确。
第二是安全性保障,因为Smartbi整体有一个很完善的权限体系,另外也支持私有化部署的大模型,和三级等保认证。
第三是高性能以及分析能力。我们提供了一个分层计算的能力,针对用户需求进行规划分解后,有一些计算是下压到指标模型里面去算的,指标模型的背后是我们强大的OLAP引擎;有一些是在Python去做库外计算,两者做有机的融合。
而通过Python插件的扩展,能够实现各种复杂的计算,包括多数据集融合,归因预测,外部知识融合等能力。希望结合大模型涌现能力,能给用户带来一些惊喜。
最后还有一个成本优势,交付周期很快,梳理好指标需求并对接数据库,这事就搞定了。
Part3.展望篇
BI的使用者包括开发者、数据分析师、业务用户,每个角色都有自己的工作内容,生成式AI对每个角色的工作都可以有不同的能力增强,比如帮助开发者生成SQL,提升数据开发效率等。
我们目前更关注业务用户的价值提升。总体目标是分两阶段,首先增强数据分析师和业务用户的用数体验,包括数据查询,分析,归因,预测,数据分析报告的生成。
第二阶段,针对开发者,自动构建指标体系以及基于指标的分析,当然这里依赖于我们在5000多个项目上行业Know-How的沉淀。
目前中国的企业(尤其是中小企业)亟需用数字化提升经营管理水平,受限于供给侧能力不足,BI项目建设周期长、成本高、效果还不可控。我们目标是通过AIGC,一句话自动生成一套BI系统。真正低成本、高效率地帮助中国中小企业完成数字化转型。
最后回到我们的产品愿景:爱上与数据聊天。因为爱是一个带感情的东西,它不光是能够给你查数、分析数,我们希望它真的能给你带来一些惊喜,带来一些你之前没有想到的东西,这是我们对它的一个期待,谢谢大家。
点击下方申请试用Smartbi AIChat
最新评论
查看全部评论(1)