大数据治理与大模型的应用分析
由此,对第一类数据的治理技术则是一套整体的技术组合,将多源异构并且零散的数据,包括三维模型、系统图、属性、文档等,转换为以对象为中心的单一可信数据源。以DeepMind的GATO为代表的智能体以及以GPT-4、LLaVA、PALM-E等为代表的多模态大语言模型在自然语言处理、视觉理解、机器人等任务上取得了显著的成果,但是这类模型普遍基于二维图片文本数据训练得到,无法理解人类所处的三维物理世界,并缺
想要实现通用人工智能,必须要构建一个能够理解人类生活的物理世界,并能够自主实现大量任务,具有情感和价值判断的智能体,这就离不开数据和模型。
以DeepMind的GATO为代表的智能体以及以GPT-4、LLaVA、PALM-E等为代表的多模态大语言模型在自然语言处理、视觉理解、机器人等任务上取得了显著的成果,但是这类模型普遍基于二维图片文本数据训练得到,无法理解人类所处的三维物理世界,并缺乏与三维世界的交互能力。
拟定一个大模型或智能体可以在三维视觉、语言理解、具身推理和动作执行能力进行实现,那么在未来将产生巨大的应用价值。在研究层面,这个智能体打通从感知到推理再到决策的统一理论框架,就有望在未来作为价值模型的载体,实现小数据大任务的目标。应用层面,则作为未来的智能助理,与人交互,回答与场景相关的问题,主动为用户的各种问题提供建议。
对此,如何解决数据的问题,个人支持小数据大模型的理论观点。
假定一类数据是描述主体属性与特征的基础数据,属于主数据。另一类数据属于描述状态与行为的业务过程或实时数据。第一类数据是小数据,价值密度高。第二类数据是大数据,价值密度低。同时两类数据又是高度关联的。
IT系统在投入使用前通常需要录入大量初始化数据,这些多数是第一类数据。第二类数据则往往需要在各类专题图的背景中才能被理解和使用。所以,高质量、高可用的第一类数据通过驱动业务应用,可以实现增效、提质、降本的价值。反之,低质量、低可用的第二类数据则会造成企业的经济损失。
第一类数据(或者说主要数据)治理的关键抓手是物理世界的数字化表达,即一个能够描述物理世界属性状态和行为模式的、含语义的、蕴含垂直领域知识的信息模型。而提升治理自动化程度是关键,需要“人工智能+垂直领域知识”的双重加持。所以第一类数据治理难在人工治理工作量大和对人员工程技术能力要求过高,只有几何级数提升自动化程度,才能形成切实可行的治理方案。
若采取大数据技术路线,会导致第一类数据治理过程大量依赖于人工和管理手段,治理后的数据质量几乎没有提升。实践证明,大数据技术主要适用于第二类属性的“大”数据,不适合第一类“小”数据。第二类的“大”数据普遍具有数量巨大但格式种类少、价值密度低、结构化程度高、耦合度低等特点,治理和应用技术的底层逻辑是归纳推理;与之相反,第一类“小”数据具有格式种类多样、价值密度高、非结构化格式占比高、各数据源耦合度高等技术特征,治理和应用技术的底层逻辑是演绎推理。
参照第一类数据以LLM为基础,在不同任务之间采用共享的架构和权重,推导与训练:
1)三维视觉-语言对齐
2)视觉-语言-动作指令微调
构建出物体级别和场景级别的大规模数据集,从而在三维世界或元宇宙中进行感知、定位、推理、规划和动作执行的具身智能体。反过来,为提高运行策略,将三维世界的表征与LLM连接,同时加入具身动作任务,推导出在三维世界中可打通视觉、语言、动作,用来支撑智能体的学习。
对此,模型整体设计思想则可以围绕两个核心点:
1)在统一的框架内处理第一视角的二维图片、三维场景信息和自然语言指令,并同时支持文本与动作的输出。
2)能够充分利用预训练语言模型的先验信息来促进下游任务。
在这两个阶段的训练内容中,则可以建立三维场景数据集和机器人操作相关的数据集。通过任务与可视化的融合,经过指令微调训练,模型可以进行多轮场景对话,如按照用户需求在场景中识别物体、给出建议等。
由此,对第一类数据的治理技术则是一套整体的技术组合,将多源异构并且零散的数据,包括三维模型、系统图、属性、文档等,转换为以对象为中心的单一可信数据源。同时,为提升治理的效率,通过AI技术以提升自动化程度。具体,AI+垂直领域知识的技术体系,实现对应用场景覆盖数据提取、转换、映射、校验、聚合等多个环节,则能够有效提升数据治理的自动化水平,大幅降低人工干预工作量。
因此,一方面,AI通常基于“大样本”训练模型,而第一类属性数据特征是“小样本”。另一方面,AI不擅长解决几何模型推理问题,而第一类数据大量又存在于图形中。所以,本文在AI基础上可深度融合了垂直领域知识,用于解决小样本问题,同时弥补AI推理缺陷。
虽然部分内容基于训练和推导,未来还可以在如下方面进行探索:
1)通过大规模的场景+文本数据(一类和二类数据的分类数据)提升三维视觉的语言定位能力;
2)填补视觉语言能力和动作执行能力之间的差距;
3)探索具身通用智能体的价值对齐和安全问题;
4)不断的评测模型与人类智能的差距,通过结果进一步指导具体的场景应用方向。
更多推荐
所有评论(0)