不止上新,OceanBase在AI时代的数据“寻宝”

  一个月前,OceanBaseCEO 杨冰通过全员信宣布,公司将全面进入 AI 时代,打造"Data(数据)×AI(人工智能)"核心能力。5 月 17 日,OceanBase 详解了 AI 战略,并发布了与数据处理相关的能力和产品,比如 AI 驱动的开箱即用的 RAG(检索增强生成)服务、进一步降低 TP 负载下存储成本的共享存储等。

  按照 OceanBase 的计划,公司要从一体化数据库转向一体化数据底座。在现场为 OceanBase 站台的蚂蚁集团 CTO 何征宇表示,蚂蚁集团将支持 OceanBase 在金融、医疗、生活等蚂蚁 AI 的核心场景的突破。OceanBase 始于 2010 年,早期服务天猫"双 11",公司独立于 2020 年,五年后这家以数据处理起家的公司面对的是一个 AI 规模化的阶段,有 AI 带来的天然数据增量、非结构化数据的增长等新红利,也有价格战等老问题。

  图片来源:OceanBase

  一些新品

  "传统 RAG 应用常用开发模式包括组件森林开发模式、RAG 平台模式等,但存在开发周期长、维护成本高、灰箱调试困难、性能难以优化等问题",OceanBaseAI 战略一号位的公司 CTO 杨传辉介绍,OceanBasePowerRAG 提供开箱即用的 RAG 应用开发能力,打通应用开发数据层、平台层、接口层与应用层的全流程,提供 Document(文档)和 Chat(对话)两个核心 API 接口,帮助用户实现文档知识库、智能对话、图像比对、数据分析等多种 AI 应用场景的快速开发。

  OceanBase 对这款产品的定义是,"OceanBase 致力于成为 AI 时代的一体化数据底座,PowerRAG 是 OceanBase 在应用层面探索的第一步",杨传辉说。

  当天,OceanBase 还推出了一款"共享存储"产品,可实现对象存储与事务型数据库(TP)的深度集成,构建存算一体与分离的多云原生架构,可以使 TP 负载的存储成本最高降低 500%。

  将存储产品置于不同的背景下,能更好地理解这款产品。

  在云计算时代,对象存储是一种新的数据存储方法,它将数据存储为"对象",因高可靠、低成本、可无限扩展等特性,被广泛应用于分析型数据库(AP)、企业存储备份、归档和数据湖等场景。

  但在事务型数据库(TP)的生产环境中,因数据计算对低延迟、高性能有极致追求,普遍采用紧耦合的存算一体架构,因此依赖本地磁盘或云盘,无法支持对象存储的应用。"共享存储"产品解决的就是无共享架构在弹性和成本方面的瓶颈问题。

  该产品在云上可被应用于典型 TP、历史库及备份库,时序类业务、HBase 兼容类业务、流水型业务系统、OLAP 业务等。

  先做好数据底座

  不论是 PowerRAG 还是共享存储,其实都是因时而生的产品,小到产品,大到公司战略同样如此。

  杨冰分享了自己看到的企业诉求,他把 OceanBase 的目标企业分成两类,"一类是想通过通用的 AI 给自己助力的企业,比如通过通用大模型。企业把大模型拿过来要结合内部的数据做后训练,不然没法用,数据这时会成为企业内部的知识库,成为企业所有上层 AI 应用的基础,这可能涉及到存储层,所以我们研发了向量化、融合检索,OceanBase 的产品就是这么来的,因为这些需求是刚需"。

  "另一类是一些 SaaS(软件即服务)企业,或像阿里、蚂蚁都提出要用 AI 全面重构,这些企业的动作更大",杨冰说,"它们可能要的就不只是一个知识库,是要把 AI 的各种能力拆分之后融入。"

  在 OceanBase 分享的一张图中,提到了公司的未来,后期会从数据产生到训练、未来应用的全链条。"OceanBase 还处在早期布局阶段,我们现在要把数据底座先做好",杨传辉分享了 OceanBase 大致的发展节奏。

  这也是 OceanBase 在一个月前公开的战略。根据 IDC 报告,受生成式 AI 等技术驱动,2028 年全球新生成数据量规模预计将达到 393.9ZB,其中企业数据规模和增速明显。对于企业而言,数据仓库的容量已实现质的飞跃,结构化数据存储规模"突破 PB 级迈向 EB 级"成为新常态,这给数据存储、管理与分析带来严峻挑战。

  何征宇也在分享中指出,海量的互联网数据成就了今天的大模型,但大模型幻觉问题的源头也是数据问题。数据决定着大模型的能力上限,且依旧有四个挑战:数据的获取成本显著增加;严谨的行业数据稀缺且流动困难;多模态数据需要更强的处理能力;数据的质量评估难。

  "较长的路"

  关于大模型幻觉问题,杨传辉这么解释:"本质上,出现幻觉要么是缺数据,要么是缺高质量的数据,幻觉是永远不可能消失的,但可以无穷地逼近于0",他站在企业的角度说,"一方面等着大模型拿公有数据改进它的算法、数据质量,这样能慢慢把准确率变高;另一方面可以把自己企业的数据,或者掌握的部分行业公共数据,结合到大模型里从而获得更好的服务,现在的难点在于结合,Data×AI 的融合是极其难的。"

  PowerRAG 解决的就是第二个问题。杨传辉也坦言,"RAG 这个方向其他也有很多挑战,还有一段比较长的路要走,整个行业都有比较长的路要走"。

  事实上,"数据库行业的价格竞争很激烈",比达分析师李锦清告诉北京商报记者,"国产数据库市场中,很多企业都是基于开源技术的二次开发,产品功能高度重叠,中小厂商通过低价策略争夺市场份额,导致毛利率不高。国际厂商市场份额逐步下降。国内云厂商通过云服务订阅模式降低成本,也是在以价格优势抢占市场。"

  杨冰没有避讳价格,"性价比是数据库领域永恒的话题,但在 IT 软件这个领域,性价比往往意味着更高的质量,是设定一个价格但拥有更好的能力。OceanBase 是在迭代中提升能力,技术的创新也确实让企业在成本上实现了下降"。

  北京商报记者魏蔚