新闻
发布日期:2025-12-22 19:44 点击次数:105
封面新闻记者 张越熙开云体育
11月 19 日下昼,行业大模子、具身智能、算力、芯片、数据合成等10 项首发适度在乌镇峰会登台路演, 其中 AI 数据合成与坐蓐平台AIGD(AI Generated Data)因聚焦“数据合成”获常常关爱。“翌日的AI欺诈需要大王人稀缺且难以取得的长余数据,如自动驾驶中的顶点天气与顶点路况数据,具身智能本质所需要的复杂场景数据。在此配景下,数据合成成为关键。”蚂蚁数科AI科技时刻厚爱东说念主、蚂蚁天玑实验室主任李哲现场向记者先容。
AI 发展正濒临着高质地数据贫穷的问题。连年来,伴跟着大模子时刻的快速发展,机器学习也正从“以模子为中心”转向“以数据为中心”,高质地数据不错更好地模拟客不雅宇宙,进步模子的准确性和清静性,然则“到 2026 年,现有的用于 AI 模子本质的高质地说话数据将蓦地”,据Epoch AI Research盘问团队瞻望。Gartner 示意,到 2030 年,合成数据将成为 AI 模子的主要本质数据开首;2024 年, 60% 的 AI 数据将是合成数据,被用于模拟、瞻望场景和镌汰风险。

记者在2024年宇宙互联网大会乌镇峰会了解到,AIGD平台是由蚂蚁数科陈述的首发适度,平台可通过大规模合成互联网所不笼罩的高质地、高价值垂直语料数据,匡助科技厂商进行 AI 模子本质。记者了解到,AIGD具备 PB 级数据坐蓐才气,支握数据从生成到本质全历程自动化管制,自动化率达到 80%,这极大提高了数据管制的遵循和质地。此外,平台自研15 余种数据合成器具,现在不错合成图片、视频、3D模子、多模态图文视频对、多轮对话、语音讯号、心率脑电信号、结构化来回数据等多模态数据,以激昂多种欺诈场景下的 AI 模子本质需求。
业内东说念主士遍及以为,“高质地数据”是 AI 大模子长远到产业的遑急基础,莫得好的数据作念撑握,一切 AI 欺诈王人是空中楼阁。近日,OpenAI职工爆料说,“新模子‘莫得那么大飞跃’”,主要原因之一即是高质地数据不及所导致的。本年 9 月份, OpenAI 发布推理模子o1,带来了强化学习本质新范式,通过自博弈强化学习,将合成数据的表情本质给大模子,从而大幅增多大模子逻辑推理才气。
“数据合成”是蚂蚁数科 AIGD 平台的主邀功能之一,此外还包括数据标注、质检等才气。在数据标注方面开云体育,通过东说念主机协同进行标注,东说念主工智能算法大略自动识别和预管制大部分基础信息,预标注模子依赖东说念主工标注量镌汰了 70%以上。在数据质检方面,平台会阐明元信息支握不同粒度的数据质地统计,最猛进程领略数据,保证合成及标注后的数据合适预期质地条件。李哲在乌镇峰会上示意:“咱们行将迎来 AI 处事产业的黄金年代,蚂蚁数科将会顽强在 AI ToB 规模插足,让 AI 长远千行百业。”
Powered by 开云(中国)kaiyun体育网址-登录入口 @2013-2022 RSS地图 HTML地图
Copyright Powered by站群 © 2013-2024