- A+
来源:《科创板日报》
编辑:邱思雨
5月19日,北京拟组织实施“北京市通用人工智能产业创新伙伴计划”,谋划建设国家级数据训练基地。
北京提出,在谋划建设国家级数据训练基地的过程中,要开发涵盖文本、图像、视频等多模态的高质量数据集,助力国家级数据训练基地建设。支持发展基于AIGC技术的合成数据新产业。
回溯到今年3月初,中国证监会科技监管局局长姚前曾在《中国金融》杂志撰文称,建议重点发展基于AIGC技术的合成数据产业。以更高效率、更低成本、更高质量为数据要素市场“增量扩容”,助力打造面向人工智能未来发展的数据优势。
被多次点名强调的合成数据,究竟是何方神圣?
顾名思义,合成数据(synthetic data)是通过计算机技术人工生成的数据,而不是由真实事件产生的数据。但合成数据具备“可用性”,能够在数学上或统计学上反映原始数据的属性,因此可以作为原始数据的替代品来训练、测试并验证大模型。
在训练大模型的过程中,除了需要庞大的数据量以外,数据的质量同样至关重要。例如,ChatGPT的训练使用了45TB的数据、近1万亿个单词。据姚前分析推测,ChatGPT等大模型的训练数据主要来自于维基百科、书籍、期刊、Reddit社交新闻站点等。总体来看,数据来源严重依赖于现有的互联网公开文本数据。
但互联网文本数据有限,GPT-3的参数量已达到千亿级别,如果下一代大模型的参数达到万亿级别以上的话,数据短缺问题恐成为训练的瓶颈。在此背景下,合成数据的重要性日益凸显。
▌合成数据:更高效率、更低成本、更高质量
正如上文所述,“更高效率、更低成本、更高质量”是目前合成数据的优势所在。市场调研机构Gartner预测,到2024年,人工智能和数据分析项目中的数据预计有60%将来自合成数据。具体来看:
“更高效率”:合成数据能够在相对较短的时间内大量生成,且能够精确地复制原始数据集的统计特征,但又与原始数据不存在任何关联,便于在更大范围内分享和使用;
“更低成本”:合成数据服务商AI.Reverie指出,人工标注一张图片可能需要6美元,但人工合成的话只需要6美分;
“更高质量”:合成数据能够补充边缘案例,可以通过深度学习算法合成原始数据中没有的罕见样本,保障了数据的多样化。
除此以外,在AIGC时代,数据的隐私性、保密性、安全性等问题尤为重要。例如,医疗行业的数据通常会包括患者个人健康信息等;金融行业则涉及到历史交易信息等敏感数据。
利用合成数据训练AI大模型则能够有效规避用户隐私问题。在上述案例中,通过合成数据集,医疗机构能够在不提供患者隐私信息的条件下训练相关模型完成药物研发工作;金融机构则能够在不提供敏感的历史交易信息前提下,通过合成数据集训练量化交易模型提升获利能力,也可以用来训练客服机器人以改善服务体验。
《麻省理工科技评论》(MIT Technology Review)将大模型合成数据列为2022年十大突破性技术之一,称其有望解决人工智能领域的“数据鸿沟”问题。
▌先行应用于计算机视觉 巨头已争相布局
具体到产业应用层面,合成数据先行应用于计算机视觉领域,例如自动驾驶、机器人、安防等应用场景。这些场景下的AI大模型都需要大量图像、视频数据来训练,但获取原始数据却相对较难。
以自动驾驶领域为例,实际驾驶场景路况复杂、变量较多,且极端天气下获取真实路况数据可能存在困难或危险,因此难以完全依赖于真车现场数据。但是,通过合成数据集模拟各种驾驶场景,就能够在保障人员和设备安全的条件下,提升自动驾驶能力。
目前,合成数据应用正迅速向金融、医疗、零售、工业等诸多产业领域拓展。摩根大通于2021年9月提出通过合成数据来加快金融领域的AI研究和模型开发,以解决欺诈检测和反洗钱等问题,并改善服务体验;美国运通也同样正在尝试创建合成数据来训练、优化其用于欺诈检测的AI模型。
微软、谷歌、英伟达等硅谷巨头均在加速布局合成数据领域的相关业务。
英伟达自动驾驶仿真平台DRIVE Sim通过Replicator合成数据工具来缩小仿真数据与真实数据之间差异并提高场景泛化能力;
谷歌利用AI生成的医疗记录来帮助预测保险诈骗;
微软开发了可以生成合成和聚合数据集的开源工具Synthetic Data Showcase,并创建了合成人脸数据库。
Meta于2021年11月收购了合成数据创业公司AI.Reverie。
国内方面,据《科创板日报》不完全统计,A股上市公司中:
天风证券、上海证券等多家机构分析师一致认为,AIGC模型算法创建的合成数据功能将为新技术产业提供支撑,让数据约束不再成为产业发展瓶颈。
本文是全系列中第81 / 204篇:chatGPT
- ChatGPT引发AI人才战,大厂点名“就要OpenAI的华人,薪资不设限”
- OpenAI 再丢“王炸”:ChatGPT “封印”解除,能联网、搜索了!
- 重磅!微软开源Deep Speed Chat,人人拥有ChatGPT!
- ChatGPT流量见顶,AI革命中道崩殂?或许是OpenAI在下一盘大棋
- 当大厂程序员已开始用AI写代码 人类会被AIGC淘汰吗?
- 苹果AR眼镜跳票,国货能否异军突起?
- ChatGPT获得“正经编制”,国际预科生写论文用它不算作弊!
- 中国版ChatGPT项目“文心一言”将于3月面世,百度能否趁势“狂飙”?
- 微软AI全家桶上新啦!GPT-4进军程序员大本营GitHub
- 人工智能会取代人类主宰战场吗?从ChatGPT看人工智能的军事应用
- 知乎CEO周源:密切关注ChatGPT发展,AI能让内容更快推广
- 不只是聊天机器人:一文梳理 ChatGPT 带来的真正影响
- 记者试用新 Bing 后感慨:搜索从此不一样了
- 关于ChatGPT,黄仁勋和OpenAI联合创始人进行了一场“炉边谈话”
- 欧盟委员会对 ChatGPT 的最新监管方向
- ChatGPT-4 本周降临:它将如何影响 Web3?
- 旧金山出现“脑谷”,ChatGPT掀起美国初创企业AI热潮
- 小冰CEO李笛:“按ChatGPT模式做AI,我们一天成本要3亿”
- ChatGPT之父撰文:《万物摩尔定律》出现,这场革命将创造惊人的财富
- AI搜索大战打响!微软官宣ChatGPT引入Bing 生成式AI能否帮助巨头走出泥潭?
- 如何投出一个百亿美金的 ChatGPT 独角兽
- ChatGPT引爆新一轮科技军备赛
- AIGC生成图像加速度,百亿赛道将开启
- 国产ChatGPT扎堆,又是一场元宇宙式狂欢?
- 美国宾州大学教授体验 Bing AI 有感:生成式 AI 的改进速度超乎预料,但我们还没准备好
- ChatGPT“变现”在即,哪些法律风险不容忽视?
- ChatGPT开始被“疯狂吐槽”了
- 市值=2个茅台=5个英特尔,ChatGPT浪潮下英伟达“赢麻了”
- 微软“核弹级”更新:ChatGPT亮相Bing搜索和浏览器,今天上线,免费使用
- 元宇宙规模化商用仍未落地,ChatGPT或难续写新故事
- 独游制作人都在怎样用AI辅助开发游戏?
- 放下骄傲!微软是如何豪赌OpenAI的
- ChatGPT的前世今生:OpenAI的技术「执拗」与「豪赌」
- 卖账号、赚打赏,他们用 ChatGPT 搞钱
- ChatGPT来袭,元宇宙将迎新契机?
- 拥抱人工智能!微软将在Azure云服务中加入AI机器人ChatGPT
- ChatGPT“狂飙”:风浪越大,鱼越贵
- 没有对标ChatGPT产品,苹果内部AI峰会被指更像“团建”
- 为了 ChatGPT,微软抛弃元宇宙?
- AIGC制作的“视觉大片”走红!耗时仅3天,首批玩家吃到“红利”了
- 五个星期“周游”全球22国 “ChatGPT之父”究竟收获了什么?
- Roblox CTO 谈生成式 AI(Generative AI):彻底改变平台创作,让所有用户都成为创作者
- 从作弊工具到教学利器:教育工作者对生成式 AI 的观念转型
- 麻省理工称AI改变教育,日本拟制定ChatGPT学校运用指南
- 6天,50万!ChatGPT App 下载量远超美国 iOS 新应用的 99.99%
- ChatGPT版微信个人号搭建流程
- ChatGPT成科技圈的“新贵”,谁还记得元宇宙?
- OpenAI联合创始人:自动驾驶和VR都是“歧途” AI智能体才是未来
- 用户生成收藏(UGC 2.0)崛起:创作者正从四大领域获得赋能
- GPT-5年底上线?初创公司Runway CEO再爆料:OpenAI员工相信GPT-5有望成AGI
- 微信接入ChatGPT,使用Node+ChatGPT+Wechaty做一个微信机器人
- OpenAI造就硅谷新“黑帮”:ChatGPT爆火背后的神秘大佬、技术版图和资本故事
- 取代岗位 vs 创造就业:AI 会是“白领”终结者吗?
- ChatGPT后下一个AI爆款应用是什么?硅谷All In“自动AI智能体”
- 人类生成 or 机器生成?ChatGPT 引发了一场真假辩论
- 盖茨再谈ChatGPT:AI能提高效率,但要考虑边界在哪
- 第一批因ChatGPT坐牢的人,已经上路了
- GPT、DALL·E、Sora,为什么 OpenAI 可以跑通所有 AGI 技术栈?
- ChatGPT:是平台的缪斯还是黑客的「MOSS」?
- 11款值得收藏的 AI 工具
- 搜索大变天!谷歌推出Bard对抗ChatGPT,打响保卫战
- 突发!ChatGPT 紧急暂停 Bing 集成,下线搜索功能
- 在微信上搭建ChatGpt机器人
- 重磅!GPT-4 API,全面开放使用!
- 开局打爆谷歌,微软ChatGPT版必应亲测:强到发指!
- 美国监管机构首次正式调查ChatGPT!FTC朝OpenAI“开火”
- ChatGPT 限流,生成式大模型触碰算力天花板?
- OpenAI给科技行业敲响警钟,中国必须要有自主“大模型”
- chatGPT本地化搭建服务,一键免费部署你的私人 ChatGPT 网页应用。
- ChatGPT:本地环境搭建chatgpt、调试运行、接口API调用
- 复旦教授肖仰华:ChatGPT代码解释器是里程碑意义的成就
- 不写代码、靠“玩”ChatGPT年入百万,提示工程师正变成硅谷新宠
- 将ChatGPT集成在汽车中,全球首个车载语音GPT发布!
- 不做 ChatGPT killer,Meta 的大型语言模型 LLaMA 或派上更大用场
- 砸下677亿,微软盯上ChatGPT
- ChatGPT爆火的冷思考:盈利难题与治理挑战
- 数字媒体怎么用ChatGPT赚钱?Buzzfeed推了款收费的测试产品
- ChatGPT访问量增速下滑引担忧,专家提醒警惕泡沫化风险
- 马斯克要告微软,拒绝AI训练“白嫖”数据
- a16z:巨额计算成本压力下,不同企业该如何选择 AI 基础设施?
- AI大模型“无米下锅”?合成数据多重优势凸显,硅谷巨头正加速布局
- 谁在反对ChatGPT?
- 更快、更便宜!Sam Altman最新访谈透露OpenAI下一步计划,目前GPU短缺是最大瓶颈
- 竞品还在追赶,OpenAI 用 GPT-4 飚赢自己
- 我用 ChatGPT 搞钱,月赚 10 万
- 小冰CEO李笛:别神话ChatGPT,创业公司还玩不转
- 关于GTP-4,这是14个被忽略的惊人细节!
- OpenAI大动作!ChatGPT开始联网 一夜之间从工具进化成平台?
- 如何用ChatGPT帮你投资?这家美国平台打造出一款神奇“AI投顾”……
- chatgpt是什么?可以提供哪些服务,用户该怎样使用chatgpt(附Chat GPT注册教程)
- 大厂火拼ChatGPT
- ChatGPT这么牛,我们应该如何兼顾发展和治理?
- AIGC如何成为元宇宙神助攻?
- 从GPT-4、文心一言再到Copilot,AIGC的长期价值被逐渐确立
- ChatGPT可能马上取代你!这是它能做的十个工作
- 生成 AI 的下一步发展是多模型吗?
- 麦肯锡:ChatGPT 等生成式 AI 技术将如何改变企业?
- 前Google科学家李志飞劝各位冷静点:通用大模型不一定适合所有人,包括大佬们
- 王兴“会师”王慧文,要联手造ChatGPT版“美团”?
- 又一中文版ChatGPT!李开复宣布筹组AI新公司“Project Al 2.0”
- 资本观望,大厂入局,海外大模型血脉压制…… 国内AIGC创业者的机会在哪里?
- GPT现状终于有人讲清楚了!OpenAI大牛最新演讲爆火,还得是马斯克钦点的天才
- ChatGPT 两个月引爆万亿新赛道,国内外有哪些 AI 玩家能突出重围?
- 疯狂三月:一场ChatGPT引发的千亿“钞”能力竞赛
- 一天现六个国产ChatGPT大模型,“百模大战”全面开打
- GPT-4震撼空降,谷歌「紧追」微软有点难
- ChatGPT热度再升级,AIGC的投资人开始关注“文生图”了
- 二次元迷失「AIGC」:第一批吃螃蟹的人,迷惘、失落还有阵痛
- ChatGPT杀疯了,两个月引爆千亿美金新赛道
- AIGC为中小游戏公司解困,也有人担心失业
- a16z:金融服务行业将采用生成式 AI 来实现 5 个目标
- Meta推出先进大型语言模型,下一个ChatGPT不远了?
- chatgpt对接微信全流程
- GPT-4来了!国内相关初创项目近30家,VC加紧奔赴AI淘金热
- 天下再无免费数据?“美版贴吧”向AI公司收取数据使用费
- AIGC应用持续升温,将给普通人生活带来哪些改变?
- ChatGPT之后,AIGC会如何革新内容创作?
- 第一批被AI抢走饭碗的人”:我们不该被嘲笑
- 谷歌慌了,超20亿投资ChatGPT竞品Anthropic对抗微软
- AIGC拯救虚拟偶像?
- ChatGPT与五巨头:AI新纪元谁最有优势?
- ChatGPT和AI正如何改变播客行业?
- GPT-4震惊四座,中国创业者激战“小模型”
- AIGC商业化,版权保护谁来管?
- 谷歌追赶微软ChatGPT计划曝光:让AI在产品中无所不在
- 动嘴就能写代码,GitHub 将 ChatGPT 引入 IDE,重磅发布 Copilot X!
- 行业观察:AI技术“狂奔”,但商业逻辑大于技术逻辑
- Meta宣布:再裁员10000人!取消5000个职位空缺
- 年薪百万,只需陪聊,ChatGPT 正在带起一种很新的职业
- 2023最新的Chatgpt微信机器人搭建教程【附免注册chatgpt账号】
- 尔等请入座,AI 新秀 AutoGPT 如何颠覆生产力
- 微软下个十年的想象力,藏在ChatGPT里
- AI“春晚”英伟达又甩王炸!ChatGPT专用GPU来了 还要赋能芯片制造
- AI会杀死“美图秀秀们”吗?
- ChatGPT 吃我饭,砸我碗
- ChatGPT持续“高烧”,再走一遍元宇宙的老路
- 大厂大模型:久违的一把手工程
- GPT-5暂时来不了,OpenAI悄然布局移动端
- 山寨 GPT 太疯狂,OpenAI 发出“警告”:别用它来命名,正加速申请 GPT 商标
- 最新GPT-4在律考中击败90%人类,它到底强在哪?
- 多国拟发 ChatGPT 禁令,关“野兽”的笼子要来了?
- ChatGPT在一线城市火,元宇宙在二三线城市热
- 做了第一个ChatGPT .NET API聊天库
- ChatGPT 算力消耗惊人,能烧得起的中国公司寥寥无几
- 探讨 AI 在网络安全测试中的优势与挑战
- 与周鸿祎“深聊”ChatGPT:它会不会产生与人类为敌的想法?
- ChatGPT背后的算力博弈,中国企业亟待打破美国桎梏
- 这位「AI教父」怎么总炮轰ChatGPT?
- ChatGPT狂欢背后:别让科技新概念昙花一现
- 王慧文无心与李彦宏「斗法」
- YC爆发AIGC潮,100+项目完整盘点,AIGC有哪些创业方向?
- AI企业如何发展,“中国版chat GPT”给出了答案
- 【基于OpenAI的ChatGPT】搭建属于自己的微信聊天机器人(附带注册英国手机号码方式)
- ChatGPT热引发年薪千万高管辞职潮
- ChatGPT流量下滑10%,但真正的挑战不在这里
- 重磅突发!OpenAI正式推出多模态GPT-4
- 国内AI公司,靠ChatGPT逆袭?
- 王慧文创业“OpenAI”更多细节爆出,源码、真格或成“首位投资人”
- 基于ChatGPT的微信聊天机器人
- 谷歌“仓促”迎接 AI 大战,机器人 Bard“掉链子”股价大跌
- AI投入交易实战!2.5万名投资者跟着ChatGPT炒股
- ChatGPT 创始人和他疯狂的 Worldcoin 实验
- 首发ChatGPT课、AI共创游戏设计,网易试图抢跑AIGC红利
- 给数字人装上ChatGPT ?多家公司这样回应
- AI狂飙突进,人类在害怕什么?
- 10个实用的 ChatGPT 免费扩展!
- GPT-4如何引领科技前沿?盘点10大应用场景
- 给表情包都能猜电影,ChatGPT的「涌现」能力是哪儿来的?
- 中文在线又要大搞AIGC了,这次能翻身吗?
- 第一批投 AIGC 的 VC 开始后悔了
- GPT 创业四个月,收益几十块
- 微软因“Bing”得福?谁能成为搜索引擎的游戏规则改变者?
- 一文盘点帮助学生学习的 9 种 AI 工具
- ChatGPT爆火,带来哪些机会?
- 自主拆分任务的chatGPT版本autoGPT的用户前端化实现——agentGPT部署及配置全流程
- 马斯克这位前合伙人,从ChatGPT到WorldCoin,会给Web3带来惊喜吗?
- 使用OpenGPT(ChatGPT)搭建 QQ 机器人
- 叫停GPT-4后续AI大模型!马斯克、Bengio等人发出公开信,千人响应
- ChatGPT + Web3.0=去中心化人工智能
- ChatGPT 没让我失业,反而让我多打了几份工!
- 微软重磅更新:Windows引入AI助手,ChatGPT默认用必应搜索
- AI 大模型乃 ChatGPT 参数量三倍!谷歌聊天机器人推测试版,受益上市公司梳理
- ChatGPT 概念股爆炒要结束了?
- 外媒:微软将于下周发布大语言模型 GPT-4,多模态成为最大亮点
- centos8下搭建chatgpt本地环境集成到微信中,接入个人微信操作教程
- “一言”槽点满满,“千帆”下海收费
- 关于AI安全,OpenAI最新回应:没有人会为了尽快取得成功而“偷工减料”
- AI 杀入电商直播赛道,成本降低95%,主播薪资集体大降
- 争造第一个“国产ChatGPT”,大厂们拼了
- ChatGPT超级巨大漏洞,能看别人支付聊天内容,OpenAI公布技术细节
- 英国政府将打造“国家AI”,与ChatGPT竞争,初始投入仅“1亿英镑”
- centos8下搭建chatgpt本地环境集成到微信中,接入个人微信操作过程报错故障处理
- 字节跳动CEO:要深入学习理解GPT-4,思考结合场景创造价值
- 突发!ChatGPT 紧急暂停 Bing 集成,下线搜索功能
- 这些让人惊呼好用的神器背后,原来都是ChatGPT
- ChatGPT类产品不是法外之地!拜登政府:将打击有害AI商业行为
- 角逐国内金融GPT:大模型如何重新定义金融科技
- 颠覆历史!「ChatGPT搜索引擎」发布,微软市值一夜飙涨5450亿
- centos8下搭建chatgpt本地环境集成到微信中,接入个人微信操作过程报错故障处理【后续更新附加】
- GPT-4将在下周发布,必应日活破亿,谷歌还有招架之力吗?
- 狂飙的ChatGPT,为什么是OpenAI最先做出来?
- 马斯克“忌惮”的 ChatGPT,让人类更聪明还是更愚蠢?
- 他做了一个「ChatGPT 杀手」,a16z 抢着投
- 苹果禁用ChatGPT,为防机密泄露!大模型版Siri即将升级推出
- 我的微信
- 这是我的微信扫一扫
- 我的电报
- 这是我的电报扫一扫