微软、OpenAI 和 Cohere 等公司已转向使用合成数据训练人工智能模型

AI资讯分享3年前发布 AI发条

564 0

AI发条(aifatiao.com) 7月20日消息:人工智能公司 Cohere 的首席执行官 Aiden Gomez 表示，合成数据已经被用来训练人工智能模型。由于 Reddit 和 Twitter 等公司对于其他公司抓取其数据收费高昂，微软、OpenAI 和 Cohere 等 AI 公司正在转向合成数据。

微软、OpenAI 和 Cohere 等公司已转向使用合成数据训练人工智能模型

Gomez 透露，合成数据的使用已经非常广泛，但并未广泛宣传。举例来说，如果他们想要训练一个高级数学模型，他们可以设置两个人工智能模型扮演老师和学生的角色，在其中讨论三角学等主题，然后观察的人会在必要时纠正对话。

虽然合成数据已经被用于训练模型，并成为几篇研究论文的重点，但模型主要的训练方式是从互联网上获取数据，包括数字图书、新闻文章、博客、社交媒体、Flickr 等。然后，人类通过强化学习反馈（RLHF）给出反馈并填补信息中的空白。

这种方法存在的一些问题包括可能导致侵犯版权和违反隐私，从而使公司陷入麻烦。Meta 已经停止披露用于训练巨型生成式 AI 模型 Llama 2 的数据来源。

Financial Times 指出，微软研究的一篇有趣的研究论文名为「教科书就是你所需要的」，它解释了通过用教科书质量的数据训练一个编码模型，该模型在编码任务上表现得相当好。类似的方法也可以用于语言，其中一个模型被训练用简单的单词和句子，然后可以产生流畅和语法正确的故事。

当然，虽然使用合成数据来训练模型可能会取得突破，但公司也必须小心不要使用质量较差的合成数据，否则可能会导致随着时间的推移性能下降。

再加上 OpenAI 和 Anthropic 等公司正在开发的用于减少人工智能幻觉的 chain-of-thought techniques，合成数据可能会帮助人工智能帮助我们解决更多挑战。

（本文转载自站长之家）

AI资讯分享 # 人工智能 # 大数据 # 微软 OpenAI Cohere AI头条 # 科技新闻

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

OpenAI 宣布将把 ChatGPT Plus 用户 GPT-4 对话数量增加一倍至每 3 小时 50 条

OpenAI 宣布将把 ChatGPT Plus 用户 GPT-4 对话数量增加一倍至每 3 小时 50 条

AI资讯分享 # ChatGPTPlus OpenAI GPT-4 # OpenAI # 人工智能

3年前

06370

什么是图神经网络（Graph Neural Networks, GNNs） – AI百科知识

什么是图神经网络（Graph Neural Networks, GNNs） – AI百科知识

AI是什么？# AI # 人工智能 # 神经网络

3周前

0240

当贝 Air 1 新品耳机正式上线｜打造行业标杆级AI智能耳夹耳机

当贝 Air 1 新品耳机正式上线｜打造行业标杆级AI智能耳夹耳机

AI资讯分享 # 健康智能耳机抗菌防护耳机 AI交互耳机声学优化耳机当贝AI耳机开放式耳机体验 # 医疗 # 手机

1个月前

0310

什么是Q-learning – AI百科知识

什么是Q-learning – AI百科知识

AI是什么？# AI # 人工智能 # 深度学习

3周前

0250

暂无评论

none

暂无评论...