新物网

当前位置:首页 > 科技

科技

OpenAI 必须向出版商付费。 毕竟,天下没有免费的午餐。

时间:2024-01-10 09:10:35
为了避免第二个、第三个《纽约时报》出现,就只能选择付钱来购买内容。那么问题就来了,每年100万至500万美元的授权费用,出版商为什么会觉得这笔钱很少呢?Chat却是直接在自己的页面中向用户提供内容,这无疑就是对于出版商的釜底抽薪。

OpenAI 必须向出版商付费。 毕竟,天下没有免费的午餐。

此前,去年年底,CEO Sam 在社交平台上公布了 2024 年“愿望清单”,下一代人工智能模型 GPT-5 榜上有名。

此前有传言称GPT-4的参数规模已达到1.5万亿,模型规模是GPT-3的数倍。 因此,可以想象,未来GPT-5的参数规模必然会达到更高的水平。 这意味着训练GPT-5所需的语料也将达到前所未有的水平。

01

为此,我们已经开始为GPT购买新的语料库。

去年12月中旬,它宣布与新闻出版巨头施普林格出版集团(Axel)达成史无前例的协议。 使用 出版物的内容来填写答案并将媒体内容作为其培训数据是值得的。 现任知识产权和内容总监汤姆·鲁宾(Tom Rubin)在接受媒体采访时也证实,正在积极与媒体行业接触。

汤姆·鲁宾表示,“我们正在与很多出版商进行大量的谈判和讨论。他们很积极,非常积极,谈判进行得非常顺利。你们已经看到了我们披露的一些交易,接下来将会有未来还会有更多。”

然而,海外出版商似乎对所提供的价格不太满意。

最近一直在与他们谈判的两家媒体公司高管表示,他们只愿意向一些媒体公司提供每年100万美元至500万美元的授权费。 即使对于小型出版商来说,这个数字也很小,一些人认为这可能会导致达成协议变得困难。

02

他们最近开始积极参与购买版权内容的原因其实很简单,因为版权方已经“瞄准”了他们。 就在去年12月27日,著名的《纽约时报》指责微软未经授权使用其数百万份报告来训练其他人工智能聊天机器人。

《纽约时报》认为,“()正试图搭纽约时报在新闻业巨额投资的便车,在未经许可或付费的情况下利用《纽约时报》的内容创造替代产品。”

为什么会在 2023 年底提出使用未经授权的数据? 答案是,目前互联网上公共数据源的开源语料库无法满足GPT-4对数据或语料库的渴求。

例如,用于训练的45TB数据主要来自Crawl、维基百科和美国专利文献数据库。 其中Crawl是一个开源数据库,可以抓取互联网并提供数据的开源下载。 截至2023年4月,共聚集了31亿个网页、总计400TB的原始数据,其中《纽约时报》的域名最具代表性。 已贡献超过 1600 万条内容的专有来源之一。

不过,Crawl、维基百科、美国专利文献数据库要么是政府机构,要么是非营利组织,所以《纽约时报》不能用版权作为武器,但又不同。 有了Plus,它就已经是一个盈利组织了。 《纽约时报》的底气来自于它仅通过培训就用尽了互联网上几乎所有的英语资源。 GPT-4的训练已经使用了超过13万亿,甚至报纸本身也承认训练GPT-4使用了《纽约时报》的版权内容。

为了避免第二次、第三次《纽约时报》出现,唯一的选择就是付费购买内容。

那么问题来了,每年的授权费在100万美元到500万美元之间,为什么出版商会觉得这笔钱很小呢? 因为从出版商的角度来看,授权相关数据几乎等于“卖掉最后的绞索来上吊”。

03

如果说当年的搜索引擎和出版商是双赢的关系,毕竟前者需要内容来源来满足用户的信息需求,而出版商则需要搜索引擎来引导流量到自己的网站,而搜索引擎只提供介绍和链接。 详细信息 用户需要单击指向内容提供商来源的链接。 但现在,Bing Chat直接在自己的页面上向用户提供内容,这对发布商来说无疑是一种消耗。

也就是说,用户可以直接看到AI整合的新闻,无需再去纽约时报官网查看相关内容。 从长远来看,新闻出版机构存在的意义何在?

而由于AI大模型的发展趋势已经势不可挡,正如新闻出版业被迫与搜索引擎、社交网络谈判一样,以《纽约时报》为代表的新闻出版商选择以自有版权为武器,试图与搜索引擎、社交网络进行谈判。从蓬勃发展的人工智能行业中分一杯羹。

而大张旗鼓地向出版商购买版权,其实是一个阴谋。 现阶段,大规模模型赛道的现状是资金和技术密集型,算力成本极其昂贵,以至于相当多的AI初创企业被迫接受英伟达的投资。算力资源,以获得更便宜的算力。 如果未来数据或者语料也成为大模型行业的成本,无疑会劝退一大批竞争对手,这对于保持竞争力的相对领先地位显然具有重要意义。

然而,训练GPT需要的内容实在太多,即使不缺资金支持,也很难让每个出版商都满意。 这就是目前的困境。 当拥有数据的一方经历了2023年AI大模型领域的爆发式增长后,已经充分认识到自己手中的数据是有价值的。 已经陷入衰退的出版商不可避免地期望从这些人工智能公司中获得更多收益。 。

因此,从某种意义上说,在GPT-5建成、人工智能能够自行生产内容之前,被新闻出版商围猎几乎是不可避免的。

本文来自微信公众号,作者:三一君,36氪授权发布。