张一鸣的道路对于OpenAI来说可行吗?
张一鸣的道路对于OpenAI来说可行吗?
与《纽约时报》的恩怨变得越来越有趣。
当地时间1月9日,他终于打破近两周的沉默,公开发表长文回应《纽约时报》的指控。 去年12月27日,《纽约时报》在美国起诉该制造商及其合作伙伴微软,指控后者未经许可使用数百万篇文章来训练AI。
此次回应并非平淡无奇的公关说辞,而是尖锐指出《纽约时报》没有讲述完整的故事,涉嫌故意操纵回答结果。 整个诉讼毫无根据。
一边是代表新技术的《纽约时报》,一边是代表旧新闻机构的《纽约时报》。 两人之间的诉讼,原本是一件注定要被写入科技史的事件。 如今,这种颇为“不负责任”的回应,更是给事件火上浇油。
回过头来看,无论是广播、电视还是互联网,新媒体的出现都会与内容版权持有者产生利益冲突,其中新闻业最为激烈。
整整10年前,在中国,崛起的今日头条也被广州日报告上法庭。 随后,多家新闻机构和门户网站纷纷效仿,攻击该公司的势头十分强劲。 事件双方的矛盾,与今天AI与新闻媒体之间的矛盾如出一辙。
这场纠纷最终以今日头条大力购买版权而得到解决。 “合作”是张一鸣走的路。 两年后,今日头条覆盖3700多家媒体,每年对版权购买者的投入超过15亿元。
无独有偶,时至今日,“合作”的旗帜依然高举。 除了对《纽约时报》毫不客气的回应外,他还强调了“退出性”原则以及与新闻机构合作的强烈意愿。
但这一次,《纽约时报》只会更加谨慎——直到现在,社交媒体等社交媒体、谷歌等搜索引擎以及新闻行业仍然没有达成一致。 新闻行业希望从平台获得更多收入,但平台却不愿意与之合作。
《纽约时报》或许不会轻易吃下合作的蛋糕。
和纽约时报,都握紧了拳头。
自2022年底推出以来,它一直受到版权诉讼。 去年9月,十多名作家对微软提起诉讼。 几个月后,即12月,11名美国作家在纽约曼哈顿联邦法院起诉微软。
但《纽约时报》的抱怨分量毕竟不同。 首先,《纽约时报》本身就是西方最主流、最大的老牌媒体之一。 其次,对《纽约时报》的起诉十分激烈。
为了起诉,《纽约时报》向法院提交了2.2万页的附件和诉状,其中包括多达100个侵权关键证据,显示输出内容与《纽约时报》高度相似。
在一个典型的证据中,GPT-4的输出在左边,纽约时报的原文在右边。 重叠的文字显示为红色,这与中国互联网上每次“锤击”抄袭时所使用的“调子”非常相似。 色盘”技能。
投诉称,仅《纽约时报》的文章就构成了用于训练 GPT 爬行的最大单一专有数据集(该基金会已将几乎整个网络存档了 16 年)。 《纽约时报》要求微软和微软销毁含有侵权材料的模型和训练数据。 它没有提出具体的赔偿金额,但表示被告应承担“与非法复制和使用《纽约时报》独特有价值的作品相关的数十亿美元的法定损害赔偿”。 和实际损失”。
此外,《纽约时报》还指出,由于人工智能的“错觉”,一些假新闻和谣言有时会被“散布”,并说是来自《纽约时报》,对其声誉造成损害。
《纽约时报》早有准备,出击狠狠。 它还在上诉当天高调发布了一份报告,令其措手不及。 随后他表示,12月份他就一直在与公司讨论关于版权问题的合作计划,但没想到对方转手,简直就是打脸。
当他再次表明立场时,他毫不客气地发了一篇长文,抛出了四个要点:一、愿意与新闻机构合作,创造新的机会;二、愿意与新闻机构合作,创造新的机会。 2、利用公共互联网资料训练AI模型是合理的,但仍提供退出机制; 3. 反驳事实确实是一种罕见的错误,正在努力将其减少到零; 4、《纽约时报》没有讲述完整的故事,其诉讼毫无根据。
里面提到的“反刍”,是指AI将训练材料原封不动地“吐出来”。 正如《纽约时报》所列,AI的回答几乎与《纽约时报》的文章一字不差。 《纽约时报》的立场是,“沉思”现象确实存在,但其程度已降低到很低的水平。 《纽约时报》一下子列举了数百个“沉思”的例子,非常可疑。
因此有人怀疑:“有趣的是,《纽约时报》提到的反刍似乎来自多年前在多个第三方网站上广泛流传的文章。他们似乎故意操纵提示,通常包括冗长的文章摘录,为了让我们的模型进行反思。即使有这样的提示,我们的模型通常也达不到《纽约时报》所建议的那么好,这表明他们要么指示模型进行反思,要么从多次尝试中挑选示例。”
总而言之,就是:你是说我的孩子偷了东西吗? 我想你把它放在你孩子的手里,然后装裱起来,对吗?
此外,回应中还有两点值得深思。
首先,强调了“选择退出”机制,并指出《纽约时报》早在去年8月就采取了推出程序。 事实上,包括《纽约时报》、路透社、CNN在内的许多主流新闻媒体从去年开始就屏蔽了网络爬虫,以限制它们继续获取这些媒体的内容。
其次,“杀人”否定了媒体在训练中的重要性:“因为模型是从人类庞大的知识集合中学习的,任何一个部门(包括新闻)都只是整体训练数据的一小部分数据,任何单一数据源(包括纽约时报)对于模型的预期学习并不重要。”
连续三遍否认“我不是,我没有,别胡说八道”,正适合你呢。
既然AI已经是未来趋势,都有合作意愿,为什么《纽约时报》还要开战呢?
“30%的人工智能来自新闻业。让我们不要再犯同样的错误,再次免费奉献一切。” “我们的内容正在被盗,我们必须说:这次不会。” 《媒体创新2023世界报告》写道。
“不要犯同样的错误。” 首席执行官山姆·奥尔特曼(Sam )坐在美国国会听证室时也听到了类似的话。 当时,国会议员多次表示遗憾,称不能重蹈社交媒体时代的覆辙。 在社交媒体时代,监管远远落后于技术的发展。 当扎克伯格2018年首次就“剑桥丑闻”坐上国会听证室时,距离该事件推出已经过去了14年。
从某种角度来说,你确实是站在巨人的肩膀上——有前车之鉴,一旦你出名了,就会立即引起四面八方的警惕。
《纽约时报》不想犯同样的错误。 在搜索引擎、社交媒体成为流量入口的时代,传统媒体转型举步维艰。 他们曾经与大型科技平台达成“合作”,但后来觉得不“值得”。
我们很早就和传统媒体合作,《纽约时报》也是最早入驻的媒体之一。当时的合作模式是利润分成,分发是在平台上完成的。 但随着母公司谷歌在 2018 年占据美国数字广告收入的 60%,媒体组织开始感觉自己失去了太多而获得的却太少。
2019年,《纽约时报》报道称,美国新闻行业年度数字广告收入为51亿美元,而谷歌提供聚合新闻服务的数字广告收入为47亿美元。
新闻出版商在多个国家和地区争取更多利益。 2020年,澳大利亚政府成为第一个要求谷歌为新闻内容付费的国家。 2023年,加拿大也通过了《在线新闻法案》,谷歌随后与当局达成协议,同意向加拿大新闻出版商支付7400万美元。 然而,制造商Meta拒绝妥协,干脆不屏蔽加拿大的新闻内容。 美国《新闻竞争与保护法案》也在国会提出,但未能获得投票。
撰写《媒体创新2023世界报告》的创新媒体咨询集团创始人胡安·萨诺在演讲中直言:“我们不能在别人的平台上建立自己的业务,无论是谷歌还是谷歌,大型科技公司都做不到”不关心我们的利益。” “他们有自己的利益,凭什么要求他们照顾我们的利益?形式主义盛行,但收入太少了。”
要知道,《纽约时报》本身就是印刷媒体衰落中重生的一个例子。 2008年次贷危机后,它曾抵押总部大楼借钱,甚至多方试图收购。 通过积极的数字化转型和付费订阅模式的推出,《纽约时报》最终扭亏为盈。 2022年,《纽约时报》60%以上的收入将来自付费订阅。
由此,就不难理解《纽约时报》“拼死一战”的态度从何而来:“合作”说起来容易,但如何合作才能保证《纽约时报》的原有利益? “时代”不被侵犯,新的利益不被侵犯。 商机会不会被夺走? 问题很多,答案却很少。
“利用《纽约时报》在报道上的巨额投入,搭上了新闻业的便车。” 《纽约时报》的不满不仅仅来自“新生”。
对于我来说,这注定是一场硬仗。
除了多点爆发的版权纠纷之外,欧洲去年6月投票通过了《人工智能法案》草案。 根据该法案,制造商和其他公司必须披露训练模型中使用的受版权保护的数据列表。
尽管声明强调《纽约时报》“并不重要”,但版权内容对于大型模型训练来说仍然非常重要。
在前不久提交给英国上议院通信和数字事务特别委员会的大型语言模型调查文件中,承认像这样的AI工具的开发离不开受版权保护的材料,并表示如果没有这些材料, GPT 根本不可能。 Cant Be Born:“由于版权目前涵盖了几乎所有人类表达形式,包括博客文章、照片、论坛帖子、软件代码片段和政府文件,因此如果不使用受版权保护的内容,就不可能训练当今领先的人工智能楷模。”
在与《纽约时报》交流的同时,也在积极推动与新闻界的“合作”,并取得了一些成果。
去年12月,在《纽约时报》提起诉讼前不久,它与德国新闻出版巨头阿克塞尔·施普林格(Axel)达成合作。 施普林格是欧洲最大的数字出版公司,拥有《世界报》、《世界报》等知名新闻品牌。
双方签署了一项多年期协议,向用户提供斯普林格新闻媒体报道的摘录作为回应,包括原始来源和链接,确保新闻网站获得流量。 同时, 内容将用于训练模型。 援引知情人士的话称,这笔交易价值数千亿美元。
这已经是第二次与新闻机构的大规模合作。 同年7月,它与美联社达成了类似协议,但金额未公开。
竞争也将进一步推高新闻采集的成本。 去年12月,有媒体报道称,苹果已与多家主要出版商达成协议,收集他们的新闻内容来训练AI模型。 据报道,苹果已经联系了NBC News、IAC等机构,拟定交易金额至少为5000万美元。
仅仅在“广告份额”上打勾,就吸引了主流媒体纷纷涌入。那个“美好时代”属于社交媒体和搜索引擎。 如今,我们必须制作更大、更美味的蛋糕。
参考
1、36氪:《纽约时报:走出危机重回全球媒体之巅》
2.《周末画报》:“为了拯救新闻业,谷歌同意向加拿大新闻出版商付费”
3、腾讯科技:“将推出新闻标签,并计划斥资数百万美元向媒体购买版权”
4、界面新闻:“我们和一家出版巨头达成了合作,这笔交易能给新闻行业带来变革吗?” 》
5、北京日报:“手机应用‘今日头条’随意抢新闻,陷入侵权漩涡”
本文来自微信公众号,作者:谭小寒,36氪经授权发布。