新物网

当前位置:首页 > 科技

科技

AI PC热潮再现CES2020,行业解决方案实施路线

时间:2024-01-17 19:03:04
上出现了不少硬件加速方案,但软件的发展明显落后。由于算力消耗巨大,直到今天还没有哪个云端大模型能够盈利。多名终端行业人士坦言,行业还在探索未来应用。求解未来落地路线,除了芯片硬件还需要优化算力,软件上也要不断探索模型的压缩和量化以及推理算法的改进,使得同样效果条件下的算力需求降低。

AI PC热潮再现CES2020,行业解决方案实施路线

在过去的一年里,我们见证了生成式人工智能的爆炸式增长。 现在你可以花费近百亿元在云端创建一个拥有数万亿参数的模型,你如何让无数消费者使用它? 作为全球最大的科技硬件博览会,塞进大模型的终端设备成为今年CES的一大亮点。

1. AI PC热潮

生成式人工智能(AI)在个人电脑(PC)领域的应用已成为新一轮竞争,芯片领域的竞争也愈演愈烈。 英伟达AMD、英特尔和高通都在本次博览会上展示了他们在集成人工智能技术方面的最新进展,这些技术旨在提高个人计算机的性能和用户体验,特别是在生成式人工智能方面。

与往常一样, 为游戏玩家发布了 40 系列显卡的 Super 版本和 AI 工具包。 声称,在 AI 工作负载方面,新发布的 RTX 4080 SUPER 生成视频的速度比 RTX 3080 Ti 快 1.5 倍以上,生成图像的速度比 RTX 3080 Ti 快 1.7 倍以上。

AI功能也成为高通新款PC处理器 X Elite的最大卖点。 该芯片旨在处理人工智能任务,例如总结电子邮件、撰写文本和生成图像。 这标志着高通在AI融合计算技术上迈出了一大步,也预示着AI技术在未来个人电脑和笔记本电脑中的广泛应用。

AMD推出了RX 7600 XT显卡和Ryzen 8000G系列桌面处理器,这是首款在x86桌面处理器中集成AI神经处理单元(NPU)的产品。 该技术使AMD处理器能够更高效地处理AI任务,提高各种应用程序的性能。

此前,英特尔曾于2023年12月发布了集成NPU的新品“Core Ultra”,瞄准AI PC市场。 得益于能够处理大型AI模型的M3系列芯片,苹果推出的Mac系列PC已经具备了AI PC功能。

除了芯片方案外,本次展会上一款名为R1的硬件设备因其独特的实现方式也引起了广泛关注。 R1可以根据用户语音指令自动操作 Play、Uber等应用程序,从而无缝完成音乐播放、聊天、叫车、叫外卖、购物等日常任务。

这也是迄今为止对未来“手机”最清晰的愿景。 它不显示应用程序,也不连接到应用程序 API。 你只需要“按下并说话”即可与其交互——基于“大模型”(Large Model)的操作系统在操作系统理解命令后会自动触发常用命令。 网页、应用程序,完成工作。

R1综合使用了语音识别模型、Large Model (大型语言模型代理)和语音合成模型。 这种多模型融合的方式让R1更加智能,为用户提供更丰富的功能体验。

2. 超级AI应用的优化策略

虽然R1更像是传统的文本转语音(ASR)+LLM代理(Agent)的硬件实现演示,但它很可能在未来几个月内迅速被功能更强大的苹果手机覆盖。 然而,多模型集成的实施反映了一个趋势:如果想给最终用户带来变革性的体验,仅仅依靠单一模型是不够的。 未来,用户将更倾向于使用集成多个AI模型的设备来完成完整的功能,而不是依赖单一模型。

例如,在个人计算机上运行单个LLaMA语言模型并不能完全体现本地运行LLaMA模型相对于其他需要联网的服务的优势。 虽然单个LLaMA模型在语言处理方面表现良好,但缺乏与其他AI模型结合使用的复杂功能,难以提供全面的AI体验。

最近推出的超级AI应用也体现了类似的思路。 通过将多种流行的尖端人工智能模型组合成更强大的超级应用程序,用户可以在本地 和 Apple GPU 上使用 SDXL、SDXL、SDXL LCM、SD LCM、SAM、MI-GAN 等。 创建尖端模型,例如 GAN。

这些功能范围从生成详细提示到创建全高清图像,并包括精确编辑和消除杂乱等高级功能,同时以最低的硬件要求体验顶级性能。

与 、 、 AI 和 DALL-E 的功能比较 3.

实时创建案例

手动从生成的图像中删除文本

自动检测已删除的对象

自动对象检测和编辑

然而,将任意图像放大4倍,让多个AI模型协同工作,对AI系统设计提出了更高的要求。 在AI PC硬件环境中,资源比数据中心更加有限。 例如,即使是顶级的RTX显卡也只有24GB显存,远远小于数据中心服务器的GPU。 因此,针对这种硬件资源限制来优化模型就显得尤为重要。 支持所有SOTA机型的最低硬件要求只是一块1000元的低端RTX 3060显卡。

同时,不同AI模型之间的切换速度对用户体验有着至关重要的影响。 快速、无缝的模型切换是确保良好用户体验的关键,尤其是在处理复杂任务或多任务处理时。 在设计AI PC系统时,开发者必须考虑如何在有限的硬件资源下实现高效的模型优化和快速的模型切换,以提供流畅高效的用户体验。

在推理引擎架构的支持下,它将 SDXL 处理加速到惊人的速度,超越了其他专用加速包。 每个模型都可以直接在 Apple 或 GPU 上运行。 对于用户而言,一体化的超级应用程序比单模型应用程序更有价值,特别是当其本地 GPU 的运行速度比大多数数据中心 GPU 更快时。

闪电般的速度

当今的生成式人工智能应用不仅需要速度,还需要智能模型优化和高效计算来提供突破性的体验。 副总裁 Ian Buck 表示,未来的方法将增强核心 GPU 的功能,同时保持最小的占用空间,从而有助于将下一代生成式 AI 应用程序推向市场,无论用户的处理能力如何。

该软件架构使用与他们为数据中心 GPU 推理设计的相同的多层模型缓存系统,使其甚至可以在内存较少的设备上运行。

但目前对硬件进行极致优化、将多种AI模型组合成更强大应用的案例相对较少。 今年的CES上出现了很多硬件加速解决方案,但软件的发展明显滞后。 新的GPU和AI专用芯片性能有所提升,但其基本工作原理和应用场景没有改变。 游戏显卡已经广泛用于人工智能模型的训练和执行,这一点在本次展会上并没有太大变化。 比如推出的-LLM和Case版本,除了执行速度更快之外,本质上和运行WebUI是一样的。

让用户在 RTX 3090 上运行后端、在 iPad 上运行 UI、使用 Apple 进行创作,只是迈向未来的第一步。 希望未来用户能够更加自由地处理语音、视频、语言、图像以及每一项人工智能服务,而不依赖于任何单一的集中式在线服务。

成立于2023年1月,旨在以更务实的方式解决GPU AI计算问题,让生成式AI无处不在。 公司的创始团队来自Meta,包括两位华人Bing Xu和Hao Lu。 该公司联合创始人兼CEO徐冰在创业前主导开发了Meta内部的开源框架,使GPU效率提升了8倍。 在加入 Meta 之前,他曾在 (MLops) 和 Apple 从事训练效率解决方案的研发工作。

3.解决问题并实施

由于计算能力的巨大消耗,直到今天还没有大型云模型能够盈利。 业内人士认为,未来应该是客户端和云端分工的模式,而AI PC的逻辑是通过让用户在终端进行更多的处理来大幅降低云计算成本。 同时,大型网络模型知道用户的所有隐私(如电话号码、护照、身份证、电话号码、地址等)是非常可怕的。 未来,在云端训练的AI模型也应该被允许在PC上运行,分析个人环境中输入的数据并提供定制服务,同时保证个人隐私和安全。

尽管今年的CES不断取得进展,但AIPC领域仍处于起步阶段,并没有太多惊喜。 多位终端行业人士坦言,行业仍在探索未来的应用。 要想弄清楚未来的实现路线,除了芯片硬件之外,还需要优化算力。 软件还必须不断探索模型压缩和量化以及推理算法的改进,以便在相同效果条件下降低计算能力要求。

如果未来越来越多的大型模型被集成到超级应用中,应用变得越来越复杂,这些将对专注于生成AI的硬件设备(例如RI)带来更大的挑战。 相信软硬件模型的一体化设计将成为提升用户体验的关键因素。

参考链接:

本文来自微信公众号,作者:SIA,36氪经授权发布。