苹果发布开源AI模型,支持设备端运行
时间:2024-04-25 15:01:01 小新新
苹果今日发布了多个开源的大型语言模型(LLMs),旨在支持设备端而非通过云服务器运行。这些被称为OpenELM(开源高效语言模型)的LLMs可在Hugging
苹果今日发布了多个开源的大型语言模型(LLMs),旨在支持设备端而非通过云服务器运行。这些被称为OpenELM(开源高效语言模型)的LLMs可在Hugging Face Hub上获取,这是一个用于分享AI代码的社区。
根据一份白皮书的概述,OpenELM共有八个模型,其中四个是使用CoreNet库预训练的,另外四个是指导调整模型。苹果采用了一种层次缩放策略,旨在提高准确性和效率。
苹果提供了代码、训练日志和多个版本,而非仅仅是最终训练好的模型,该项目的研究人员希望这将导致自然语言AI领域的更快进展和“更可信赖的结果”。
OpenELM是一款最先进的开源语言模型。OpenELM采用了一种层次缩放策略,以在Transformer模型的每个层中高效分配参数,从而提高准确性。例如,在约十亿参数的预算下,OpenELM相比OLMo的准确性提高了2.36%,同时需要的预训练令牌减少了一半。
与之前仅提供模型权重和推理代码、并在私有数据集上进行预训练的做法不同,我们的发布包括了在公开可用数据集上训练和评估语言模型的完整框架,包括训练日志、多个检查点和预训练配置。
苹果表示,发布OpenELM模型是为了“赋予和丰富开放研究社区”最先进的语言模型。分享开源模型使研究人员能够调查风险、数据和模型偏见。开发人员和公司可以直接使用这些模型或进行修改。
信息的公开共享已成为苹果吸引顶尖工程师、科学家和专家的重要工具,因为它为研究论文提供了机会,而这些论文通常无法在苹果的保密政策下发表。
尽管苹果尚未将这些AI功能引入其设备,但预计iOS 18将包含许多新的AI功能,并有传言称苹果计划为了隐私目的在设备端运行其大型语言模型。