使用 AWS Trainium 解锁日本语言模型:来自 AWS LLM 开发支持计划的创新展示 机器
利用 AWS Trainium 解锁日本大型语言模型:AWS LLM 开发支持项目的创新者展示
by Yoshitaka Haribara 和 Shruti Koparkar 发表于 2024年7月31日 目录:人工智能、客户赋能、客户解决方案、生成式人工智能永久链接 评论 分享
加速器网页版Amazon Web ServicesAWS 致力于支持全球公司和组织开发尖端生成式人工智能AI技术。作为这项承诺的一部分,AWS 日本宣布了 AWS LLM 开发支持项目LLM 程序,我们有幸与日本一些最具创新性的团队并肩合作。从初创企业到全球企业,这些先锋机构正在利用大型语言模型LLMs和基础模型FMs提升生产力、创造独特的客户体验,并在各个行业中推动有意义的进展,借助 AWS 上专门构建的生成式 AI 基础设施。值得注意的是,15 家成功参与该项目的组织中,有 12 家使用了强大的计算能力来自 AWS Trainium 来训练她们的模型,并且现在正在探索 AWS Inferentia 进行推理。在项目结束时,LLM 程序举行了一次媒体发布会,多家领先公司展示了她们的成果与故事。在这篇博客中,我们将回顾这些成果,并介绍参与组织如何利用 LLM 程序加速其生成式 AI 计划。
关键要点
在本篇文章中,您将了解到:
AWS LLM 开发支持项目为 diverse 的公司提供全面支持,助她们在行业中取得进展。Ricoh 通过课程学习开发双语 LLM,提高了日本 LLM 的竞争力。Stockmark 通过预训练日本 LLM 解决模型的“幻觉”问题,确保其在工业应用中的可靠性。NTT 开发轻量高效的 LLM,以满足可持续 AI 的需求。AWS LLM 开发支持项目概述
自项目启动以来,LLM 程序吸引了 15 家多元化的公司与组织,它们在各自行业中有着独特的愿景。该项目提供全面支持,包括高性能计算基础设施的获取指导、分布式训练的技术帮助和故障排除、云信用额度以及市场推广支持。该项目还促进了知识共享会议,汇聚领先的 LLM 工程师,讨论他们工作的技术复杂性和商业考量。这种整体方法使参与组织能够快速提升其生成式 AI 能力,并将变革性的解决方案推向市场。

让我们深入探讨这些组织如何在 AWS 上实现生成式 AI 的新可能性。
Ricoh 利用课程学习开发双语 LLM
Ricoh 认识到日本 LLM 的发展落后于英语或多语言 LLM。为了应对这一问题,该公司的数字技术开发中心通过精心设计的课程学习战略开发了一种日英双语 LLM。
Takeshi Suzuki,数字技术开发中心副主任,解释了 Ricoh 的方法:
“虽然针对基础模型和大型语言模型的新模型架构迅速出现,但我们专注于改进训练方法,以创造竞争优势,而不是单纯追求架构的新颖性。”
这促使他们采用了一种课程学习的方法,逐步向模型引入越来越复杂的数据。
“如果一开始就大量引入困难的日语数据,会导致学习中的遗忘效应,从而影响学习。” Suzuki 说:“因此,我们从大量的英语数据开始,逐步加入低质量的英语和日语数据,最后在高质量的日语内容上进行微调。”
为了使这种创新的课程学习方法得以实现,Ricoh 使用了 Amazon Elastic Compute Cloud (Amazon EC2) 的 Trn1 实例,借助 Trainium 的支持。通过使用一个由 64 个 trn132xlarge 实例1024 个 Trainium 芯片组成的按需集群,Ricoh 针对她们的 130 亿参数的双语 LLM基于 Llama2进行了大规模分布式训练。在使用日本 llmjpeval 进行基准测试时,该模型展示出在工业应用中至关重要的强逻辑推理能力。
Stockmark 通过预训练日语 LLM 缓解幻觉问题
Stockmark 希望构建高度可靠的 LLM 以满足工业应用的需求,决定预训练一种日语 LLM,从而解决生成内容中出现“幻觉”事实不准确输出的问题,这在许多实际用例中都是一个关键关注点。
“在工业领域,对于 LLM 存在的幻觉问题的抑制需求甚至超过了 ChatGPT。” Kosuke Arima,Stockmark 首席技术官兼联合创始人。
幻觉的抑制在很大程度上依赖于 LLM 的知识量。多语言 LLM,广泛用于全球,仅包含约 01 的日语训练数据。Stockmark 认为,单靠检索增强生成不足以满足企业搜索或应用搜索的需求,因为使用的 LLM 在日语方面并不精通。因此,他们决定在内部开发日本 LLM。
“为了支持实际的商业用例,我们从零开始预训练了一个 130 亿参数的 LLM,使用了总共 2200 亿个日语文本数据的标记,包括公共数据、原创网络语料库和商业领域的专利数据。” Dr Takahiro Omi,Stockmark 研究副总裁。
Stockmark 在约 30 天内使用 16 个由 Trainium 芯片提供支持的 Trn1 实例迅速开发了 Stockmark13b LLM。此外,为了将开发的 Stockmark13b 部署到他们自己的服务中,他们使用 AWS Inferentia2 芯片进行了推理的技术验证,并在一个 notebook 上发布。
NTT 与其他企业一起构建轻量且高效的 LLM
NTT 集团与英特尔和索尼一起,建立了创新光无线网络IOWN作为新的行业论坛,使命是通过创新和可持续技术满足社会及技术需求。作为这一努力的一部分,NTT 人类信息学实验室正在开发一种轻量、高性能的 LLM tsuzumi以传统的日本打击乐器命名。tsuzumi 通过提高日语训练数据的质量和数量,而不是简单增加参数的大小,来增强日语处理能力。正如 他们的新闻稿 所描述的,tsuzumi 在 Rakuda 基准 的评估中展示出了高水平的日语能力,并具备目前正在开发的多模态能力。
“tsuzumi 的高日语能力和多模态能力可以为多种特定行业和客户支持用例带来好处。在医疗和生命科学领域,tsuzumi 可以帮助解析电子病历,助力个性化医疗和加速药物发现。”他解释道:“对于呼叫中心,tsuzumi 的多模态能力,例如对手册和图表的视觉理解,有望提升客户体验和员工体验。” Dr Kyosuke Nishida,NTT 人类信息学实验室高级特别研究员。
通过参与 LLM 项目,NTT 能够快速启动由 96 个 NVIDIA H100 GPU 组成的集群12 个使用 AWS ParallelCluster 的 EC2 P5 实例。这实现了通过弹性细胞适配器高达 3200 Gbps 的节点间通信,极大地提高了分布式训练的效率。AWS 团队还提供了技术专长,帮助 NTT 无缝地迁移和验证其在 AWS 上的环境。
客户在特定领域、多语言和多模态生成 AI 的创新
从能够进行机智对话的智能聊天机器人到用于自动驾驶系统的多模态框架,LLM 程序的参与者展示了利用 Trainium 实现生成式 AI 的变革潜力。
特定领域模型:Trainium 促进了根据特定领域和任务定制 LLM 的创建,打开了效率和专业化的新前沿。KARAKURI 构建了一种 LLM (karakuriai/karakurilm70bchatv01),以创建既流利日语又具有友好答复的客户支持聊天机器人。同时,Watashiha 注入了一些幽默元素,开发了以幽默为重点的基础模型 OGIRI,为用户查询提供令人发笑的响应。Poetics 开发了能够理解在线商务会议细微差别的 LLM,用于会议分析工具 Jamroll。Matsuo Institute 在 elyza/ELYZAjapaneseLlama27b 的基础上,预训练了一种 LLM,以开发一种能够智能策划零售和旅行客户个性化体验的推荐系统。为了解决日益减少的劳动力带来的规模化挑战,Recruit 通过继续预训练使用 C4ja、Wikipediaja、Pile 和内部语料库以及针对性调整使用 databricksdolly15kja、ichikarainstruction 和内部指令数据构建了一种 LLM。
多模态模型:一些参与者如 Sparticle 踏入多模态 AI 的领域,将语言和视觉模态结合在一起。Turing 通过其创新的多模态 Heron 框架,提高了 LLM 解释和导航视觉环境的能力。Preferred NetworksPFN打造了一种通用视觉基础模型,能够无缝整合和处理文本与视觉信息。作为未来工作的组成部分,PFN 将继续基于 PLaMo LLM 开发多模态 FMs,采用 LLM 程序中建立的开发方法。
多语言模型:项目参与者还通过训练数据实验,改变了日语与英语的比例,或使用其他语言的训练语料库。CyberAgent 使用 Trainium 评估当改变训练数据中日语与英语比例时 LLM 的表现,并扩展到分组查询注意GQA和验证架构,如 RetNet 和稀疏专家混合MoE以满足特定用例。使用 Trainium,Rinna 基于旨在融合中英文的 Qwen 模型,创造了 Nekomata 14B,并在短短 65 天内继续用 660 亿个日语数据进行预训练。Ubitus 通过与国立台湾大学的联合研究,开发并发布了台湾 LLM 13B TaiwanLLM13Bv20base。
推动日本生成式 AI 创新
从初创企业到大型企业,各种规模的组织在 LLM 项目中成功训练了她们的生成式 AI 基础模型和大型语言模型。这证明了项目的成功,进一步强调了日本经济产业省METI的参与和支持。几家 LLM 项目的参与者将继续开发她们的 FMs 和 LLMs,作为生成式 AI 加速挑战GENIAC的一部分,AWS 将根据 METI 的公告 提供计算资源,并在 AWS 日本博客中 进行了描述。
AWS 将继续支持公司和组织在这些变革性模型的部署中,并将生成式 AI 创新带入实际应用。我们看到 FMs 和 LLMs 在各行业广泛实施的潜力,可以增强日本的国家优势。从全球的角度看,AWS 致力于推动这些技术在世界范围内的发展和采用,促进创新和进展,以塑造未来。
访问 AWS Trainium 了解如何利用专门构建的 AI 芯片来构建下一代创新基础模型,同时降低成本。
本文章由 AWS LLM 开发支持项目执行委员会的 Yoshitaka Haribara、Akihiro Tsukada、Daishi Okada、Shoko Utsunomiya,以及技术核心团队的 Hiroshi Tokoyo、Keita Watanabe、Masaru Isaka 提供,执行赞助由 Yukiko Sato 代表。
作者简介
Yoshitaka Haribara 是 AWS 日本的高级初创企业机器学习解决方案架构师。在这个角色中,Yoshitaka 帮助初创企业客户在 AWS 上构建生成式 AI 基础模型和大型语言模型,并提出了 LLM 程序的构想。在空闲时间,Yoshitaka 喜欢打鼓。
Shruti Koparkar 是 AWS 的高级产品营销经理。她帮助客户探索、评估和采用适用于其机器学习需求的 Amazon EC2 加速计算基础设施。
加载评论