百度智能云携手好未来 加快推动大模型落地教育场景
2024-04-29
近两年,人工智能技术深度融入教育领域,服务教育工具升级和创新,助力教育行业高质量发展。
百度智能云联合大模型落地教育场景先行者好未来教育集团(简称“好未来”),运用功能丰富、性能卓越的百度百舸·AI异构计算平台,为好未来自研“九章大模型(MathGPT)”提供关键支撑,推动大模型深入教育场景,助力教育行业智能化转型。
企业自研大模型不仅需要强大的算法、技术团队平台,还需要与之匹配的AI基础设施,包括高性能计算平台、存储系统、网络、调度框架、数据集等。此外,还需要具备成熟的工程化平台能力,能够快速启动整个研发项目、验证基座模型,以便基于底座模型结合应用场景、教研数据、业务反馈快速推动后续迭代,把流程转起来。同时,在大模型训练、推理阶段,企业还需具备处理大规模任务的能力,以现有的基础设施持续提升资源利用率、任务效率,在最短时间内实现自研大模型上线和启用。
对此,好未来与国内AI行业深耕大模型产业方向的第一批实践者百度智能云合作,运用百度百舸·AI异构计算平台,打造高性能的专业AI基础设施,为自研“九章大模型(MathGPT)”提供AI支持,成功解决了大模型应用早期遇到的把流程转起来的问题。
基于百度百舸·AI异构计算平台,好未来可以快速、方便地创建千卡级别的训推任务集群。算力方面,集群以A800、H800作为典型的异构算力,最大可支撑16000 GPU卡的规模;存储方面,集群适用于大规模深度学习训练场景,可提供亚毫秒级(300us)的时延,服务可用性不低于99.95%;此外,集群支持在线弹性扩展,可快速实现容量及吞吐性能的线性增长。在与好未来的合作中,百度百舸·AI异构计算平台能实现单集群总量超过500TB,可为训练任务的模型、数据加载提供高性能的数据读取与传输保障,大大提升任务的时效。
面向不同的大模型训练场景,百度百舸·AI异构计算平台在运行框架和实践中,从计算效能、显存策略、分布式并行策略等方面进行优化,结合高性能网络的特性升级,大幅提升大语言模型的训练性能。LLaMA2系列、GLM系列等多尺寸模型都达到了训练指标,千卡任务加速比保持在90%,模型算力利用率(MFU,即模型一次前反向计算消耗的矩阵算力与机器算力的比值)60%—70%,在有限的算力条件下训练时间大幅降低。AI容器方面,百度百舸·AI异构计算平台可以实现更灵活的策略调度与任务编排,为进一步实现离在线混布、推理训练任务的资源联合调度与分配打下基础。
此外,基于重点训练任务,百度百舸·AI异构计算平台可在训练上游环节提供数据服务的能力支持,能方便、快捷地帮助好未来用户实现海外Hugging Face上的数据转载;在训练过程中,结合训练可视化能力,可通过监测大盘实现资源统计、工作负载等全面指标的汇总与统计;训练下游推理任务也实现了服务能力的封装,帮助好未来用户一站式、快速实现推理任务的部署与启用。
目前,经过百度百舸·AI异构计算平台训练支持的“九章大模型(MathGPT)”已经广泛应用于好未来的智能硬件学而思旗舰学习机及多个业务场景中,为用户提供更智能的体验。
未来,百度智能云将继续携手好未来,运用人工智能大模型的科技力量,服务教育场景与学习方式创新,打造智能化、个性化的教育科技产品与解决方案,为助力教育强国建设贡献力量。
本文出自:《 人民日报 》( 2024年04月29日 第12版)
原文链接:http://paper.people.com.cn/rmrb/html/2024-04/29/nw.D110000renmrb_20240429_3-12.htm