训练
-
被GPT带飞的In-Context Learning为什么起作用?模型在秘密执行梯度下降
继 BERT 之后,研究者们注意到了大规模预训练模型的潜力,不同的预训练任务、模型架构、训练策略等被提出。但 BERT 类模型通常存在两大缺点:一是过分依赖有标签数据;二是存在过拟…
-
AI 训练加速原理解析与工程实践分享
这次分享将系统性的分析在 AI 模型训练过程中的主要性能瓶颈,以及当前针对这些瓶颈的主要的加速方案和技术原理,并介绍百度智能云在这方面的一些实践成果。 今天的分…
-
PyTorch 并行训练 DistributedDataParallel 完整代码示例
使用大型数据集训练大型深度神经网络 (DNN) 的问题是深度学习领域的主要挑战。 随着 DNN 和数据集规模的增加,训练这些模型的计算和内存需求也会增加。 这使得在计算资源有限的单…
-
使用迁移学习技术训练定制深度学习模型
译者 | 朱先忠 审校 | 孙淑娟 迁移学习是机器学习的一种类型,它是一种应用于已经训练或预训练的神经网络的方法,而且这些预训练的神经元网络是使用数百万个数据点训练出来的。 该技…
-
IBM开发云原生AI超级计算机Vela 可灵活部署并训练数百亿参数模型
ChatGPT红遍网络,其背后的AI模型训练也广受关注。IBM研究部门日前宣布,其开发的云原生超级计算机Vela可以快速部署并用于训练基础AI模型。自2022年5月以来,该公司数十…
-
全面碾压AdamW!谷歌新出优化器内存小、效率高,网友:训练GPT 2果然快
优化器即优化算法,在神经网络训练中起着关键作用。近年来,研究者引入了大量的手工优化器,其中大部分是自适应优化器。Adam 以及 Adafactor 优化器仍然占据训练神经网络的主流…
-
TensorFlow应用技术拓展—图像分类
1.科研平台环境部署操作拓展 针对于机器学习中的模型训练,本人推荐大家多学习TensorFlow官方的课程或资源,比如中国大学MOOC上的两门课程《 TensorFlow 入门…
-
为NLP选择正确的语言模型
译者 | 崔皓 审校 | 孙淑娟 一、开篇 大型语言模型(LLMs)是为产生文本而训练的深度学习模型。凭借令人印象深刻的能力,LLMs已经成为现代自然语言处理(NLP)的佼佼者。传…
-
算力就这么点,如何提升语言模型性能?谷歌想了个新点子
近年来,语言模型(LM)在自然语言处理(NLP)研究中变得更加突出,在实践中也越来越有影响力。一般来说,扩大模型的规模已被证明可以提升在一系列NLP任务中的性能。 不过,扩大模型规…
-
如何解决混合精度训练大模型的局限性问题
混合精度已经成为训练大型深度学习模型的必要条件,但也带来了许多挑战。将模型参数和梯度转换为较低精度数据类型(如FP16)可以加快训练速度,但也会带来数值稳定性的问题。使用进行FP1…
-
我把ChatGPT拉到微信群里来了,都可以对AI提问了!
一、前言:用的很爽! 自从小傅哥用上 ChatGPT 连搜索引擎用的都不多了,很多问题的检索我第一时间都会想到去 ChatGPT 提问试试。它的回答既非常准确又没有一堆广告,对于…
-
还不如GAN!谷歌、DeepMind等发文:扩散模型直接从训练集里「抄」
去年,图像生成模型大火,在一场大众艺术狂欢后,接踵而来的还有版权问题。 类似DALL-E 2, Imagen和Stable Diffusion等深度学习模型的训练都是在上亿的数据上…