训练

被GPT带飞的In-Context Learning为什么起作用？模型在秘密执行梯度下降

继 BERT 之后，研究者们注意到了大规模预训练模型的潜力，不同的预训练任务、模型架构、训练策略等被提出。但 BERT 类模型通常存在两大缺点：一是过分依赖有标签数据；二是存在过拟…

7336
2023年7月16日 • 人工智能
000
AI 训练加速原理解析与工程实践分享

这次分享将系统性的分析在 AI 模型训练过程中的主要性能瓶颈，以及当前针对这些瓶颈的主要的加速方案和技术原理，并介绍百度智能云在这方面的一些实践成果。今天的分…

TKX
2023年7月16日 • 人工智能
000
人工智能

PyTorch 并行训练 DistributedDataParallel 完整代码示例

使用大型数据集训练大型深度神经网络 (DNN) 的问题是深度学习领域的主要挑战。随着 DNN 和数据集规模的增加，训练这些模型的计算和内存需求也会增加。这使得在计算资源有限的单…

2502
2023年7月16日
000
使用迁移学习技术训练定制深度学习模型

译者 | 朱先忠审校 | 孙淑娟迁移学习是机器学习的一种类型，它是一种应用于已经训练或预训练的神经网络的方法，而且这些预训练的神经元网络是使用数百万个数据点训练出来的。该技…

9715
2023年7月16日 • 人工智能
000
人工智能

IBM开发云原生AI超级计算机Vela 可灵活部署并训练数百亿参数模型

ChatGPT红遍网络，其背后的AI模型训练也广受关注。IBM研究部门日前宣布，其开发的云原生超级计算机Vela可以快速部署并用于训练基础AI模型。自2022年5月以来，该公司数十…

7360
2023年7月16日
000
全面碾压AdamW！谷歌新出优化器内存小、效率高，网友：训练GPT 2果然快

优化器即优化算法，在神经网络训练中起着关键作用。近年来，研究者引入了大量的手工优化器，其中大部分是自适应优化器。Adam 以及 Adafactor 优化器仍然占据训练神经网络的主流…

卡门
2023年7月16日 • 人工智能
000
TensorFlow应用技术拓展—图像分类

1.科研平台环境部署操作拓展针对于机器学习中的模型训练，本人推荐大家多学习TensorFlow官方的课程或资源，比如中国大学MOOC上的两门课程《 TensorFlow 入门…

非白
2023年7月16日 • 人工智能
000
为NLP选择正确的语言模型

译者 | 崔皓审校 | 孙淑娟一、开篇大型语言模型（LLMs）是为产生文本而训练的深度学习模型。凭借令人印象深刻的能力，LLMs已经成为现代自然语言处理（NLP）的佼佼者。传…

恭喜发财
2023年7月16日 • 人工智能
000
算力就这么点，如何提升语言模型性能？谷歌想了个新点子

近年来，语言模型（LM）在自然语言处理（NLP）研究中变得更加突出，在实践中也越来越有影响力。一般来说，扩大模型的规模已被证明可以提升在一系列NLP任务中的性能。不过，扩大模型规…

海云
2023年7月16日 • 人工智能
000
如何解决混合精度训练大模型的局限性问题

混合精度已经成为训练大型深度学习模型的必要条件，但也带来了许多挑战。将模型参数和梯度转换为较低精度数据类型（如FP16）可以加快训练速度，但也会带来数值稳定性的问题。使用进行FP1…

tony
2023年7月16日 • 人工智能
000
我把ChatGPT拉到微信群里来了，都可以对AI提问了！

一、前言：用的很爽！自从小傅哥用上 ChatGPT 连搜索引擎用的都不多了，很多问题的检索我第一时间都会想到去 ChatGPT 提问试试。它的回答既非常准确又没有一堆广告，对于…

6187
2023年7月16日 • 人工智能
000
还不如GAN！谷歌、DeepMind等发文：扩散模型直接从训练集里「抄」

去年，图像生成模型大火，在一场大众艺术狂欢后，接踵而来的还有版权问题。类似DALL-E 2, Imagen和Stable Diffusion等深度学习模型的训练都是在上亿的数据上…

5657
2023年7月16日 • 人工智能
000

4 / 6
1
2
3
4
5
6