模型
-
史上超全Transformer合集!LeCun力推:给60个模型建目录,哪篇论文你错过了?
如果说过去几年是什么在支撑着大规模模型的发展,那一定是Transformer了! 基于Transformer,大量模型在各个领域犹如雨后春笋般不断涌现,每个模型都有不同的架构,不同…
-
AI自动生成prompt媲美人类,网友:工程师刚被聘用,又要淘汰了
现阶段,得益于模型规模的扩大和基于注意力架构的出现,语言模型表现出了前所未有的通用性。这些大型语言模型(LLM,large language models)在各种不同任务中表现出…
-
PyTorch 并行训练 DistributedDataParallel 完整代码示例
使用大型数据集训练大型深度神经网络 (DNN) 的问题是深度学习领域的主要挑战。 随着 DNN 和数据集规模的增加,训练这些模型的计算和内存需求也会增加。 这使得在计算资源有限的单…
-
两种流行AI语言模型ChatGPT与GPT3的深度比较
译者 | 朱先忠 审校 | 孙淑娟 简介 语言模型是自然语言处理(NLP)的重要组成部分,而自然语言处理是人工智能(AI)的一个子领域,专注于使计算机能够理解和生成人类语言。Cha…
-
吞吐提升30倍:CV流水线走向全栈并行化
引言 斯坦福教授、Tcl 语言发明者 John Ousterhout 曾写过一本书《软件设计的哲学》,系统讨论了软件设计的通用原则和方法论,整书的核心观点是:软件设计的核心在于降…
-
使用PyTorch进行知识蒸馏的代码示例
随着机器学习模型的复杂性和能力不断增加。提高大型复杂模型在小数据集性能的一种有效技术是知识蒸馏,它包括训练一个更小、更有效的模型来模仿一个更大的“教师”模型的行为。 在本文中,我们…
-
AIGC大一统模型来了!CV界泰斗黄煦涛创立团队提出「全能Diffusion」
Diffusion模型的最新进展在许多生成任务中树立了一个令人印象深刻的里程碑。诸如DALL·E 2、Imagen和Stable Diffusion(SD)等引人瞩目的工作,引起了…
-
IBM开发云原生AI超级计算机Vela 可灵活部署并训练数百亿参数模型
ChatGPT红遍网络,其背后的AI模型训练也广受关注。IBM研究部门日前宣布,其开发的云原生超级计算机Vela可以快速部署并用于训练基础AI模型。自2022年5月以来,该公司数十…
-
只需3个样本一句话,AI就能定制照片级图像,谷歌在玩一种很新的扩散模型
近来,文本到图像模型成为一个热门的研究方向,无论是自然景观大片,还是新奇的场景图像,都可能使用简单的文本描述自动生成的。 其中,渲染天马行空的的想象场景是一项具有挑战性的任务,需要…
-
参数少量提升,性能指数爆发!谷歌:大语言模型暗藏「神秘技能」
由于可以做一些没训练过的事情,大型语言模型似乎具有某种魔力,也因此成为了媒体和研究员炒作和关注的焦点。 当扩展大型语言模型时,偶尔会出现一些较小模型没有的新能力,这种类似于「创造力…
-
ChatGPT封杀潮,禁入学校,AI顶会特意改规则,LeCun:要不咱把小模型也禁了?
要问近段时间 AI 界最出圈的模型是哪个,十人中得有九个人会投 ChatGPT 一票,没办法,这个模型实在是太火,只因它会的东西太多了。很多人形容它是一个真正的「六边形战士」:不仅…
-
北大河图发布分布式训练神器Galvatron, 一键实现大模型高效自动并行
最近一段时间,「大模型」在 AI 领域的各种应用场景都大放异彩,其中基于 Transformer 的大规模预训练模型是最典型的大模型之一,已经成为了当前基础模型(Foundatio…