transformer
-
史上超全Transformer合集!LeCun力推:给60个模型建目录,哪篇论文你错过了?
如果说过去几年是什么在支撑着大规模模型的发展,那一定是Transformer了! 基于Transformer,大量模型在各个领域犹如雨后春笋般不断涌现,每个模型都有不同的架构,不同…
-
预训练无需注意力,扩展到4096个token不成问题,与BERT相当
Transformer 作为 NLP 预训练模型架构,能够有效的在大型未标记的数据上进行学习,研究已经证明,Transformer 是自 BERT 以来 NLP 任务的核心架构。 …
-
北大河图发布分布式训练神器Galvatron, 一键实现大模型高效自动并行
最近一段时间,「大模型」在 AI 领域的各种应用场景都大放异彩,其中基于 Transformer 的大规模预训练模型是最典型的大模型之一,已经成为了当前基础模型(Foundatio…
-
视觉大模型训练和推理加速
大家好,我是来自 NVIDIA GPU 计算专家团队的陶砺,很高兴今天有机会在这里跟大家分享一下我和我的同事陈庾,在 Swin Transformer 这个视觉大模的型训练和推理优…
-
清北联合出品!一篇Survey整明白「Transformer+强化学习」的来龙去脉
Transformer模型自发布后,很快就成了自然语言处理和计算机视觉领域在有监督学习设置下的主流神经架构。 虽然Transformer的热潮已经开始席卷强化学习领域,但由于RL本…
-
用CNN做基础模型,可变形卷积InternImage实现检测分割新纪录!
近年来大规模视觉 Transformer 的蓬勃发展推动了计算机视觉领域的性能边界。视觉 Transformer 模型通过扩大模型参数量和训练数据从而击败了卷积神经网络。来自上海人…
-
把Transformer当通用计算机用,还能执行in-context learning算法,这项研究脑洞大开
Transformer 已成为各种机器学习任务的热门选择,并且取得了很好的效果,那它还能怎么用?脑洞大开的研究者竟然想用它来设计可编程计算机! 这篇论文的作者来自普林斯顿大学和威斯…
-
面向长代码序列的 Transformer 模型优化方法,提升长代码场景性能
阿里云机器学习平台PAI与华东师范大学高明教授团队合作在SIGIR2022上发表了结构感知的稀疏注意力Transformer模型SASA,这是面向长代码序列的Transformer…
-
教训惨痛!谷歌如何从AI老大哥一步步跌落神坛?
谷歌肠子都悔青了。 多年来一心一意崇拜的VR,目前看来是个假神。 现在眼看着对手微软和OpenAI凭ChatGPT赚足了眼球,谷歌赶忙转换战略,加速AI的研发。 讽刺的是,这一切之…
-
DeepMind:AI模型需瘦身,自回归路线将成主流
以Transformer为核心的自回归注意力类程序始终难以跨过规模化这道难关。为此,DeepMind/谷歌最近建立新项目,提出一种帮助这类程序有效瘦身的好办法。 DeepMind与…
-
四倍提速,字节跳动开源高性能训练推理引擎LightSeq技术揭秘
Transformer模型出自于Google团队2017年发表的论文《Attention is all you need》,该论文中首次提出了使用Attention替换Seq2Se…
-
从头开始构建,DeepMind新论文用伪代码详解Transformer
2017 年 Transformer 横空出世,由谷歌在论文《Attention is all you need》中引入。这篇论文抛弃了以往深度学习任务里面使用到的 CNN 和 R…