训练
-
基于T5的两阶段的多任务Text-to-SQL预训练模型MIGA
越来越多的工作证明了预训练语言模型(PLM)中蕴含着丰富的知识,针对不同的任务,用合适的训练方式来撬动 PLM,能更好地提升模型的能力。在 Text-to-SQL 任务中,目前主流…
-
ChatGPT低成本复现流程开源!任意单张消费级显卡可体验,显存需求低至1.62GB
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 首个开源的ChatGPT低成本复现流程来了! 预训练、奖励模型训练、强化学习训练,一次性打通。 最小d…
-
系统回顾深度强化学习预训练,在线、离线等研究这一篇就够了
近年来,强化学习 (RL) 在深度学习的带动下发展迅速,从游戏到机器人领域的各种突破,激发了人们对设计复杂、大规模 RL 算法和系统的兴趣。然而,现有 RL 研究普遍让智能体在面对…
-
AI自给自足!用合成数据做训练,效果比真实数据还好
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 AI生成的图像太逼真,为什么不能拿来训练AI呢? 可别说,现在还真有人这么做了。 来自香港大学、牛津大…
-
自监督为何有效?243页普林斯顿博士论文「理解自监督表征学习」,全面阐述对比学习、语言模型和自我预测三类方法
预训练已成为一种替代和有效的范式,以克服这些缺点,其中模型首先使用容易获得的数据进行训练,然后用于解决感兴趣的下游任务,标记数据比监督学习少得多。 使用未标记数据进行预训练,即自监…
-
用少于256KB内存实现边缘训练,开销不到PyTorch千分之一
说到神经网络训练,大家的第一印象都是 GPU + 服务器 + 云平台。传统的训练由于其巨大的内存开销,往往是云端进行训练而边缘平台仅负责推理。然而,这样的设计使得 AI 模型很难适…
-
一日一卡挑战:RTX2080Ti搞定大模型训练,算力节省136倍,学界欢呼
在一块消费级 GPU 上只用一天时间训练,可以得到什么样的 BERT 模型? 最近一段时间,语言模型再次带火了 AI 领域。预训练语言模型的无监督训练属性使其可以在海量样本基础上进…
-
四倍提速,字节跳动开源高性能训练推理引擎LightSeq技术揭秘
Transformer模型出自于Google团队2017年发表的论文《Attention is all you need》,该论文中首次提出了使用Attention替换Seq2Se…
-
Wandb不可缺少的机器学习分析工具
wandb wandb全称Weights & Biases,用来帮助我们跟踪机器学习的项目,通过wandb可以记录模型训练过程中指标的变化情况以及超参的设置,还能够将输出的…
-
英特尔助力构建开源大规模稀疏模型训练 / 预测引擎 DeepRec
DeepRec(PAI-TF)是阿里巴巴集团统一的开源推荐引擎(https://github.com/alibaba/DeepRec),主要用于稀疏模型训练和预测,可支撑千亿特征、…
-
基于迁移学习的图像分类概述
预训练网络通常是在大量数据集上进行训练的大型深度神经网络,迁移学习的优势在于预训练网络已经学会识别数据中的大量模式。这使得学习新任务更快更容易,因为网络已经做了很多基础工作。 迁移…
-
首次在智能手机上训练BERT和ResNet,能耗降35%
研究者表示,他们将边缘训练看作一个优化问题,从而发现了在给定内存预算下实现最小能耗的最优调度。 目前,智能手机和嵌入式平台等边缘设备上已经广泛部署深度学习模型来进行推理。其中,…