模态
-
GPT-4的两个谣言和最新预测!
作者 | 云昭 3月9日,微软德国CTO Andreas Braun在AI kickoff会议上带来了一个期待已久的消息:“我们将于下周推出GPT-4,届时我们将推出多模式模式,…
-
能看图、会聊天,还会跨模态推理和定位,能落地复杂场景的DetGPT来了
一直以来,人类梦想着机器人能够辅助人类处理生活和工作的事情。“请帮我调低空调的温度”,甚至 “请帮我写一个商城网站” 都在近年来的家居助手和 OpenAI 发布的 Copilot …
-
哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏
由于如Stable Diffusion等视觉生成模型的快速发展,高保真度的人脸图片可以自动化地伪造,制造越来越严重的DeepFake问题。 随着如ChatGPT等大型语言模型的出现…
-
参数减半、与CLIP一样好,视觉Transformer从像素入手实现图像文本统一
近年来,基于 Transformer 的大规模多模态训练促成了不同领域最新技术的改进,包括视觉、语言和音频。特别是在计算机视觉和图像语言理解方面,单个预训练大模型可以优于特定任务的…
-
细数NLP与CV的融合创新:盘点多模态深度学习这几年
近年来,NLP 和 CV 领域在方法上突破不断。不只是单模态模型有所进展,而大规模多模态方法也已经成为非常热门的研究领域。 论文地址:https://arxiv.org/pdf/2…
-
多模态再次统一!Meta发布自监督算法data2vec 2.0:训练效率最高提升16倍!
近几年人工智能领域的突破大多由自监督学习推动,比如BERT中提出的MLM (Masked Language Model) ,通过将文本中的部分单词遮盖后重新预测,使得海量…
-
Transformer统一化3D目标检测基于体素的表征
arXiv论文“Unifying Voxel-based Representation with Transformer for 3D Object Detection“,22年6…
-
达摩院预测的2023十大科技趋势,你看准哪个?
一个世纪以来,数字科技的演进推动了人类的技术进步与产业发展。我们当前正在经历数字科技最快发展的阶段,数字化、网络化、智能化让数字世界与物理世界的融合与协同更加紧密。 随着技术的不断…
-
IEEE Fellow 李学龙:多模态认知计算是实现通用人工智能的关键
在如今数据驱动的人工智能研究中,单一模态数据所提供的信息已经不能满足提升机器认知能力的需求。与人类利用视觉、听觉、嗅觉、触觉等多种感官信息来感知世界类似,机器也需要模拟人类联觉来提…
-
从视音角度看多模态学习的过去与未来
视觉和听觉在人类的沟通和场景理解中至关重要。为了模仿人类的感知能力,旨在探索视音模态的视音学习在近些年来已成为一个蓬勃发展的领域。本文是对由中国人民大学高瓴人工智能学院GeWu-L…
-
多模态图像合成与编辑这么火,马普所、南洋理工等出了份详细综述
近期 OpenAI 发布的 DALLE-2 和谷歌发布的 Imagen 等实现了令人惊叹的文字到图像的生成效果,引发了广泛关注并且衍生出了很多有趣的应用。而文字到图像的生成属于多模…
-
超越CLIP的多模态模型,只需不到1%的训练数据!南加大最新研究来了
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。 火爆全网的AI绘画你玩了吗? 女娲无限版、DALL·E2、Imagen……这些通过文字生成图像的AI绘…