https
-
多模态可控图片生成统一模型来了,模型参数、推理代码全部开源
论文地址:https://arxiv.org/abs/2305.11147 代码地址:https://github.com/salesforce/UniControl 项目主页:h…
-
三维点云的开放世界理解,分类、检索、字幕和图像生成样样行
输入一把摇椅和一匹马的三维形状,能得到什么? 木推车加马?得到马车和电动马;香蕉加帆船?得到香蕉帆船;鸡蛋加躺椅?得到鸡蛋椅。 来自UCSD、上海交大、高通团队的研究者…
-
无创解码大脑信号语义,中科院自动化所研发脑-图-文多模态学习模型
论文地址:https://ieeexplore.ieee.org/document/10089190 代码地址:https://github.com/ChangdeDu…
-
Diffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置
随着Stable Diffusion的开源,用自然语言进行图像生成也逐渐普及,许多AIGC的问题也暴露了出来,比如AI不会画手、无法理解动作关系、很难控制物体的位置等。 其主要原因…
-
语音识别技术在B站的落地实践
自动语音识别(Automatic Speech Recognition,ASR)技术目前已大规模落地于B站相关业务场景,例如音视频内容安全审核,AI字幕(C端,必剪,S12直播等)…
-
斯坦福训练Transformer替代模型:1.7亿参数,能除偏、可控可解释性强
以 GPT 为代表的大型语言模型已经并还将继续取得非凡成就,但它们也存在着众所周知的问题,比如由于训练集不平衡导致的偏见问题。 针对这一问题,斯坦福大学几位研究者提出了一种新型神经…
-
Prompt解锁语音语言模型生成能力,SpeechGen实现语音翻译、修补多项任务
论文链接:https://arxiv.org/pdf/2306.02207.pdf Demo 页面:https://ga642381.github.io/SpeechPrompt/…
-
通用视觉GPT时刻来临?智源推出通用分割模型SegGPT
ChatGPT 引发了语言大模型狂潮,AI 另一个重大领域 —— 视觉 —— 的 GPT 时刻何时到来? 前两天,机器之心介绍了 Meta 最新研究成果 Seg…
-
40多位学者联合发布基础模型工具学习综述,开源BMTools平台
近期,来自清华大学、中国人民大学、北京邮电大学、UIUC、NYU、CMU 等高校的研究人员联合知乎、面壁智能公司探索了基础模型调用外部工具的课题,联合发表了一篇 74 页的基础模型…
-
通用视觉GPT时刻来临?智源推出通用分割模型SegGPT
ChatGPT 引发了语言大模型狂潮,AI 另一个重大领域 —— 视觉 —— 的 GPT 时刻何时到来? 前两天,机器之心介绍了 Meta 最新研究成果 Seg…
-
一键生成山川、河流,风格多样,从2D图像中学习生成无限3D场景
项目主页:https://scene-dreamer.github.io/ 代码:https://github.com/FrozenBurning/SceneDreamer 论文:…
-
用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型
本月初,Meta推出的「分割一切」模型可谓是震撼了整个CV圈。 这几天,一款名为「Relate-Anything-Model(RAM)」的机器学习模型横空出世。它赋予了Segmen…