https

多模态可控图片生成统一模型来了，模型参数、推理代码全部开源

论文地址：https://arxiv.org/abs/2305.11147 代码地址：https://github.com/salesforce/UniControl 项目主页：h…

校长
2023年7月17日 • 人工智能
000
三维点云的开放世界理解，分类、检索、字幕和图像生成样样行

输入一把摇椅和一匹马的三维形状，能得到什么？木推车加马？得到马车和电动马；香蕉加帆船？得到香蕉帆船；鸡蛋加躺椅？得到鸡蛋椅。来自UCSD、上海交大、高通团队的研究者…

4528
2023年7月17日 • 人工智能
000
无创解码大脑信号语义，中科院自动化所研发脑-图-文多模态学习模型

论文地址：https://ieeexplore.ieee.org/document/10089190 代码地址：https://github.com/ChangdeDu…

。
2023年7月17日 • 人工智能
000
Diffusion+目标检测=可控图像生成！华人团队提出GLIGEN，完美控制对象的空间位置

随着Stable Diffusion的开源，用自然语言进行图像生成也逐渐普及，许多AIGC的问题也暴露了出来，比如AI不会画手、无法理解动作关系、很难控制物体的位置等。其主要原因…

4234
2023年7月17日 • 人工智能
000
语音识别技术在B站的落地实践

自动语音识别（Automatic Speech Recognition，ASR）技术目前已大规模落地于B站相关业务场景，例如音视频内容安全审核，AI字幕（C端，必剪，S12直播等）…

下一站、、、、
2023年7月17日 • 人工智能
000
斯坦福训练Transformer替代模型：1.7亿参数，能除偏、可控可解释性强

以 GPT 为代表的大型语言模型已经并还将继续取得非凡成就，但它们也存在着众所周知的问题，比如由于训练集不平衡导致的偏见问题。针对这一问题，斯坦福大学几位研究者提出了一种新型神经…

唐宋元明清
2023年7月17日 • 人工智能
000
Prompt解锁语音语言模型生成能力，SpeechGen实现语音翻译、修补多项任务

论文链接：https://arxiv.org/pdf/2306.02207.pdf Demo 页面：https://ga642381.github.io/SpeechPrompt/…

煎蛋
2023年7月17日 • 人工智能
000
通用视觉GPT时刻来临？智源推出通用分割模型SegGPT

ChatGPT 引发了语言大模型狂潮，AI 另一个重大领域 —— 视觉 —— 的 GPT 时刻何时到来？前两天，机器之心介绍了 Meta 最新研究成果 Seg…

恭喜发财
2023年7月17日 • 人工智能
000
40多位学者联合发布基础模型工具学习综述，开源BMTools平台

近期，来自清华大学、中国人民大学、北京邮电大学、UIUC、NYU、CMU 等高校的研究人员联合知乎、面壁智能公司探索了基础模型调用外部工具的课题，联合发表了一篇 74 页的基础模型…

大小武
2023年7月17日 • 人工智能
000
通用视觉GPT时刻来临？智源推出通用分割模型SegGPT

ChatGPT 引发了语言大模型狂潮，AI 另一个重大领域 —— 视觉 —— 的 GPT 时刻何时到来？前两天，机器之心介绍了 Meta 最新研究成果 Seg…

8253
2023年7月17日 • 人工智能
000
一键生成山川、河流，风格多样，从2D图像中学习生成无限3D场景

项目主页：https://scene-dreamer.github.io/ 代码：https://github.com/FrozenBurning/SceneDreamer 论文：…

图大地
2023年7月17日 • 人工智能
000
用Meta「分割一切」搞定一切关系，唱跳偷袭效果拔群！NTU等提出全新RAM模型

本月初，Meta推出的「分割一切」模型可谓是震撼了整个CV圈。这几天，一款名为「Relate-Anything-Model（RAM）」的机器学习模型横空出世。它赋予了Segmen…

Cheug
2023年7月17日 • 人工智能
000

3 / 6
1
2
3
4
5
6