应用
OpenAI计划新一轮融资,估值超1000亿美元
OpenAI 将成为仅次于字节、SpaceX 的全球第三大初创公司。大语言模型技术领先的 OpenAI,马不停蹄又要融资了。本周五据彭博社报道,OpenAI 正在开始讨论讨论筹集新一轮融资,估值将达到超过 1000 亿美元。这笔交易将为 OpenAI 这个 ChatGPT 提出者的融资历程再添上重要一笔。有匿名知情人士表示,可能参与本轮融资的投资者们已在参与初步讨论。其表示,本轮融资的条款、估值和时间安排等细节尚未最终确定,且仍可能继续发生变化。根据 CBInsights 的数据,如果该轮融资按照计划进行,将使 O
量子计算凛冬将至,LeCun:现实冷酷,炒作太多
距离技术成熟永远「还差五年」?「量子计算,寒冬将至了?」本周五,AI 先驱 Yann LeCun 的一番言论引发了人们的讨论。这位 AI 领域的著名学者表示,量子计算正在进入一个艰难时刻。与此同时,很多科技领域专家认为,目前的量子计算技术进步很多趋向于炒作,距离实际应用仍然很遥远。对此,很多人同样持有悲观态度。让我们看看 IEEE 的这篇文章是怎么说的:量子计算机革命可能比许多人想象的更遥远、更有限。一直以来,量子计算机都被期许为一种能够解决广泛问题的强大工具,可应用的方向包括金融建模、优化物流和加速机器学习。量子
阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA
OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解能力,推动了多模态大模型(MLLM)快速发展,MLLM 成为了现在业界最热的研究方向。MLLM 在多种视觉-语言开放任务中取得了出色的指令跟随能力。尽管以往多模态学习的研究表明不同模态之间能够相互协同和促进,但是现有的 MLLM 的研究主要关注提升多模态任务的能力,如何平衡模态协作的收益与模态干扰的影响仍然是一个亟待解决的重要问题。论文地址:: 体验地址: 体验地址:,阿里多模态大模型 mPLUG-Owl 迎来大升级,通过模态协
Midjourney V6迎来大升级:网友惊呼生成效果太逼真
和 DALL-E 3 等图像生成模型相比,谁的效果会更好呢?你真的会被 Midjourney V6 alpha 版本测试的生成效果震撼到。输入提示:「电影镜头,一个 50 岁留着灰胡子、穿着棕色夹克、戴着红色围巾的黑人男子站在一个 20 岁左右的白人女子旁边,她穿着深蓝和乳白色千鸟格外套,戴着黑色针织帽。午夜,他们走在街道中央,被路灯柔和的橙色光芒照亮。」图源:,v 5.2 的生成效果肉眼可见的差距,人物脸部细节刻画的不是很细致,衣服纹理、褶皱表现的很少:Midjourney V6 生成雨中的马斯克:图源::图源:
击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了
近日,由清华大学计算机系朱军教授课题组发布的基于薛定谔桥的语音合成系统 [1],凭借其 「数据到数据」的生成范式,在样本质量和采样速度两方面,均击败了扩散模型的 「噪声到数据」范式。论文链接:: 代码实现: 2021 年起,扩散模型(diffusion models)开始成为文本到语音合成(text-to-speech, TTS)领域的核心生成方法之一,如华为诺亚方舟实验室提出的 Grad-TTS [2]、浙江大学提出的 DiffSinger [3] 等方法均实现了较高的生成质量。此后,又有众多研究工作有效提升了扩
大模型竟然能玩手机了,还能用软件修图:「AppAgent」会成为2024年的新趋势吗?
这就是2024年的新趋势吗?近日,一项名为 AppAgent 的创新技术引起了广泛关注。简单来说,AppAgent 的智能代理能力可以用于操作任何 App,它在 50 个复杂手机任务上展示了强大的能力。AppAgent 幕后团队来自腾讯,相关技术论文也已经公布。论文地址::,这项技术通过引入一种基于大型语言模型(LLMs)的多模态智能代理(Agent)框架,赋予了智能体操作智能手机应用的能力。与传统的智能助手如 Siri 不同,AppAgent 不依赖于系统后端访问,而是通过模拟人类的点击和滑动等操作,直接与手机应
2024年怎么过?这是Sam Altman希望你早些知道的事
机器之能报道编辑:吴昕这个家伙正在塑造世界,如果他学到了什么,我们应该注意。「日子很长,但几十年很短。」Sam Altman 九年前写下这篇箴言体博客时,不知是否预感过自己会成为那个领导 AI 革命的人。2023 年行将结束之际,他时隔多年重拾箴言体,发布了一篇题为《那些我希望有人告诉我的(事)》的博客,将过去一年所学凝结在了十七条短句中。(下文黑体部分,对黑体部分的解读来自编辑。)过去一年激动又疯狂。Altman 领导的 OpenAI 推出了一个世人真正喜欢并从中受益的 AI 工具,世界也开始认真对待 AI 。从
Nature|从1.07亿个分子中发现新抗菌化合物,MIT团队开发用于抗生素发现的DL方法
编辑 | 萝卜皮当前,迫切需要发现新结构类别的抗生素来解决持续存在的抗生素耐药性危机。深度学习方法有助于探索化学空间;这些通常使用黑盒模型并且不提供化学见解。麻省理工学院(MIT)的研究人员开发了一种用于抗生素发现的深度学习方法,并表明它可以从大型化学库中识别出潜在的抗生素。研究人员用该方法从药物再利用中心(包含约 6,000 个分子)中发现了 halicin 和 abaucin,并从 ZINC15 库中的约 1.07 亿个分子中发现了新的抗菌化合物。图示:Yann LeCun 转发了这项研究的 Twitter 报
医渡科技发布自研医疗大模型,多个医疗任务场景评测表现超越GPT
2023年12月21日,由医渡科技主办、华为技术有限公司(以下简称“华为”)协办的“2023医疗智能大会”在京举行。大会以“智绘医疗,创见未来”为主题,深入探讨了人工智能等新技术为医疗行业带来的机遇与变革。会上,医渡科技自主研发的医疗垂域大模型正式发布,这是国内首个面向医疗垂直领域多场景的专业大语言模型,医渡科技医疗场景解决方案也随之迎来全面升级。与此同时,医渡科技与华为在会上签署深化合作协议,并联合推出智慧医疗解决方案,加速推动医疗健康行业的智能化转型。医渡科技CEO、联合创始人徐济铭表示,与以往AI浪潮不同,此
成立仅半年,Mistral估值暴涨七倍,开源重塑AI战局
机器之能报道编辑:Sia烧钱的闭源,逆袭的开源。当 LLaMA 被泄露出去、任何人都可以下载时,开源的命运齿轮已经开始转动,并在 Mistral AI 最新一轮融资中达到高潮。七个月前,来自 Meta 和谷歌的研究人员在巴黎成立了 Mistral AI 。短短六个月,这家拥有22名员工的初创企业在最近 A 轮融资中筹集了 4.15 亿美元,估值从 2.6 亿美元狂飙到 20 亿美元,涨了七倍多。同时,公司也低调发布了大模型 Mixtral 8X7B。Mixtral 8x7B 采用了一种独特的架构方法——专家混合 (
“数智说”工业智能化论坛成功举办
为了进一步汇聚起推进新型工业化的强大合力,推动数字蝶变行动落地见效,12 月 16 日,数智上海 2023 峰会“数智说”工业智能化论坛在上海市杨浦区举办,邀请高校知名专家学者、高端制造业企业和科技企业代表,共享工业数智化丰富经验成果与未来趋势洞见。活动由上海市城市数字化转型工作领导小组办公室、上海市经济和信息化委员会、上海市杨浦区人民政府指导,上海市杨浦区科学技术委员会、上海市城市数字化转型应用促进中心主办,中国联合网络通信有限公司上海市分公司联合主办,机器之心(上海)科技有限公司承办。上海市经济和信息化委员会软
”数智说”算力新基建论坛圆满举办
作为助推数字经济发展的“重要底座”,我国算力基础设施建设近年来正不断跑出建设“加速度”,为千行百业的数字化转型提供着坚实的算力支撑。12 月 16 日,数智上海 2023 峰会“数智说”算力新基建论坛在上海杨浦顺利举办。相关政府主管部门领导,智算服务供应商、运营商、云计算服务商、AI 芯片企业代表以及上海市算力网络协会代表齐聚一堂,共论产业发展新趋势、新格局。本次活动由上海市城市数字化转型工作领导小组办公室、上海市经济和信息化委员会、上海市杨浦区人民政府指导,上海市杨浦区科学技术委员会、上海市城市数字化转型应用促进
开创全新通用3D大模型,VAST将3D生成带入「秒级」时代
生成式 AI 在 3D 领域在很长一段时间内都在等待自己的「ChatGPT」时刻。传统 3D 建模涉及游戏、影视、建筑等多个行业,普遍依赖专业人员手动操作,生产周期短则几天,多则以月为单位,单个 3D 模型的创建成本至少需要几千元。生成式 AI 技术在 2D 图像生成领域的成功经验,让人们看到了 AI 在变革 3D 建模这件事上的潜力。一个万亿美元级别的赛道似乎从此开启,但当前市面上的 3D 生成类的 AI 技术仍然存在各种不足,大家都在期待出现一个让自己眼前一亮的产品。2021 年 1 月初,OpenAI 发布
做大模型时代的最佳云底座,百度智能云打出三套「组合拳」
不破不立,重构云计算这件事,百度智能云公布了最新进展。
再也不怕合照缺人,Anydoor为图片编辑开了一道「任意门」
「能不能把这张图里的产品,都放到另一张图的桌子上?」面对这样的要求,设计师肯定会脑瓜嗡嗡的。把指定物品放进另一张图片不像贴张贴纸一样简单,想要做到无缝接入,贴图的形状、材质、光影等等都需要在编辑软件里细致地调整。如果有一种能让贴图穿进背景图里,它们根据你的指令自动摆好姿势、站位的「魔法」呢?来自香港大学、阿里巴巴和蚂蚁集团的新成果 Anydoor 为图片编辑打开了一扇「任意门」。任何物品,只需要一张照片,就能被传送到另一张图片的世界中。论文链接::,想让这只柯基按照涂鸦的姿势,在墙角站卧坐躺,没有问题。让哆啦 A
只需一张图片、一句动作指令,Animate124轻松生成3D视频
Animate124,轻松将单张图片变成 3D 视频。近一年来,DreamFusion 引领了一个新潮流,即 3D 静态物体与场景的生成,这在生成技术领域引发了广泛关注。回顾过去一年,我们见证了 3D 静态生成技术在质量和控制性方面的显著进步。技术发展从基于文本的生成起步,逐渐融入单视角图像,进而发展到整合多种控制信号。与此相较,3D 动态场景生成仍处于起步阶段。2023 年初,Meta 推出了 MAV3D,标志着首次尝试基于文本生成 3D 视频。然而,受限于开源视频生成模型的缺乏,这一领域的进展相对缓慢。然而,现
“数智说”金融科技与数实融合论坛成功举办
为了进一步加强现代金融机构和金融基础设施建设,推动金融更好地服务实体经济和科技创新,12 月 16 日,数智上海 2023 峰会“数智说”金融科技与数实融合论坛成功举办。论坛汇聚来自高校、行业协会、金融机构、金融科技企业以及数字供应链企业的众多代表,共同探讨了金融科技创新与赋能之道。本论坛活动由上海市城市数字化转型工作领导小组办公室、上海市经济和信息化委员会、上海市杨浦区人民政府指导,上海市杨浦区科学技术委员会、上海市城市数字化转型应用促进中心主办,中国联合网络通信有限公司上海市分公司联合主办,机器之心(上海)科技
4090成A100平替?上交大推出推理引擎PowerInfer,token生成速率只比A100低18%
机器之心报道机器之心编辑部PowerInfer 使得在消费级硬件上运行 AI 更加高效。上海交大团队,刚刚推出超强 CPU/GPU LLM 高速推理引擎 PowerInfer。项目地址::?在运行 Falcon (ReLU)-40B-FP16 的单个 RTX 4090 (24G) 上,PowerInfer 对比 llama.cpp 实现了 11 倍加速!PowerInfer 和 llama.cpp 都在相同的硬件上运行,并充分利用了 RTX 4090 上的 VRAM。在单个 NVIDIA RTX 4090 GPU
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉