AI
让AI替码农卷复杂任务,贾佳亚团队提出MoTCoder,准确率刷新SOTA
论文一作李靖瑶,香港中文大学博士生(DV Lab),师从贾佳亚教授。 主要研究方向是大语言模型,包括模型预训练、后训练、推理优化。 作者陈鹏光、夏彬等均为 DV Lab 成员。
4/3/2025 11:16:10 AM
机器之心
视觉SSL终于追上了CLIP!Yann LeCun、谢赛宁等新作,逆转VQA任务固有认知
在视觉问题解答(VQA)等多模态环境中,当前视觉自监督学习(SSL)的表现还比不上语言图像预训练(CLIP)。 这种差距通常归因于语言监督引入的语义,尽管视觉 SSL 模型和 CLIP 模型通常在不同的数据上进行训练。 在最近的一项研究中,Yann LeCun、谢赛宁等研究者探讨了一个基本问题: 语言监督对于多模态建模的视觉表征预训练是否必要?
4/3/2025 11:11:50 AM
机器之心
为什么AI需要向量数据库?
大模型火遍全球,DeepSeek、OpenAI、谷歌、百度、抖音等科技巨头争相发布自家产品。 多数人会想当然认为,大模型越大越强大,参数量越多就越聪明。 现实呢?
4/3/2025 11:04:40 AM
DeepMind核心论文禁发6个月,Transformer级研究锁死!CEO:不满意就走人
DeepMind研究成果,已被按下暂停键。 FT爆料称,由Demis Hassabis领导的谷歌AI部门,正对研究论文发布实施更严格的审查机制。 总结来说,有这么几种论文不发:会被竞争对手利用的创新成果让Gemini模型相形见绌的研究而那些涉及到GenAI的「战略性研究」,更是有着长达6个月「禁发期」。
4/3/2025 10:03:29 AM
新智元
75年后,图灵测试终被GPT-4.5破解!73%人类被骗过,彻底输给AI
什么? AI竟然通过了标准的三方图灵测试,而且还是拿出了实打实证据的那种! 来自加州大学圣迭戈分校的研究人员系统评估了4个AI系统,证明大语言模型(LLM)通过了图灵测试。
4/3/2025 10:00:52 AM
新智元
企业级AI“脱虚向实”,落地还有几道槛?
从ChatGPT横空出世,到越来越智能化的人形机器人,再到让世人惊艳的Sora文生视频……种种迹象表明,人工智能逐渐迎来产业化的临界点。 当全球科技巨头们将AI的边界推向星辰大海时,绝大多数企业仍在经历着AI落地的“高原反应”。 某制造业CIO的办公桌上,堆积着三份不同供应商的AI解决方案,却始终无法解答他“如何让AI看懂三十年陈旧的ERP数据”的灵魂拷问。
4/3/2025 10:00:00 AM
科技云报到
稚晖君刚挖来的90后机器人大牛:逆袭履历堪比爽文男主
刚刚,稚晖君旗下创企智元机器人官宣了两个新动向——一则是关于人事变动。 具身智能领域的国际领军学者罗剑岚博士,已于近日加盟并出任首席科学家。 罗剑岚在该领域已深耕10年,曾担任Google X、Google DeepMind研究科学家,是UC伯克利17万引大佬Sergey Levine团队的核心成员。
4/3/2025 9:37:23 AM
量子位
AI理解27分钟长视频超越GPT-4o,港理工新国立开源新框架:角色化推理+链式LoRA
AI能像人类一样理解长视频。 港理工、新加坡国立团队推出VideoMind框架,核心创新在于角色化推理(Role-based Reasoning)和链式LoRA(Chain-of-LoRA)策略。 相关论文已上传arXiv,代码和数据全部开源。
4/3/2025 9:34:36 AM
量子位
震惊!用 Redis+AI 模型实现秒级实时风控,这波操作太秀了
兄弟们,有没有遇到过这种情况:凌晨三点在某东抢购显卡,刚提交订单就提示"系统繁忙",转头发现黄牛已经在海鲜市场挂出同款;扫码支付时突然弹出风险提示,非要验证人脸识别;更绝的是某银行APP,刚输完密码就收到短信提醒:"检测到您的账户存在异常操作"——但此时您根本没动过手机。 这些让人又爱又恨的操作背后,都藏着一个叫"实时风控"的技术妖怪。 今天咱们就来扒一扒,这个妖怪是如何用 Redis 和 AI 模型在 0.1 秒内完成逆天操作的。
4/3/2025 9:30:56 AM
儒猿团队
双人动作生成新SOTA!浙大提出TIMotion框架 | CVPR 2025
双人动作生成新SOTA! 针对Human-human motion generation问题,浙江大学提出了一种对双人运动序列进行时序和因果建模的架构TIMotion,论文已发表于CVPR 2025。 具体来说,通过分别利用运动序列时间上的因果关系和两人交互过程中的主动被动关系,TIMotion设计了两种有效的序列建模方式。
4/3/2025 9:27:44 AM
量子位
CVPR 2025:单图秒变专业影棚,几何/材质/光影全搞定,数据训练代码全开源
如何从一张普通的单幅图像准确估计物体的三维法线和材质属性,是计算机视觉与图形学领域长期关注的难题。 这种单图逆渲染任务存在严重的不确定性,传统方法通常需要多角度或多光源的拍摄条件,难以在日常场景中普遍应用。 近日,由香港中文大学、上海人工智能实验室及南洋理工大学的研究团队联合研发的论文《Neural LightRig: Unlocking Accurate Object Normal and Material Estimation with Multi-Light Diffusion》。
4/3/2025 9:25:53 AM
量子位
AI 时代如何更高效开发前端组件?21st.dev 给了一种答案
给大家推荐一个好东西:21st.dev ,大致上你可以将它理解为一个非常前卫的组件托管市场,特别之处在于:它参考 shadcn/ui 的设计理念提供了一种原子化的,Code Out 形式的依赖安装、管理模式;并且更具有启发性的,它为每一个组件都提供了一套用于生成组件代码的 Prompt,用户可以借此在特定项目上下文中生成适配度更高的组件效果。 借助 21st.dev 与 cursor,我做了这样一个 demo: 这一切都是在 5min 内,不写一行代码的情况下实现的! 更值得称谓的是,21st.dev 的功能设计真正做到了 AI 友好,能够很好地应用在各类 AI 工具中(cursor、v0.dev、bolt.new、cline 等等),并且这套设计逻辑还非常适合复用到各种 TO-D 场景中,21st.dev 是什么21st.dev 是一个开源的 React UI 组件市场,专门为设计工程师和前端开发者提供高质量的 UI 组件。
4/3/2025 9:04:19 AM
范文杰
美国CS专业卷上天,满分学霸惨遭藤校全拒!父亲大受震撼引爆热议
美国大学CS专业,卷到何种程度了? 最近,一位父亲痛心发帖:他的儿子成绩全校第一近乎完美——SAT接近满分、18门AP课程全部5分,却在申请季被所有常春藤名校拒绝。 唯一伸来橄榄枝的,只有本州的马萨诸塞大学阿默斯特分校(UMass Amherst)。
4/3/2025 8:50:00 AM
新智元
多模态AI核心技术:CLIP与SigLIP技术原理与应用进展
近年来,人工智能领域在多模态表示学习方面取得了显著进展,这类模型通过统一框架理解并整合不同数据类型间的语义信息,特别是图像与文本之间的关联性。 在此领域具有里程碑意义的模型包括OpenAI提出的CLIP(Contrastive Language-Image Pre-training,对比语言-图像预训练)和Google研发的SigLIP(Sigmoid Loss for Language-Image Pre-training,用于语言-图像预训练的Sigmoid损失)。 这些模型重新定义了计算机视觉与自然语言处理的交互范式,实现了从图像分类到零样本学习等多种高级应用能力。
4/3/2025 7:00:00 AM
美国奥数题撕碎AI数学神话,顶级模型现场翻车!最高得分5%,DeepSeek唯一逆袭
3月26号,ETH等团队的一项研究一经发布,就引起了圈内热议。 这项研究彻底撕开遮羞布,直接击碎了「LLM会做数学题」这个神话! 论文地址:,MathArena团队使用最近的2025年美国数学奥林匹克竞赛进行了详细评估,结果令人大吃一惊——所有大模型的得分,都低于5%!
4/3/2025 2:25:00 AM
新智元
基于DeepSeek + VSCode 实现AI辅助编程
随着人工智能技术的飞速发展,AI 辅助编程逐渐成为提升开发效率、优化代码质量的重要工具。 本文通过结合 DeepSeek 的强大语言模型和 VSCode 的高效开发环境,展示了如何利用 AI 辅助编程完成一个经典的 MapReduce 词频统计任务。 这一实践不仅展示了 AI 在编程中的应用潜力,还为开发者提供了一个高效、便捷的开发流程示例,帮助读者快速上手 AI 辅助编程,并探索其在实际项目中的应用价值。
4/3/2025 12:00:01 AM
加州大学研究:AI 模型 GPT - 4.5 和 Llama 3.1 - 405B 可通过标准图灵测试
美国加州大学圣地亚哥分校研究显示,GPT-4.5和Llama 3.1-405B在PERSONA模式下通过三方图灵测试,提问者难以区分AI与人类。AI有望在社交场景中替代人类。#人工智能##图灵测试#
4/2/2025 3:20:23 PM
远洋
两位华人76页论文解决量子领域核心问题:首次证明伪随机性真实存在
量子领域的一个核心开放问题,就这样被两位华人研究员解决了? 事情是这样的。 一直以来,量子的随机性在计算和密码学中极为有用。
4/2/2025 9:40:00 AM
量子位
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
Meta
用户
微软
GPT
学习
技术
图像
Gemini
马斯克
智能体
AI创作
AI新词
Anthropic
英伟达
论文
训练
代码
算法
LLM
Stable Diffusion
芯片
腾讯
蛋白质
开发者
Claude
苹果
AI for Science
Agent
生成式
神经网络
机器学习
3D
研究
xAI
生成
人形机器人
AI视频
百度
计算
Sora
工具
GPU
华为
大语言模型
RAG
AI设计
字节跳动
具身智能
搜索
大型语言模型
场景
深度学习
视频生成
预测
AGI
视觉
伟达
架构
Transformer
神器推荐
亚马逊
特斯拉
编程
MCP
Copilot