AI在线 AI在线

理论

全球最古老程序员赛事回归!晦涩C代码大战AI!750字节手搓一个推理引擎,评委:被瑞克滚了!人类比AI厉害,程序员的快乐回来了!

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)就在不久前,让攻城狮们高呼“久违的程序员文化回来了”的一项赛事,重磅回归了! 时隔四年,让全球无数程序员调侃取乐的最古老、最有趣的比赛——IOCCC,国际混乱 C 代码大赛,回归到大众视野。 这场比赛已经有 40 年之久的创办历史,它的趣味自带“嗨皮”属性:鼓励程序员用 C 语言写出故意难以理解的代码,并以此取乐。
8/18/2025 12:51:53 PM
云昭

AI发现新物理定律:纠正等离子体理论多年错误假设

编辑丨%美丽的星云、星环,其中广泛存在的组成成分——尘埃等离子体,是一种由离子、电子和带电尘埃颗粒组成的混合体系,广泛分布在星际空间中,其粒子间通过等离子体介导的库仑力相互作用,具有非保守、非互易等复杂特性。 对于如此精细而复杂的星间系统,传统理论难以精准描述其相互作用规律,尤其是偏离平衡态的场景。 不过,借由美国埃默里大学(Emory University)物理定制的 ML 模型,物理学家得以揭示尘埃等离子体中意想不到的物理现象。
8/18/2025 11:59:00 AM
ScienceAI

多模态大模型在化学与材料学的「体检表」——哪些能力靠谱,哪些还差很远?

编辑丨&当下,各类实验室非常热衷于把大型语言模型(LLMs)和视觉—语言模型(VLLMs)当作科研助手,但科学工作不像聊天那样单一:它要求把图像、表格、谱图、实验装置等多模态信息整合并进行多步推理与决策。 一个全面有效的评估基准显然是当下急缺的。 来自德国耶拿大学(Friedrich Schiller University Jena)等的团队提出了一个面向真实科研流程的评测框架——MaCBench,把科研活动粗分为「信息抽取」「实验执行」与「结果解读」三大支柱,以便系统评估模型在真实化学/材料任务中的表现与失败模式。
8/18/2025 10:16:00 AM
ScienceAI

GPT-5遭用户吐槽 “垃圾”:缩放定律失效,AGI梦渐行渐远?

2025 年 8 月,OpenAI 终于推出备受期待的 GPT-5,但其表现并未如市场预期般带来 “革命性突破”,反而让 “AI 进步失速”“缩放定律失效” 的讨论再度升温。 GPT-5 实测:亮点有限,失望声四起YouTube播主 Mrwhosetheboss 的实测显示,GPT-5 并非全面领先:在创建象棋游戏时优于 . GPT-4o-mini-high,撰写视频脚本时强于 GPT-4o,且能根据任务自动匹配最优模型;但在生成 YouTube .
8/18/2025 9:57:30 AM

超58000星!精选AI Agent、MCP开源大合集,Github每日第一

相信有不少小伙伴正在学习AI Agent、MCP、RAG的开发和商业用例吧。 虽然Github、Hugging Face有海量开源项目,但想找出经典又实用的并不容易。 所以,「AIGC开放社区」就为大家介绍一个精选的开源大合集,包括入门级AI Agent、高级Agent、多层级智能体、语音智能体、多类型RAG等非常好用的项目。
8/18/2025 9:23:09 AM

OpenAI突然"背叛"自己:推理与创作分家,万能AI时代终结?

83.3%对比13%——这不是什么投票结果,而是OpenAI两类模型在高级数学问题上的表现差距。 更震撼的是,表现更好的那个模型,在创意写作方面反而输给了"落后"的那个。 我花了一下午时间深挖OpenAI的最新技术文档,发现了一个颠覆认知的事实:OpenAI已经悄悄放弃了"万能AI"的路线,转向了一个更精妙的策略——让不同的模型专做不同的事。
8/18/2025 9:17:54 AM
阿丸笔记

目标驱动而非任务序列:Agentic AI重塑业务流程自动化范式

大家好,我是肆〇柒。 我看到一项来自意大利特伦托大学工业工程系,以及意大利国家研究委员会IASI研究所的前沿研究。 随着企业AI落地实践的深入,我们正见证一个显著趋势:从传统预定义工作流模式向Agentic AI范式的转变。
8/18/2025 9:16:49 AM
肆零柒

GPT-5首次会推理,OpenAI联创曝AGI秘诀!超临界学习吞噬算力,2045金钱无用?

「GPT-5,是一个分水岭」。 昨天,OpenAI联创Greg Brockman在Latent Space团队的专访中对GPT-5做出了高度的评价。 这一小时的访谈,含金量极高。
8/18/2025 9:16:00 AM

硬核拆解!从GPT-2到gpt-oss,揭秘大模型进化关键密码

8月5日,在GPT-5发布前两天,OpenAI推出了它的两款开源权重大语言模型:gpt-oss-120b、gpt-oss-20b。 这是自2019年GPT-2,近六年来OpenAI首次发布开放权重的模型。 得益于巧妙的优化技术,这些模型甚至可以在本地设备上运行。
8/18/2025 9:15:00 AM

Yann LeCun最新纪录片首曝!传奇AI教父的双面人生,深度学习幕后40年

在AI的璀璨星空中,有一位传奇人物始终闪耀——Yann LeCun。 他不仅是深度学习的开创者之一,也是Meta的首席AI科学家。 当扎克伯格敲定28岁的Alexander Wang出任Meta的首席AI官后,所有人同时想到一个问题。
8/18/2025 9:12:00 AM

奥特曼神秘晚宴讲话曝出!OpenAI的CEO或将是个AI,Chrome我也想买

你们有没有发现,GPT-5最近好像变得不太一样了? 刚刚,OpenAI宣布GPT-5即将恢复GPT-4o的「温暖」风格。 奥特曼认为模型变暖只是第一步,让用户自定义ChatGPT风格才能真正解决问题。
8/18/2025 9:10:00 AM

最惨就业季!CS学霸GPA 3.98,投2500份简历仅10次面试,AI吞噬入门级岗位

每一个计算机专业的学生,都梦想着自己编写的代码,能够改变世界。 退而求其次,至少,也会有一份高薪和光明前程等着自己。 没想到世界被AI改了,还顺便带走了你的实习机会。
8/18/2025 9:09:00 AM

告别「AI脑萎缩」!Claude Code像健身私教一样逼你学编程

你可能没意识到,AI正在悄悄偷走你的大脑!  今年6月,MIT耗时4个月,公布了一项争议颇大的研究: 短期里,AI让效率爆表;但长期里,它却让我们思考力退化,像肌肉长期不用一样逐渐萎缩。  所谓「AI脑萎缩」,并非只是危言耸听,就像考试作弊,学生用AI取得好成绩,有什么意义?
8/18/2025 9:02:00 AM

大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷

大语言模型(LLM)正从工具进化为“裁判”(LLM-as-a-judge),开始大规模地评判由AI自己生成的内容。 这种高效的评估范式,其可靠性与人类判断的一致性,却很少被深入验证。 一个最基础、却也最关键的问题是:在评判一个模型是否“入戏”之前,AI裁判能准确识别出对话中到底是谁在说话吗?
8/18/2025 9:00:00 AM

谷歌最新「0.27B」Gemma 3开源!身板小却猛如虎,开发者直呼救命稻草

大块头不等于大智慧。 这在生成式AI领域,已逐渐成为共识。 Gemma 3系列的成功就是一个很好的例证。
8/18/2025 8:57:00 AM

AI顶会反噬整个学术圈!「不发表就会死」,NeurIPS爆仓,博士年肝4.5篇大崩溃

或许你也注意到了这个现象——AI和机器学习的繁荣,已经造成了一场少有人谈论的危机。 学生和研究人员过剩,就业前景有限,整个学术体系已经不堪重负。 随着NeurIPS、ICML和CVPR等会议的投稿数量激增,同行评审流程正在崩溃。
8/18/2025 8:51:00 AM

拥抱AI:转转客服智能质检系统—客服服务质检效率革新

1、困境与破局2、抽象建模,流程支持质检项质检方案质检任务质检配置设计思路质检流程3、质检演变,持续探索大模型关键词质检程序性判断4、自建模型,针对训练项目成果5、使用现状6、后续规划细化质检项,提高质检准确性质检流程优化李女士在某电商平台下单了一箱牛奶,下单前特意咨询客服:“这箱牛奶的保质期到什么时候? 能放多久? ”客服回复:“都是近期生产的,您放心”。
8/18/2025 4:00:00 AM
柴建

微软推Agent Lightning:AI 智能体训练与执行彻底解耦,零改代码即用!

近日,微软研究院的一个团队发布了一个名为 Agent Lightning 的框架,它使任何人工智能(AI)智能体都能通过强化学习进行训练。 图片这个框架的核心突破在于,它实现了智能体执行与强化学习(RL)训练过程的完全解耦。 这一设计允许开发者将该框架无缝集成到他们现有的智能体中,并且几乎不需要修改任何代码。
8/18/2025 3:00:00 AM