AI在线 AI在线

工具

谢赛宁团队新基准让LLM集体自闭,DeepSeek R1、Gemini 2.5 Pro都是零分

近年来,LLMs(如 GPT-4、Claude、Gemini 等)在代码生成领域取得了显著进展。 它们不仅在经典编程基准(如 HumanEval)中表现出色,甚至在某些测试中超越了人类平均水平。 这促使许多研究者开始宣称:LLM 已经胜过人类程序员,尤其是在竞赛编程领域。
6/19/2025 9:04:00 AM

特朗普「全政府AI计划」竟在GitHub泄密!或于7月4日「独立日」上线

最新消息:再过不到一个月,特朗普政府就要启动一个超级计划,把AI推广到整个联邦政府! 美国总务管理局(GSA,联邦政府的采购部门)和它的技术转型服务(TTS)小组正在搞一个叫ai.gov的网站,目标是通过AI加速政府创新。 这消息是从GitHub上一个代码仓库里挖出来的,可惜发邮件一问,这仓库链接就无法显示了。
6/17/2025 9:19:16 AM

人类飞机上吵架看呆袋鼠」刷屏全网,7000万人被AI耍了

200 多年前,曹雪芹在《红楼梦》中写下这样一句话:假作真时真亦假,无为有处有还无。 翻译成大白话就是,当虚假被当作真实时,真实也会被视为虚假;当虚无被强行视为存在时,存在也会消解为虚无。 万万没想到,放在今天的 AI 语境下,这句古话竟精准地映照了现实。
6/17/2025 9:05:00 AM

一个数据集,一年产稿7876篇!AI强力加持,垃圾论文海量爆发

假如你是一位科研期刊的编辑,每天打开邮箱,迎接的却是一堆似曾相识的论文。 它们主题各异,数据整齐,措辞流畅,但总有种让人不安的「模板感」。 这可不是一个瞎编的场景,而是2024年发生在《Scientific Reports》编辑Matt Spick身上的真实经历。
6/17/2025 8:53:00 AM

4B Qwen3逆袭671B DeepSeek!字节DAPO微调方法这么猛的吗

4B小模型极限在哪里? 最新模型Jan-nano引起热议,它在智能体任务上超过671B的最新版DeepSeek-V3 0528,在SimpleQA基准上获得80.7分。 先来看一下它的实际表现,包括两个任务:对研究某公司目前的扩张情况,该公司的扩张正威胁着另一家公司的市场份额,并撰写一份可能影响金融公司尽职调查流程的MBA水平报告。
6/17/2025 8:45:00 AM

别让千亿参数成摆设!万字解读LLM应用的生存法则

现在大家都在聊大模型,动不动就说什么“智能涌现”、“颠覆行业”。 但说实话,真正能把大模型用好的,不是谁喊得响,而是看谁的系统设计够硬核! 什么是大模型应用系统设计?
6/16/2025 8:06:51 AM
曹洪伟

八个几乎能替代一整个开发团队的AI工具

前言大家好,我是林三心,用最通俗易懂的话讲最难的知识点是我的座右铭,基础是进阶的前提是我的初心~一、代码生产维度的范式转移1. GitHub Copilot X(智能编程协作者)图片能力进化: 从代码补全到全栈架构建议,最新X版本可理解项目上下文进行智能重构案例实测: 在开发REST API时,自动生成符合OpenAPI规范的完整端点代码,节省65%编码时间不可替代性: 保留核心算法设计权的同时,将重复劳动压缩70%2. Replit Ghostwriter(云端智造引擎)图片突破性优势: 环境配置时间归零,支持50 语言实时协作实战场景: 快速验证区块链智能合约时,5分钟完成从构思到测试部署的全流程数据背书: 2024年独立开发者调研显示,使用该工具的原型验证速度提升400%二、产品设计链路的智能跃迁3.
6/16/2025 5:10:00 AM
林三心不学挖掘机

程序员从此不再写代码!红杉专访Codex团队,o3白菜价真相曝光

未来的AI Coding会是什么样子? Copilot、Cursor、Windsurf还是Claude Code? 都不是!
6/13/2025 2:22:04 PM

开源多智能体开发框架:支持MCP、Agent SDK,超2000颗星

著名企业孵化器Y Combinator支持的开源多智能体开发框架Rowboat。 Rowboat支持火热的MCP服务以及OpenAI开源的Agent SDK,几分钟就能开发一个复杂的智能体工作流。 开源地址:、Playground、Copilot三大块组成:Agent,主要负责处理对话的特定部分,并能依据指令使用工具执行任务。
6/10/2025 9:28:31 AM

AI摧毁就业?DeepMind CEO:这是一场比互联网更猛的职业洗牌

AI需要重大突破才能实现AGI吗? 是的,但已经在路上! 它会摧毁现有就业市场吗?
6/6/2025 9:04:00 AM

揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘

近年来,大语言模型(LLMs)的能力突飞猛进,但随之而来的隐私风险也逐渐浮出水面。 训练中暴露的敏感信息往往被模型“记住”,引发广泛关注。 在此背景下,机器遗忘(Machine Unlearning)技术应运而生,目标是在不影响整体能力的前提下,有选择性地抹除特定知识。
6/3/2025 8:44:00 AM

Claude团队打开大模型「脑回路」,开源LLM思维可视化工具来了

Claude团队来搞开源了——推出“电路追踪”(circuit tracing)工具,可以帮大伙儿读懂大模型的“脑回路”,追踪其思维过程。 该工具的核心在于生成归因图(attribution graphs),其作用类似于大脑的神经网络示意图,通过可视化模型内部超节点及其连接关系,呈现LLM处理信息的路径。 研究人员通过干预节点激活值,观察模型行为变化,从而验证各节点的功能分工,解码LLM的“决策逻辑”。
6/3/2025 8:35:00 AM

谷歌破解了 AI 最大难题(以及其他 19 个重大更新)

谷歌在 2025 年 I/O 大会上发布的内容,简直让人震惊。 这次更新涉及广泛,将极大提升你的工作效率,让你更快完成任务,成为更高效的人。 下面是谷歌 I/O 2025 的 20 个最疯狂 AI 更新盘点。
6/3/2025 8:10:52 AM
前端小智

AI辅助编程工具深度评测与企业选型指南

今天继续分享Google DeepResearch的AI编程工具研发分析报告。 具体的提示语如下:请对Cursor,Winsurf, Copilot,Augument 四款AI辅助编程工具进行详细分析和研究和评测。 需要从功能(核心是编程能力,上下文长度支持等),效率性能,质量,成本,易用性,开放性(mcp协议适配),差异化亮点多方面进行分析和研究。
6/3/2025 1:00:00 AM

美团开放AI代码工具,零代码实现全栈能力,项目负责人揭秘架构细节

一句话,呈所想。 谁都没有想到,如此实用的 AI 代码生成工具,竟是出自美团。 上周,有媒体曝出了美团的 AI 零代码工具 NoCode,这是一款无需编程背景和经验,仅通过自然语言和对话形式即可快速生成应用的工具。
5/30/2025 3:59:41 PM

使用Agno实现AI代理设计的五个层级,由易到难

AI代理设计指南本指南将代理设计分解为五个实际难度级别,每个级别均提供可运行的代码示例。 无论开发者是初学者还是处理现实世界的复杂任务,本指南都能帮助避免常见陷阱,构建真正有效的代理。 这些级别包括:•级别1:带工具和指令的代理•级别2:带知识和记忆的代理•级别3:带长期记忆和推理的代理•级别4:多代理团队•级别5:代理系统以下逐一介绍各级别。
5/30/2025 2:10:00 AM
AI研究生

告别手写代码!十款开源 AI 工具,截图秒变可运行代码(附 GitHub 地址)

今年一直在学习和研究AI,也做了很多高价值AI开源项目的总结,今天就和大家分享11款通过截图(图片)生成代码的开源项目和工具,帮助大家提高编码效率。 Screenshot to Code图片它能够将设计图中的截图自动转化为代码片段,主要用于网页和应用界面的开发。 支持的技术栈包括 HTML Tailwind、React Tailwind、Vue Tailwind、Bootstrap、Ionic Tailwind、SVG 等。
5/29/2025 5:00:10 AM
趣谈AI

55万人围观!这款代理意外燃爆了!产品感知力爆表!一张截图复刻苹果官网,一句话生成真运行App,Figma导入调整细节,要变天了

出品 | 51CTO技术栈(微信号:blog51cto)今天凌晨,一款Agent工具意外出圈了。 一位热衷 AI 摄影导演的 X 博主 @EHuanglu 分享了他试用一个名叫 HeroUI 的 AI 工具的经历,并放出了自己近日来生成的 6 个精美 App 或网站,精美程度堪比苹果、迪奥。 “我只用文字 prompt,就在几分钟内创建了一个完整的项目管理应用。
5/28/2025 5:55:16 PM
云昭