应用

强化学习训练一两个小时，100%自主完成任务：机器人ChatGPT时刻真来了？

强化学习训练一两个小时，100%自主完成任务：机器人ChatGPT时刻真来了？

把平均成功率从 50% 拉到了 100%。最近，AI 的进步有目共睹，现在这些进步已经开始传递到机器人领域。强大的 AI 技术也能帮助机器人更好地理解其所处的物理世界并采取更合理的行动。

10/29/2024 1:21:00 PM 机器之心

权威AI开源标准1.0版发布：Llama也不算开源

权威AI开源标准1.0版发布：Llama也不算开源

大模型开源的口号，不是随便说说的。该来的终于来了。本周，人工智能领域迎来了对于「开源」的官方定义。

10/29/2024 1:17:00 PM 机器之心

国庆期间被 AI 雷军“骂了 7 天”，雷军本人呼吁网友不要再玩

国庆期间被 AI 雷军“骂了 7 天”，雷军本人呼吁网友不要再玩

感谢在今年国庆假期期间，一些网友利用 AI 技术克隆雷军的声音，借此吐槽不文明行为或表达对他人的不满，有网友戏称“被 AI 雷军追着骂了整个假期”。对此，雷军本人今日发布视频回应称，的确让自己挺困扰，也挺不舒服。雷军表示希望大家不要再玩了，觉得这个事情不太好，不过他还是觉得 AI 是很好的技术，也非常实用。

10/29/2024 12:56:24 PM 汪淼

华为云董理斌：解难题做难事，AI重塑千行万业

华为云董理斌：解难题做难事，AI重塑千行万业

10 月 28 日，新浪新闻・2024 探索大会在北京召开，邀请专家学者、行业领袖，以及数字技术领域的探索者和从业者们，就新质生产力赋能产业、企业数字化转型、数字生态构建等热点话题展开深入探讨。华为云 Marketing 部部长董理斌发表题为 “解难题做难事，AI 重塑千行万业” 的主题演讲，分享华为云在 AI for Science 领域的最新进展，以及盘古大模型、昇腾 AI 云服务等创新技术。华为云 Marketing 部部长董理斌发表主题演讲人工智能正在改变我们进行科学研究的方式，增强人类探索以前难以解决的问题的能力。

10/29/2024 11:42:00 AM 新闻助手

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑

微软开源 OmniParser 纯视觉 GUI 智能体：让 GPT-4V 秒懂屏幕截图，可操控手机 / 电脑

科技媒体 marktechpost 于 10 月 24 日发布博文，报道称微软公司宣布开源 OmniParser，是一款解析和识别屏幕上可交互图标的 AI 工具。项目背景传统的自动化方法通常依赖于解析 HTML 或视图层次结构，从而限制了其在非网络环境中的适用性。而包括 GPT-4V 在内的现有的视觉语言模型（VLMs），并不擅长解读复杂 GUI 元素，导致动作定位不准确。

10/29/2024 10:01:35 AM 故渊

消息称 Meta 正开发自家 AI 搜索引擎：追赶 OpenAI，降低对微软、谷歌的依赖

消息称 Meta 正开发自家 AI 搜索引擎：追赶 OpenAI，降低对微软、谷歌的依赖

感谢科技媒体 The Information 昨日（10 月 28 日）发布博文，报道称 Meta 公司一方面为减少对微软、谷歌的依赖，另一方面追赶 OpenAI 在 AI 领域的发展，正开发一款 AI 搜索引擎。 AI在线援引该媒体报道，内置于 Instagram 和 Facebook 的 Meta AI 机器人目前调用谷歌公司的 Google 和微软 Bing 搜索引擎，来回答用户关于近期新闻和事件的问题。而消息称 Meta 公司早在 8 个月前就组建了专门的团队，通过网络爬虫收集了大数量网页数据，并建立了一个信息数据库。

10/29/2024 8:49:19 AM 故渊

谷歌扩展 AI 总结搜索结果功能至全球 100 多个市场，覆盖 10 亿月活用户

谷歌扩展 AI 总结搜索结果功能至全球 100 多个市场，覆盖 10 亿月活用户

感谢谷歌公司昨日（10 月 28 日）发布博文，宣布在全球 100 多个国家和地区扩展 AI Overviews in Search 功能，覆盖全球 10 亿月活跃用户。 AI在线注：谷歌公司于今年 5 月在美国启动 AI Overviews in Search 功能，并于今年 8 月扩展到部分美国以外的市场，该功能主要用于 AI 总结搜索结果，让用户找到更契合的搜索结果。谷歌在博文中表示，将于本周开始将会在全球 100 多个国家和地区推出 AI Overviews 功能，覆盖全球 10 亿月活跃用户。

10/29/2024 8:14:46 AM 故渊

AI 电商设计新思路！Midjourney 一站搞定 N 种不同风格的场景素材

AI 电商设计新思路！Midjourney 一站搞定 N 种不同风格的场景素材

大家好，我是花生。自 Midjourney 的外部编辑功能上线后，我就一直有探索它在不同设计上的应用思路，尤其是电商设计这一块，没想到真得到了一些不错的结果。虽然只是比较初步的尝试，但从中能看到新版 Midjourney 在电商场景设计方面的巨大应用潜力，相信能给你带来新的启发和灵感。

10/29/2024 7:58:25 AM 夏花生

大厂实战！百度「捏合总结」功能设计复盘

大厂实战！百度「捏合总结」功能设计复盘

百度APP个人中心 AI 版重构设计复盘前言AI 能力的迅猛发展，为产品设计带来了很多新的可能性和机会。阅读文章 . 前言.

10/29/2024 1:38:43 AM 百度MEUX 团队

快来加书签！12个超好用的 AI 神器

快来加书签！12个超好用的 AI 神器

今天给大家推荐12个好用的AI工具，每一个都值得你加书签收藏！第三波！ 2024年10月精选实用设计工具合集大家好，这是 2024 年 10 月的第 3 波干货合集！

10/29/2024 12:38:40 AM AGI设计之路

2024 科大讯飞全球 1024 开发者节：AI 文娱论坛“重构内容与表达”完满落幕

2024 科大讯飞全球 1024 开发者节：AI 文娱论坛“重构内容与表达”完满落幕

10 月 24 日，2024 科大讯飞全球 1024 开发者节 AI 文娱论坛在合肥圆满举办。论坛以“重构内容与表达”为主题，旨在探讨 AI 时代下文娱产业的最新趋势，见证讯飞 AI 文娱业务的重大发布，与合作伙伴共同推动文娱行业的繁荣发展。科大讯飞副总裁 & 研究院院长刘聪、科大讯飞消费者事业群副总裁严亚路出席大会，讯飞输入法业务部总经理程坤、数字娱乐业务部总经理 & 讯飞音乐主理人郭嘉、数字娱乐业务部副总经理 & 讯飞音乐首席科学家江源分别作主题演讲。

10/28/2024 9:01:42 PM 汐元

一张显卡“看懂”一部电影：智源联合高校开源 Video-XL，打破长视频理解极限

一张显卡“看懂”一部电影：智源联合高校开源 Video-XL，打破长视频理解极限

长视频理解是多模态大模型的核心能力之一，也是迈向通用人工智能（AGI）的关键一步。然而，现有的多模态大模型在处理 10 分钟以上的超长视频时，仍然面临性能差和效率低的双重挑战。对此，智源研究院联合上海交通大学、中国人民大学、北京大学和北京邮电大学等多所高校，推出了小时级的超长视频理解大模型 Video-XL。

10/28/2024 4:29:25 PM 汪淼

先让不懂代码的来测？通义这个新产品，代码刚写完，预览就出来了

先让不懂代码的来测？通义这个新产品，代码刚写完，预览就出来了

这才是未来 AI 该有的样子？奇怪了。一款 AI 代码工具刚发布，限量测试却要求「不懂代码」的人优先。

10/28/2024 1:18:00 PM 机器之心

谷歌AI播客刚火，Meta就开源了平替，效果一言难尽

谷歌AI播客刚火，Meta就开源了平替，效果一言难尽

随着谷歌和 Meta 相继推出基于大语言模型的 AI 播客功能，将极大地丰富人类用户与 AI 智能体互动的体验。上个月，谷歌宣布对旗下 AI 笔记应用 NotebookLM 进行一系列更新，允许用户生成 YouTube 视频和音频文件的摘要，甚至可以创建可共享的 AI 生成音频讨论。加上此前支持的谷歌文档、PDF、文本文件、谷歌幻灯片和网页，NotebookLM 的用例和覆盖范围进一步扩大。

10/28/2024 1:14:00 PM 机器之心

世界模型新突破！极佳科技提出DriveDreamer4D，首次利用世界模型增强4D驾驶场景重建效果

世界模型新突破！极佳科技提出DriveDreamer4D，首次利用世界模型增强4D驾驶场景重建效果

近日，极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出DriveDreamer4D，是首个利用世界模型增强 4D 驾驶场景重建效果的工作。 DriveDreamer4D 可以大幅提升多种自动驾驶 4D 重建算法的效果，在 user study 实验中获得了超过 80% 的偏好投票，为走向空间智能和 4D 世界模型迈出了坚实的一步。论文链接：：：。

10/28/2024 1:11:00 PM 机器之心

Perplexity AI 搜索引擎每周处理 1 亿次查询，消息称微软 / X / OpenAI 有意收购

Perplexity AI 搜索引擎每周处理 1 亿次查询，消息称微软 / X / OpenAI 有意收购

综合 TechCrunch、The Information 报道，AI 搜索引擎 Perplexity 的首席执行官 Aravind Srinivas 透露，其产品目前每周的查询量已达到 1 亿次，推算下来每月约为 4 亿次，与 7 月的 2.5 亿次相比增长显著。当地时间 25 日，该公司披露称，随着公司快速扩展，Perplexity 正在逐步推出电商功能，计划让“Perplexity Pro”服务的订阅用户享受一键下单的便捷功能。同时，公司也在开发新的广告模式。

10/28/2024 11:17:16 AM 清源

CNCC 落幕：国产大模型已经进化到能在横店给我们点咖啡

CNCC 落幕：国产大模型已经进化到能在横店给我们点咖啡

今年到 CNCC 现场参会的朋友，想必都对 CNCC 2024 举办所在地——超过 6200 亩的横店圆明新园印象深刻！虽然园内建筑身临其境，并且薅了主办方一把羊毛，免门票游览了圆明新园与横店多个著名旅游景点，但园子实在是太大了。参会人数超过 1 万 2，园内车辆、美食供不应求，小编表示腿已经走断。

10/28/2024 10:29:00 AM 朱可轩

轻舟智航完成数亿元C+轮融资，加速从L2++到L4级自动驾驶的渐进式进化

轻舟智航完成数亿元C+轮融资，加速从L2++到L4级自动驾驶的渐进式进化

10月28日，轻舟智航（QCraft）宣布完成数亿元人民币C 轮新融资。本次融资由逐鹿聚航基金投资，资金将用于加大全栈自动驾驶技术的研发投入，扎实推进中高阶NOA方案的大规模量产交付，以持续、高效的量产数据积累驱动技术迭代，稳步实现从L2 到L4级自动驾驶技术的渐进式进化，推动L4级自动驾驶时代的全面到来。轻舟智航联合创始人、CEO于骞表示：“感谢逐鹿聚航基金对轻舟智航的坚定支持与信任！

10/28/2024 10:17:00 AM 新闻助手

资讯热榜

AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月免费！让图片放大不失真的位图转矢量图神器 Tmttool 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉