应用

科大讯飞：讯飞星火 V4.0 正在训练中，对标 GPT-4o 的产品也在研发

科大讯飞在“深交所互动易”平台回复网友提问时透露，对标 GPT-4 当前能力的讯飞星火 V4.0 正在训练中，预计在 2024 年 6 月底发布，对标 GPT-4o 的产品正在研发中。科大讯飞方面表示，公司将紧密结合人工智能的演进和突破，把成果持续应用到智慧教育的每个产品中，不断提升产品的用户体验和客户渗透率。而在今年 4 月，科大讯飞董事长刘庆峰曾透露，今年 6 月 27 日，讯飞星火 V4.0 将正式发布。刘庆峰当时表示，星火大模型（IT之家注：讯飞星火大模型 V3.5）的通用长文本能力，包括长文档信息抽取、长

6/2/2024 4:30:06 PM 清源

一句话搞定爆炸音效，ElevenLabs 推出新 AI 工具

ElevenLabs 此前已推出利用人工智能生成人类声音和音乐的工具，现在他们更进一步，推出了可以为播客、电影或游戏创作音效的工具。ElevenLabs 的名为“Sound Effects”的新工具可以根据用户提供的文本描述生成最长 22 秒的音效，并与公司原有的语音和音乐平台结合使用。用户每次使用“Sound Effects”后，可以获得至少四个可下载的音频片段供选择。 ElevenLabs 与素材平台 Shutterstock 合作，利用其庞大的音频素材库训练了生成式模型。据悉，Shutterstock 的内容

6/2/2024 3:20:09 PM 远洋

生成式 AI 技术大爆发，2026 年中国人形机器人产业规模或破 200 亿元

据央视财经今晚报道，人形机器人是“未来感十足”的一个代表产业，数据显示预计到 2026 年，中国人形机器人产业规模将突破 200 亿元。在生成式人工智能技术大爆发的当下，未来人形机器人更是极有可能实现超预期增长。根据中国电子信息产业发展研究院“赛迪顾问研究”的报告显示，2023 年人形机器人产业进入爆发期，未来功能型整机将逐步占据主流、发展潜力巨大。在人类工作生活的环境中，人形机器人可以处理复杂多样的工作任务，辅助或替代人类进行工作。人形机器人有望率先在工业领域实现示范应用，在特种领域将逐步替代人类，并将于成熟度较

6/1/2024 10:34:37 PM 清源

2024未来汽车先行者大会丨顾维灏：AI大模型是自动驾驶实现的唯一路径

6月1日，毫末智行CEO顾维灏受邀出席2024（第二届）未来汽车先行者大会，并在现场发表主题演讲《自动驾驶3.0时代，大模型重塑汽车智能化路线》。顾维灏表示：“AI大模型是自动驾驶真正实现的唯一路径，端到端会是未来很重要的技术方向。端到端不仅仅是模型端的优化，也需要数据的供给与算力的支持。毫末DriveGPT从2022年就开始探索端到端的解决方案，一旦应用会带来非常惊艳的效果。”（毫末智行CEO顾维灏受邀出席2024未来汽车先行者大会）第二届未来汽车先行者大会以“争流”为主题，6月1日-6月2日在深圳国际会展中心（

6/1/2024 9:24:00 PM 新闻助手

“乐坛 ChatGPT”Suno 发布 V3.5 模型，所有人可免费制作 4 分钟歌曲

感谢此前引起IT之家网友热议的“乐坛 ChatGPT”Suno 日前发布了 V3.5 版本，并宣布已经向所有用户开放。此次开放后，所有用户都可以：制作 4 分钟的歌曲创建最长 2 分钟的歌曲扩展体验改进后的歌曲结构和声音流畅度Suno 是一款生成式人工智能音乐创作平台，旨在产生人声与乐器相结合的逼真歌曲。此前，Suno 已在 3 月 21 日向所有用户发布 v3 版本，该版本支持免费账户创建 2 分钟的歌曲。该平台最令人惊奇之处，就是在用户给出指定歌词之后能够生成不同曲风、流派的歌曲，甚至可以指定 AI 歌手的音色

6/1/2024 5:16:01 PM 清源

OpenAI重拾机器人梦想

机器之能报道编辑：文华如今，OpenAI 有钱有名有人才，是时候重拾机器人梦想了。OpenAI 正值多事之秋。先是安全团队愤而离职，再是寡姐指控其盗用声音，紧接着奥特曼遭前董事会成员背刺……历经一系列动荡，OpenAI 似乎挺沉得住气，最近还传出「重启机器人团队」的新消息。-1-OpenAI 重启机器人团队据《福布斯》援引知情人士的消息，OpenAI 正在招聘研究工程师，以重启四年前解散的机器人团队。报道称，尽管 OpenAI 尚未公开宣布其自主研发的机器人计划的细节，但在最近的招聘信息中解释说，新员工将成为团队

6/1/2024 4:57:00 PM 机器之能

阿里巴巴与世卫组织达成战略合作，全球推广达摩院 AI 癌症筛查技术

感谢昨日（5 月 31 日），联合国在瑞士日内瓦召开 AI for Good 全球峰会，阿里巴巴与世卫组织（WHO）数字健康合作中心达成战略合作，向全球推广达摩院 AI 癌症筛查技术。阿里巴巴表示，在国内，达摩院 AI 癌症早筛技术已经为超过 600 万人次提供服务，覆盖胰腺癌、食管癌、肠癌、胃癌、肝肿瘤等病症的筛查，国际上已经与安提瓜和巴布达卫生部达成战略合作。在此次签约后，世卫组织数字健康国际合作中心将从渠道、市场、落地、技术、标准等方面提供支持。全球更多医疗资源不均衡的发展中国家和地区将共享这项前沿成果。据阿

6/1/2024 2:35:14 PM 浩渺

解锁 GPT-4o，“上帝”版 ChatGPT 绕过 OpenAI 防护栏：能回答制作汽油弹等问题

网名为 Pliny the Prompter 的用户 5 月 30 日发布推文，表示已成功越狱 GPT-4o 模型，新推出的上帝模式“GODMODE”可以在 ChatGPT 挣脱安全措施，让用户尽情展开 AI 聊天。Pliny the Prompter 自称是网络白帽和红队（主要为攻击测试），推文中表示：“请负责任地使用，并尽情享受！”IT之家附上相关截图如下：Pliny 分享了一些截图，证明已经绕过 OpenAI 的“防护栏”，其中一张截图 AI 为 Pliny 提供了如何“用家用物品制作凝固汽油弹”教程。科技媒

6/1/2024 10:40:01 AM 故渊

人人都是“专家”，Perplexity AI 推出 Pages：将网络搜索转换为报告 / 文章 / 指南

AI 搜索引擎公司 Perplexity AI 推出了名为“Pages”的全新功能，可以基于页面搜索结果内容，自动生成一份格式工整、内容详实的报告 / 文章 / 指南。IT之家附上其中案例，如果你想要撰写一篇关于“撒哈拉沙漠”的报告，那么只需要在 Pages 中输入“有关撒哈拉沙漠的信息”等提示词，然后选择受众类型（包括初级、高级或普通用户），就能快速生成相关的报告。Perplexity 表示，它的算法可以创建一篇包含不同章节的详细文章。用户可以要求人工智能工具改写或重新格式化任何部分，甚至删除它们。此外，用户还可

6/1/2024 7:56:24 AM 故渊

拼多多上线AI评价！从5个体验角度全面分析新功能

今天想在拼多多上买个机械键盘，在浏览商品详情页的时候突然发现评价模块已经融合了 AI 能力，就像下面这张图：在所有评价信息的上方会有一块智能评价总结的文字：这块文字中会根据已有的全部用户的评价来智能生成整体的评价。作者首先是比较惊讶，拼多多这种对新技术的创意性应用。设计者的思路也比较容易理解，评价信息是影响用户购买决策的非常重要的因素之一，这种方案客观上可以节省用户查看评价的时间，能够以更高的效率确定此商品受到的整体评价是偏正面的，还是偏负面的。当然这也仅仅是理想的情况下。因为大家都知道，现在无论任何电商平台

6/1/2024 12:46:21 AM 杜昭⁰

谷歌：正在修复“吃胶水”等奇怪 AI 摘要，数据空缺及用户“恶搞”系主因

谷歌搜索部门主管 Liz Reid 当地时间 30 日发长文，针对近期出现的 AI Overviews 搜索给出的重大事实错误内容作进一步的回应。Liz Reid 解释说，诸如“吃胶水”“吃石头”等奇怪的建议，是数据空缺和用户的“恶搞”所造成的。“此外，还有大量伪造的截图被广泛传播，其中一些伪造的结果显而易见且十分愚蠢。另一些则暗示我们为诸如将狗留在车内、孕妇吸烟和抑郁症等话题提供了危险的结果。这些 AI 概述从未出现过。因此，我们鼓励任何遇到这些截图的人亲自进行搜索以进行验证。”例如“我应该吃多少块石头”的回答，

5/31/2024 8:17:17 PM 清源

学而思学习机智能助手“小思”升级：新增作业模式、圈圈学、AI 口语分级练

IT之家从学而思智能官方公众号获悉，学而思学习机内置智能助手“小思”升级至 2.0 版本，新增了作业模式、圈圈学、AI 口语分级练、小思对话等 AI 功能。小思作业模式有多种作业布置方式，可以自己拍照添加，也可以通过家长端添加；写作业时，会有任务计时、轻音乐背景；完成作业后，可以拍照提交作业，同步到家长端。写作业时遇到问题，可以呼唤“小思小思”，不认识的字和单词小思可以给出提示，对于数学题小思会给出思路引导并进行主动提问。新增“小思圈圈学”功能，遇到问题将其圈起来，可实现数学题目思路指引、英语翻译、生字讲解等。“A

5/31/2024 5:34:06 PM 沛霖（实习）

AI内容创作开卷，为什么百度文库成为超强玩家？

如今，学习办公、家庭教育和兼职赚钱三大场景的内容创作，用 AI 重构的百度文库能全搞定了。大语言模型发展至今，对各行各业的赋能程度越来越深，一些代表性产品正在改变甚至颠覆着整个行业。简单回顾便能发现，ChatGPT 引领了一场文本创作革命、Stable Diffusion 等文生图大模型降低了绘画门槛、视频大模型 Sora 令影视从业者感到恐慌、音乐大模型 Suno 引发了一场音乐圈地震…… 我们能够感受到 AI 大模型重塑内容创作行业尤其是跨模态生成的巨大潜力。如今，AI 大模型能力的释放，不仅可以将用户需求转

5/31/2024 4:00:00 PM 机器之心

解决Transformer根本缺陷，CoPE论文爆火：所有大模型都能获得巨大改进

即使最强大的 LLM 也难以通过 token 索引来关注句子等概念，现在有办法了。最近两天，马斯克和 LeCun 的口水战妥妥成为大家的看点。这两位 AI 圈的名人你来我往，在推特（现为 X）上相互拆对方台。LeCun 在宣传自家最新论文时，也不忘手动 @ 一把马斯克，并意味深长地嘱咐道：「马斯克，我们这项研究用来改善你家的 Grok 也没问题。」LeCun 宣传的这篇论文题目为《 Contextual Position Encoding: Learning to Count What’s Important 》，

5/31/2024 3:28:00 PM 机器之心

爆火ChatTTS突破开源语音天花板，3天斩获9k的Star量

未来人与人的交流，难道是这个样？近日，一个名为 ChatTTS 文本转语音项目爆火出圈，引来大家极大的关注。短短三天时间，在 GitHub 上已经斩获了 9.2 k 的 Star 量。项目地址： x 上表示，ChatTTS 突破了开源天花板。不过，目前开源的只是底模，没有经过 SFT 监督微调。该项目将文本转换成语音，效果是这样的：ChatTTS 不仅能说中文，英文也能 hold 住，还支持一些细粒度控制，它允许你加入笑声、说话间的停顿，还有语气词，可玩性很强。它可以复刻已经逝去的人的绝版声音，想要再听到乔布斯开

5/31/2024 3:21:00 PM 机器之心

神笔马良画出三维世界，基于线稿的3D生成编辑方法SketchDream来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本论文作者是中国科学院计算技术研究所高林老师及其博士生刘锋林，香港城市大学傅红波老师，卡迪夫大学来煜坤老师。该项研究工作受到国家自然科学基金委、北京市自然科学基金委、北京市科学技术委员会的

5/31/2024 3:04:00 PM 机器之心

微软重磅发布 Windows 11 AI PC，高通为何也意外收获一片好评

要问 2024 年 PC 行业最重要的话题和趋势是什么，那毫无疑问就是“AI PC”了，经过一年多的发展进化，生成式 AI 在今年迈入规模化普及的初期，AI PC 就是其中的排头兵，整个行业都在探索如何更深入地让 AI 赋能 PC。而就在 5 月 21 日，微软又为 AI PC 领域带来了新的重磅突破，他们在 2024 Build 开发者前瞻大会发布了在 AI PC 领域最新的探索成果 ——“Copilot PC”。“Copilot PC”的一项硬件要求是不依赖云，可以在本地处理生成式 AI Copilot 进程

5/31/2024 3:01:18 PM 汐元

AI时代如何重构社交？Soul App 通过媒体开放日活动这样回答

5月30日，社交平台Soul App在上海举办媒体开放日活动，以“人与人工智能是否能够真正成为「朋友」”为主题，分享了平台前沿技术探索和最新产品应用实践，并邀请了复旦大学教授肖仰华以及众多行业观察者，一同探讨AIGC＋社交的应用及未来发展可能性。媒体开放日活动是Soul与外界达成长效、深度链接的重要桥梁。在AI为各行各业带来颠覆式发展新机会的当下，Soul作为“AIGC 社交”领域前沿探索者，希望通过本次活动，全面展示Soul在AI方面的技术积累及落地实践，为行业提供可行的方向参考。模应一体：AI重构关系链与社交体

5/31/2024 2:04:00 PM 新闻助手

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ OmniParser V2 在 Windows 系统上的详细安装与运行指南

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉