应用
NUS 推出 OmniConsistency:低成本实现图像风格化一致性,挑战 GPT-4o!
近日,新加坡国立大学(NUS)团队发布了一个名为 “OmniConsistency” 的创新项目,旨在以极低的成本复现 OpenAI 的 GPT-4o 模型在图像风格化上的一致性。 这项技术不仅解决了当前开源社区在图像风格化和一致性之间的矛盾,还为广大开发者提供了可行的解决方案。 近年来,图像风格化的技术不断发展,但在实际应用中,风格与内容一致性之间的平衡一直是个难题。
内幕曝光:苹果拥有媲美ChatGPT的 1500 亿参数AI模型却拒绝发布
据苹果内部消息人士马克·古尔曼透露,在Apple Intelligence推出一年后,即将于 6 月 9 日举行的苹果年度开发者大会(WWDC)将暴露出这家科技巨头在人工智能领域的战略困境。 开放"缩水版"模型,核心技术秘而不宣WWDC的AI重头戏将是向第三方开发者开放苹果自研的基础模型。 然而,这些可在苹果设备上运行的模型仅拥有约 30 亿个参数,在当前行业标准下规模偏小,性能表现也相对有限,主要支持文本摘要等基础功能。
Getty Images CEO 谈 AI 版权诉讼:诉讼费用难以承受
Getty Images首席执行官克雷格・彼得斯(Craig Peters)在最近接受 CNBC 采访时表示,作为一家大型图像版权公司,Getty Images在面对人工智能技术引发的版权争议时,面临着巨大的财务压力。 他指出,即使是像盖蒂这样的大公司,也难以承担每一宗侵权案件的诉讼费用。 彼得斯提到,Getty Images目前正在对生成图片的人工智能公司 Stability AI 提起诉讼,原因是该公司未经授权,使用了Getty Images的1200万张图片用于训练其 AI 系统。
Hume AI重磅发布EVI 3:懂你情绪的语音AI,比GPT-4o还快!
近日,Hume AI正式发布了其第三代语音交互模型EVI3,这一全新语音AI以其卓越的情感理解能力和个性化交互体验引发业界广泛关注。 EVI3不仅能精准识别用户语音中的情绪,还能根据用户喜好生成特定风格的声音和个性,标志着语音AI在情感交互和自然沟通领域的重大突破。 以下,AIbase为您带来关于EVI3的最新资讯和深度解析。
犹他州律师因引用ChatGPT生成虚假案例遭法庭处罚,AI 应用引发争议
近日,美国犹他州一名律师理查德・贝德纳因在法庭文件中引用由 ChatGPT 生成的虚假案例而遭到法院的制裁。 据《卫报》报道,这起事件引发了对人工智能在法律领域应用的广泛讨论。 贝德纳与同事道格拉斯・杜尔巴诺共同提交了一份上诉申请,但在审查过程中,发现文中引用了多个不存在的法律判例。
昔日巨头 Digg 归来:以零知识证明对抗机器人,构建创作者友好型社区
在人工智能生成内容日益泛滥、威胁淹没真实人类声音的当下,昔日的新闻聚合巨头 Digg 正试图以全新的面貌回归,重拾早期互联网的社区精神。 创始人 Kevin Rose 和 Reddit 联合创始人 Alexis Ohanian 联手,希望将 Digg 打造成一个属于人工智能时代的社交平台,在这个平台上,内容创造者和社区管理者将从平台的成功中获得更直接的回报。 Digg 曾是 Web2.0时代的明星,2008年估值一度高达1.75亿美元。
AI 攻击 AI:全球超 1.7 万 Open WebUI 实例被入侵,威胁 Linux 和 Win10 / Win11 用户
网络安全公司 Sysdig 示警,有攻击者利用配置不当的 Open WebUI 实例,通过 AI 生成的恶意软件入侵系统,威胁 Linux 和 Windows 用户。
2 万英国公务员洞察:AI 可帮助其每天节省 26 分钟
英国政府数字服务部门(GDS)昨日(6 月 2 日)发布涉及 2 万公务员的调查报告,结果显示,使用 Microsoft 365 Copilot 的参与者平均每天节省 26 分钟时间,超 70% 用户表示减少了搜索信息和日常任务的时间,82% 用户不愿回到未使用 Copilot 的工作状态。
谷歌 Gemini Live 功能正式登陆 iOS 平台,开启 AI 识别新体验
近日,谷歌宣布其创新的 Gemini Live 功能现已正式上线苹果 iOS 和 iPadOS 平台,但目前仅限于美国地区的用户体验。 这项新功能允许用户通过 Gemini App,轻松享受 AI 识别场景和屏幕内容的便利。 令人惊喜的是,这一切都是免费的,无需额外的订阅费用。
马斯克的 xAI 公司启动 3 亿美元股票出售计划,估值高达 1130 亿美元
根据《金融时报》的报道,埃隆・马斯克(Elon Musk)旗下的人工智能初创公司 xAI 正在启动一项价值 3 亿美元的股票出售计划。 这项计划被认为是在二级市场进行的,目的是为了让公司员工能够将股份出售给新投资者。 此次股票出售的估值达到了 1130 亿美元(约合 8136.7 亿元人民币),显示出市场对 xAI 的高度关注。
AI 招聘初创 Moonhub 关停:Salesforce 吸纳部分人才
据 TechCrunch 报道,Salesforce 发言人澄清,该公司并非如最初报道那样“收购”了 AI 招聘初创公司 Moonhub。 发言人表示,Moonhub 实际上正在关闭,只有部分团队成员将加入 Salesforce,而非此前 Moonhub 声明中暗示的整个团队。 Moonhub 由前 Meta 工程师 Nancy Xu 于2022年创立,专注于开发利用人工智能技术筛选和招聘人才的工具。
ChatGPT 高级语音模式惊现 “广告插播”!用户质疑服务质量
最近,一名 ChatGPT 的付费用户在使用其高级语音模式时,遇到了让人惊讶的情况。 他原本在与 ChatGPT 讨论寿司的话题,却突然被转入了一段广告宣传,令他目瞪口呆。 根据用户的描述,ChatGPT 在谈话中毫无预兆地开始介绍一种名为 Prolon 的营养计划,并且详细拼读了网址,似乎这段广告是完全不受控制地被植入的。
OpenAI 计划将 ChatGPT 打造成超级助手,直击苹果 Siri 市场
根据近期曝光的 OpenAI 战略文件,该公司计划在2025年上半年将 ChatGPT 打造成一款 “超级助手”,以挑战苹果的 Siri 市场地位。 这份文件通过美国司法部对谷歌的反垄断案件被解密,透露了 OpenAI 对于 ChatGPT 未来发展的宏伟蓝图。 文件中指出,OpenAI 希望 ChatGPT 成为一个具备 T 型技能的智能助手。
微软在瑞士投资 4 亿美元 扩展云计算与人工智能基础设施
微软宣布将投资4亿美元用于加强其在瑞士的云计算和人工智能(AI)基础设施。 这项投资是在瑞士经济部长盖伊・帕默林与微软副主席布拉德・史密斯的会谈中透露的,标志着微软在人工智能和云服务领域的持续扩张。 微软在瑞士的业务团队目前约有1000名员工,新的资金将主要用于日内瓦和苏黎世附近数据中心的扩建与升级。
微软推出 Bing Video Creator,免费助力用户轻松创作 AI 视频
最近,微软宣布推出一款新工具 ——Bing Video Creator。 这款工具是基于 OpenAI 的 Sora 技术,让用户能够通过简单的文字提示轻松创建短视频。 与两年前发布的必应图像创建器相似,Bing Video Creator 将 AI 视频生成的功能带给了普通用户。
微软必应推出全新视频创作工具,用户可轻松生成 AI 视频
微软必应(Microsoft Bing)于本周一正式推出了一款全新的 “Bing 视频创作器”,这项功能基于 OpenAI 的 Sora 模型,标志着视频生成能力的首次免费开放,普通用户也可以轻松通过文本提示生成视频。 此次 Bing 视频创作器的上线,让用户能够用简单的文字描述,创造出属于自己的短视频。 值得注意的是,这一功能目前仅支持移动设备,尚未在桌面端推出。
OpenAI用Rust重新打造Codex CLI,告别Node.js
近日,科技媒体 Dev Class 报道,OpenAI 宣布将其 AI 编程工具 Codex CLI 从原本的 Node.js 架构迁移到 Rust 语言重写。 这一决定引发了业界的广泛关注,特别是对于技术开发者和用户而言,Rust 的加入可能会带来诸多意想不到的优势。 Codex CLI 是 OpenAI 开发的一款实验性 AI 编程工具,用户可以通过 ChatGPT 的网页界面或本地命令行进行操作。
零基础也能轻松上手!3款大厂出品的AI编程工具深度测评
生成式 AI 的不断发展,正在让设计与开发界限逐渐模糊。 今天,UI/UX 设计师的角色正在向「全链路」延伸。 能否快速验证设计落地的可行性、与开发者高效协作,甚至自主实现简单的前端逻辑,已成为衡量设计师竞争力的新维度。
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
谷歌
DeepSeek
AI新词
AI绘画
大模型
机器人
数据
Midjourney
开源
Meta
微软
智能
用户
GPT
学习
英伟达
Gemini
智能体
技术
马斯克
Anthropic
图像
AI创作
训练
LLM
论文
AI for Science
代码
腾讯
苹果
算法
Agent
Claude
芯片
具身智能
Stable Diffusion
xAI
蛋白质
人形机器人
开发者
生成式
神经网络
机器学习
AI视频
3D
字节跳动
大语言模型
RAG
Sora
百度
研究
GPU
生成
华为
工具
AGI
计算
生成式AI
AI设计
大型语言模型
搜索
亚马逊
AI模型
视频生成
特斯拉
DeepMind
场景
Copilot
深度学习
Transformer
架构
MCP
编程
视觉