安全
60%情况下,主流大模型没理解风险只是装懂!别被模型的“安全答案”骗了
让推理模型针对风险指令生成了安全输出,表象下藏着认知危机:即使生成合规答案,超60%的案例中模型并未真正理解风险。 换句话说,主流推理模型的安全性能存在系统性漏洞。 针对此种现象,淘天集团算法技术-未来实验室团队引入「表面安全对齐」(Superficial Safety Alignment, SSA)这一术语来描述这种系统性漏洞。
6/10/2025 11:25:06 AM
简析新一代身份安全解决方案—— AI IAM
统一身份和访问管理(Identity and access management,IAM)是一套体系化的身份安全解决方案,涵盖了技术、策略和流程,主要用于管理用户身份并控制用户对企业资源的合规访问。 在当今“数字优先”的世界中,IAM技术对组织变得越来越重要,因为组织内的员工需要在任何设备(服务)上实现“work-from-anywhere“的访问模式,这就需要比以往更加安全地赋予和验证数字身份,以实现安全的数字连接。 在此背景下,基于先进AI技术构建的新一代IAM解决方案应运而生。
6/9/2025 2:00:00 AM
博士级AI智能体写的论文,首次登上顶会ACL!人类作者只是监工
有个叫Zochi的AI系统写了一篇研究论文,并且被顶级学术会议ACL 2025的主会场接受了! ACL是自然语言处理(NLP)领域里最顶尖的会议之一。 Zochi是Intology AI开发的首个博士级智能体,就像一个从头到尾完成科学研究「AI科学家」。
5/30/2025 9:15:00 AM
xAI 承诺的安全报告未如期发布
近日,埃隆・马斯克创办的人工智能公司 xAI 未能如期发布一份有关 AI 安全的最终框架,这一消息引起了监测机构 “Midas Project” 的关注。 xAI 在 AI 安全方面的表现一直不尽如人意,其 AI 聊天机器人 Grok 在处理某些请求时,曾出现不当行为,比如不经意地处理女性照片。 同时,Grok 在语言表达上也比竞争对手如 Gemini 和 ChatGPT 更加粗俗,频繁使用脏话。
5/14/2025 9:01:03 AM
AI在线
DataBahn.ai推出“数据礁”智能化安全情报的新时代
在网络安全领域,如何快速而准确地处理海量数据是企业面临的一大挑战。 最近,数据科技公司 DataBahn.ai 推出了一款名为 “数据礁”(Reef)的创新产品,旨在将高流量、高速度的安全监测信息转化为及时、可操作的情报,帮助企业做出更明智的决策。 如今,企业收集的日志、警报和监测数据多达数 PB,但实际上仅分析不到5%。
4/28/2025 6:00:40 PM
AI在线
CrowdStrike 推出 Charlotte AI,开启安全运营新纪元
在近期的 RSA2025大会上,网络安全领导者 CrowdStrike(NASDAQ: CRWD)正式发布了其全新的 AI 平台 Charlotte AI,旨在彻底改革安全运营中心(SOC)的运作模式。 Charlotte AI 不仅将智能自动化与人类网络安全专家的经验相结合,还通过其独特的 “自主推理和响应” 能力,提升了对网络威胁的检测、调查和响应效率。 Charlotte AI 平台包括几个核心模块,首次实现了在没有人工提示的情况下,自动分析和处理第一方和第三方数据。
4/28/2025 6:00:40 PM
AI在线
首个大模型全链路安全综述 !南洋理工新国立等发布LLM Safety全景图:从数据、训练到部署的全面梳理
随着人工智能技术迅猛发展,大模型(如GPT-4、文心一言等)正逐步渗透至社会生活的各个领域,从医疗、教育到金融、政务,其影响力与日俱增。 然而,技术的进步也伴随着潜在风险——大模型安全这一议题正成为全球科技界关注的焦点。 南洋理工大学、新加坡国立大学等全球40余所顶尖机构的67位学者联袂打造大模型全链路安全综述,综合梳理了843篇文章,系统的从全栈视角分析了大模型从出生到应用的全栈安全,涵盖数据准备→预训练→后训练→部署→商业化应用以及安全性评估等全部阶段。
4/27/2025 9:07:00 AM
量子位
AI 生成的代码真的安全吗?
译者 | 陈峻审校 | 重楼软件开发与编程曾经被认为是只有具备深厚专业知识与技能的程序员才能胜任的工作。 不过,现在貌似任何人都可以利用自然语言工具来实现并完成了。 与此同时,过去那些需要数天、甚至数月才能开发出来的功能,现在完全可以在 AI 模型的代码加持下、在几分钟之内被开发出来。
3/28/2025 8:00:00 AM
陈峻
AI安全助手重塑SOC运作方式
随着微软六个新的AI安全副驾驶的推出,越来越多人意识到AI安全助手在安全运营中心(SOC)的价值。 这些工具正在重塑SOC的运作方式,使安全团队能够更快、更准确地应对威胁。 解决SOC团队痛点在当今网络安全领域,安全运营中心(SOC)面临着双重挑战:一方面是海量告警信息的持续涌入,另一方面是专业人才的严重短缺。
3/28/2025 12:00:00 AM
SplxAI 获 700 万美元融资,助力组织安全部署 Agentic AI
在人工智能(AI)技术迅猛发展的背景下,SplxAI 公司宣布成功获得700万美元的种子融资,由 LAUNCHub Ventures 领投,Rain Capital、Inovo、Runtime Ventures、DNV Ventures 及 South Central Ventures 也参与了投资。 此次融资将用于加速 SplxAI 平台的开发与推广,帮助企业确保内部 AI 代理和面向客户的 AI 应用程序的安全性。 图源备注:图片由AI生成,图片授权服务商MidjourneySplxAI 是一家专注于 Agentic AI 的攻防安全公司,旨在为安全领导者和 AI 开发者提供有效的安全测试工具。
3/27/2025 5:58:00 PM
AI在线
保护LLM的身份和访问管理解决方案IAM
译者 | 李睿审校 | 重楼在人工智能时代,大型语言模型(LLM)的应用正在迅速增长。 这些模型提供了大量的机会,但同时也带来了新的隐私和安全挑战。 应对这些挑战的基本安全措施之一是保护对LLM的访问,以确保只有经过授权的人员才能访问数据和执行任何操作的权限。
3/21/2025 8:00:00 AM
李睿
AI安全的头等大事:建立AI资产清单
随着人工智能(AI)技术的迅猛发展,企业首席信息安全官(CISOs)正面临前所未有的挑战,既要满足企业业务快速迈向智能化的需求,同时又要防御爆炸式增长的AI安全威胁。 风靡全球的DeepSeek只是AI工具潮的一朵浪花,未来还将有更多类似工具快速涌现。 这些未经授权的(消费级)AI应用如同一颗颗定时炸弹,潜伏在企业内部,威胁着数据安全与合规性。
3/13/2025 1:38:28 PM
佚名
DeepSeek“防弹衣”来了,模型内生安全加固方案,拒绝杀敌一千自损八百|上海AI Lab
最新研究显示,以超强推理爆红的DeepSeek-R1模型竟藏隐形危险——即便最终拒绝回答,其思考过程仍可能泄露有害内容。 现有防御技术深陷两难:要么防不住攻击,要么让模型变成”惊弓之鸟”,连正常问题都拒绝回答。 上海交大与上海AI Lab联合推出安全防御方案——X-Boundary,试图破解两难局面。
3/13/2025 1:10:00 PM
量子位
攻破OpenAI o1/o3、DeepSeek R1防线,安全推理过程反成大模型「阿喀琉斯之踵」
本文共同第一作者是杜克大学计算进化智能中心的博士生郭士霆、张健一,导师为陈怡然教授。 在通往 AGI 的道路上,大型推理模型(LRMs)正以前所未有的速度迭代进化:OpenAI 的 o 系列模型凭借类人推理能力刷新多项基准,DeepSeek-R1 以极低的训练成本实现完全不输 o 系列模型的性能突破。 然而,在这股追求推理性能的浪潮之下,一个关乎技术伦理的隐忧正在浮现 —— 当模型运用自身强大的推理能力进行安全审查时,「展示安全推理思维链」这种透明化机制是否会暴露安全隐患?
3/10/2025 8:10:00 AM
机器之心
AI幻觉扰乱法庭,美国律师被重罚
继上月曝出律师团队使用AI编造的“虚假判例”提交法庭引发风波后,美国法律界再曝同类丑闻——印第安纳州南区联邦治安法官马克·丁斯莫尔上周裁定,律师拉斐尔·拉米雷斯因在多份法律文书中引用AI生成的虚构案例,需缴纳1.5万美元罚款。 这一系列事件暴露AI技术滥用对司法严谨性的冲击,也为法律从业者敲响“责任警钟”。 律师称“没想到AI居然会造假”案件缘起于一场劳资纠纷:工会组织“中中部运营工程师健康与福利基金”指控HoosierVac公司拒绝配合财务审计,拉米雷斯作为该公司代理律师,在2023年10月提交的辩护状中引用了一则法官无法检索到的判例。
3/5/2025 11:09:20 AM
佚名
周鸿祎谈AI幻觉与网络安全:问题不可夸大也不应忽视
在今年全国两会前夕,全国政协委员、360集团创始人周鸿祎就DeepSeek大模型及AI安全问题发表看法,强调正确认识AI安全,既不可夸大也不应忽视。 周鸿祎指出,当前AI安全议题需警惕被夸大的趋势。 他批评以OpenAI为代表的美国五大AI公司倾向于通过渲染AI不安全来为其垄断和闭源策略辩护,借此推动政府加强监管,阻挠后来者追赶。
3/4/2025 12:00:28 PM
AI在线
如何安全地使用第三方应用程序访问DeepSeek
译者 | 张哲刚审校 | 重楼AI编码助手改变了开发人员编写软件的方式。 它们可以自动执行重复性的任务,及早发现错误,进而加快开发进度。 但是,并不是所有的AI 编码工具在构建时都考虑到了安全性这个重要的问题。
2/28/2025 5:03:43 PM
张哲刚
资讯热榜
智谱AI全新企业级超级助手Agent CoCo正式上线
苹果发布全新Xcode 26开发者工具:内置ChatGPT先进AI功能
豆包App“一句话P图”功能全新升级 基于SeedEdit 3.0实现全面优化
DeepSeek前高管秘密创业,新AI Agent项目已获顶级VC押注
那个男人回来了!Ilya现身多伦多大学毕业典礼:AI 像是用数字方式复制出来的大脑!不管你愿不愿意,AI都将深刻影响你的一生!
ChatGPT 语音功能升级,实时翻译对话更自然流畅
支持MCP!开源智能体开发框架 Rowboat:打造你的智能助手只需几分钟
苹果向开发者开放本地AI能力,推出全新Foundation Models框架
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
数据
谷歌
机器人
大模型
Midjourney
用户
智能
开源
微软
GPT
学习
Meta
图像
技术
AI创作
Gemini
论文
马斯克
Stable Diffusion
算法
代码
英伟达
Anthropic
芯片
生成式
开发者
蛋白质
腾讯
神经网络
研究
3D
生成
训练
苹果
计算
智能体
Sora
机器学习
AI设计
AI for Science
Claude
GPU
AI视频
人形机器人
华为
搜索
场景
百度
大语言模型
xAI
预测
伟达
深度学习
Transformer
字节跳动
Agent
模态
具身智能
神器推荐
LLaMA
文本
视觉
Copilot
算力
工具
LLM
驾驶
API
大型语言模型
应用
RAG
亚马逊