可调控特征
OpenAI 揭示 AI 模型内部特征:可调控 “毒性” 行为助力安全 AI 开发
近日,OpenAI 发布了一项重要研究,揭示了人工智能(AI)模型内部存在的可调控特征,这些特征与模型的异常行为密切相关。 研究人员通过对 AI 模型内部表征的分析,发现了一些模式,这些模式在模型表现出不当行为时会被激活。 研究显示,某些特征与 AI 模型的有害行为,如撒谎或提供不负责任的建议,直接相关。
6/19/2025 2:01:28 PM
AI在线
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
谷歌
AI绘画
大模型
机器人
数据
Midjourney
开源
AI新词
Meta
微软
智能
用户
GPT
学习
技术
智能体
马斯克
Gemini
图像
Anthropic
英伟达
AI创作
训练
LLM
论文
代码
算法
AI for Science
Agent
苹果
Claude
芯片
腾讯
Stable Diffusion
蛋白质
开发者
xAI
生成式
神经网络
机器学习
3D
RAG
AI视频
人形机器人
具身智能
研究
大语言模型
百度
生成
GPU
Sora
工具
华为
计算
字节跳动
AI设计
大型语言模型
AGI
搜索
视频生成
场景
深度学习
生成式AI
架构
DeepMind
AI模型
亚马逊
特斯拉
Transformer
编程
视觉
预测
MCP