AI安全护栏(AI Guardrails)针对大模型输入内容和生成内容两个场景,支持对专门设计的内容合规、敏感内容、提示词攻击这三个方面的内容风险进行检测。此外,控制台还提供了完善的在线测试、数据报表、结果查询等功能。
AI安全护栏产品功能集
检测项配置
功能描述:支持对不同场景设置相应的检测项内容,并对精细化标签进行开关的配置。具体如下:
场景(检测项规则名称)
功能
功能描述
AI输入内容安全检测(query_security_check)
内容合规检测
支持检测大模型输入内容中的政治敏感、色情暴力等底线风险及辱骂、偏见、不良价值观等违规内容。
敏感内容检测
对大模型输入内容中的个人敏感信息、企业敏感信息开展自动化识别与分类分级工作。
提示词攻击检测
识别大模型输入内容中通过精心设计的提示词来操纵大语言模型、或技术手段绕过大模型内置安全机制,进而影响模型正常运行或生成有害、不当内容。
AI生成内容安全检测(response_security_check)
内容合规检测
支持检测大模型生成内容中的政治敏感、色情暴力等底线风险及辱骂、偏见、不良价值观等违规内容。
敏感内容检测
对大模型生成内容中的个人敏感信息、企业敏感信息开展自动化识别与分类分级工作。
提示词攻击检测
识别大模型生成内容中,通过提示词操纵(如诱导性、对抗性 prompt 构造)、技术手段绕过(如编码混淆、多轮对话伪装)等方式突破安全策略,刻意生成的违规内容。
词库管理与匹配
功能描述:在进行内容合规检测时,如果需要定制私有化的审核规则,可以通过设置有风险的违规关键词名单或者在检测文本前需要过滤掉的关键词名单,然后配置匹配关键词的检测规则。
操作方法,详见:操作指南
代答库管理与设置
功能描述:在进行内容合规检测时,如果需要针对被拦截的内容采用预先设置的答案库内容进行替换,可以使用该功能。
操作方法,详见:操作指南
在线测试
功能描述:支持对AI安全护栏产品覆盖的内容合规检测、敏感内容检测以及提示词攻击检测进行在线测试,快速验证审核策略效果。
操作方法,详见:快速使用在线测试功能
结果查询
功能描述:支持用户通过结果查询功能查看过检内容的审核结果与返回参数,可以满足分析高频风险类型等需求。
操作方法,详见:操作指南
风险报表
功能描述:支持用户通过查看风险报表了解内容安全检测、敏感数据检测、提示词攻击检测的调用趋势统计以及调用风险分布。
操作方法,详见:操作指南