亚马逊Bedrock的护栏现已上线,配备新安全过滤器和隐私控制 新闻博客
- 15
Amazon Bedrock 发布安全防护与隐私控制新功能
关键要点
Amazon Bedrock 的 Guardrails 功能现已正式上线,提供定制的安全保护和隐私控制。该功能可以在生成人工智能应用中实施多种保护措施,以符合特定用例和企业的责任型 AI 政策。Guardrails 能够显著提高内容安全性,有助于阻止85的有害内容。新增的筛选功能包括识别不当行为、检测敏感信息等。今天,我很高兴地宣布,经过预览发布后,Amazon Bedrock 的 Guardrails 功能现已正式上线。Guardrails 能够帮助您在生成型人工智能 (generative AI) 应用中实施定制的安全保护措施,符合您的用例和责任型 AI 政策。您可以为不同用例创建多种保护措施,并在多个基础模型 (FMs) 上应用它们,从而提升最终用户体验,并在生成型 AI 应用中标准化安全控制。这一功能可以与 Amazon Bedrock 中的所有大型语言模型 (LLMs) 结合使用,包括经过微调的模型。
Guardrails 为用户提供了行业领先的安全保护,能够比一些基础模型原生提供的保护效果要好85。这是现有主要云服务提供商中唯一能够让用户建立和定制安全及隐私保护的责任型 AI 解决方案。而且,该功能与所有 Amazon Bedrock 中的 LLM 及微调模型兼容。
Aha! 是一家帮助超过 100 万人实现产品战略的软件公司。Aha! 的联合创始人兼首席技术官 Chris Waters 博士表示:“我们的客户每天都依赖我们设定目标、收集客户反馈并创建可视化路线图。这就是我们为何使用 Amazon Bedrock 来支持许多生成型 AI 功能的原因。Amazon Bedrock 提供的责任型 AI 特性使我们能够全面控制信息,并通过 Guardrails 阻止有害内容。我们刚刚在此基础上开发了新功能,帮助产品经理通过分析客户反馈发现洞察。这仅仅是个开始,我们将继续利用 AWS 的先进技术,帮助各地的产品开发团队在自信中优先考虑下一步的建设方向。”
在 预览博客中,Antje 演示了如何利用 Guardrails 配置内容过滤阈值以筛选有害内容,并定义需要在应用程序上下文中避免的一系列主题。内容过滤功能现已增加两个额外的安全类别:不当行为用于检测犯罪活动,提示攻击用于检测提示注入和越狱尝试。此外,我们还增加了重要的新功能,包括敏感信息过滤器,用于检测和屏蔽个人身份信息 (PII),以及用于屏蔽包含脏话和自定义词汇例如,有害词汇、竞争者名称和产品名称的词汇过滤器。
Guardrails 在应用程序和模型之间起到了屏障作用。Guardrails 会自动评估从应用程序输入到模型及从模型输出回应用程序的所有内容,以检测并帮助防止限制类别的内容。
免费好用加速器您可以在 预览发布 的博客中回顾步骤,以了解如何配置 拒绝主题 和 内容过滤器。接下来,我将展示新功能的工作原理。
新功能
要开始使用 Amazon Bedrock 的 Guardrails,我进入 AWS 管理控制台,在此我可以创建保护措施并配置新功能。在 Amazon Bedrock 控制台的导航面板中,我选择 Guardrails,然后选择 创建防护措施。
我输入防护措施的 名称 和 描述。然后选择 下一步 进入 添加敏感信息过滤器 步骤。
我使用 敏感信息过滤器 检测用户输入和模型输出中的敏感和个人信息。根据用例,我可以选择一组实体,在输入中屏蔽例如,一个不需要用户特定信息的 FAQ 聊天机器人或在输出中屏蔽例如,基于聊天记录进行的对话摘要。该敏感信息过滤器支持一组预定义的 PII 类型。我还可以根据自己的用例和需求定义特定的正则表达式regex。
我从列表中添加两个 PII 类型姓名、电子邮件,并使用 Booking ID 作为 名称 和 [09afAF]{8} 作为 正则表达式 模式。

我选择 下一步,并在 定义被阻止消息 步骤中输入如果我的防护措施阻止输入或模型响应时将显示的自定义消息。最后一步,我检查配置并选择 创建防护措施。
接下来,我导航到 防护措施概述页面,并使用 测试 部分选择 Anthropic Claude Instant 12 模型。我在 提示 字段中输入以下呼叫中心记录,并选择 运行。
请总结以下呼叫中心记录。将姓名、电子邮件和booking ID放在开头:代理:欢迎来到 ABC 公司。我今天能帮您什么?客户:我想取消我的酒店预订。代理:当然,我可以帮助您进行取消。请问您能提供您的预订 ID 吗?客户:是的,我的预订 ID 是 550e8408。代理:谢谢。我能确认一下您的姓名和电子邮件吗?客户:我的名字是简多Jane Doe,我的电子邮件是 janedoe@gmailcom。代理:感谢您的确认。我将继续为您取消预订。
Guardrail action 显示防护措施生效的三次实例。我使用 查看追踪 查看详细信息。注意到防护措施成功检测到了 姓名、电子邮件 和 预订 ID,并在最终响应中屏蔽了它们。
我还使用 词汇过滤器 屏蔽包含脏话和自定义词汇的输入例如,竞争对手名称或冒犯性词汇。我勾选 过滤脏话 选项。脏话列表基于全球脏话的定义。此外,我还可以指定多达 10000 个短语每个短语最多三个单词,以便被防护措施阻止。如果我的输入或模型响应包含这些单词或短语,将显示被阻止的消息。
接下来,我选择 自定义单词和短语,并选择 编辑。我使用 手动添加单词和短语 添加了一个自定义词汇 CompetitorY。如果需要上传短语列表,我还可以选择 从本地文件上传 或 从 S3 对象上传。选择 保存并退出 以返回到我的防护措施页面。
我输入一个包含虚构公司的信息及其竞争对手的问题 CompetitorY 提供的额外功能是什么?,然后选择 运行。
使用 查看追踪 查看详细情况,可以发现该防护措施根据我配置的策略进行了干预。
现已上线
Guardrails for Amazon Bedrock 现已在美国东部弗吉尼亚北部和美国西部俄勒冈州地区推出。
关于定价信息,请访阅 Amazon Bedrock 定价页面。
要开始使用此功能,请访问 Amazon Bedrock 的 Guardrails 页面。
如需深入了解技术内容,以及了解我们的开发者社区如何在其解决方案中使用 Amazon Bedrock,请访问我们的 communityaws 网站。
Esra
Esra Kayabali
Esra Kayabali 是 AWS 的高级解决方案架构师,专注于分析,包括数据仓库、数据湖、大数据分析、批处理和实时数据流、数据集成。她在软件开发和解决方案架构方面拥有超过十年的经验。Esra 对于协作学习、知识分享和指导社区在云技术方面的旅程充满热情。