GPT-4最全攻略来袭!OpenAI官方发布,六个月攒下来的使用经验都在里面了( 四 )


代码执行的另一个很好的应用场景是调用外部API 。
如果将API的正确使用方式传达给模型 , 它可以编写使用该API的代码 。
可以通过向模型演示文档和/或代码示例来指导模型如何使用API 。
在这里OpenAI提出了特别警告??:

执行模型生成的代码在本质上来说并不安全 , 任何试图执行此操作的应用程序中都应采取预防措施 。特别是 , 需要一个沙盒代码执行环境来限制不受信任的代码可能造成的危害 。
策略六:系统地测试更改有时候很难确定一个改变是会让系统变得更好还是更差 。
通过观察一些例子有可能会看出哪个更好 , 但是在样本数量较少的情况下 , 很难区分是真的得到了改进 , 还是只是随机运气 。
也许这个“改变”能够提升某些输入的效果 , 但却会降低其它输入的效果 。
而评估程序(evaluation procedures , or “evals”)对于优化系统设计来说非常有用 。好的评估有以下几个特点:
1)代表现实世界的用法(或至少是多种用法)
2)包含许多测试用例 , 可以获得更大的统计功效(参见下表)
3)易于自动化或重复
GPT-4最全攻略来袭!OpenAI官方发布,六个月攒下来的使用经验都在里面了

文章插图
对输出的评估可以是由计算机进行评估、人工评估 , 或者两者结合进行 。计算机可以使用客观标准自动评估 , 也可以使用一些主观或模糊的标准 , 比如说用模型来评估模型 。
OpenAI提供了一个开源软件框架——OpenAI Evals , 提供了创建自动评估的工具 。
当存在一系列质量同样高的输出时 , 基于模型的评估就会很有用 。
实用技巧:
1、参考黄金标准答案评估模型输出
假设已知问题的正确答案应参考一组特定的已知事实 。
然后 , 我们可以询问模型答案中包含多少必需的事实 。
例如 , 使用下面这个系统消息 , 
给出必要的既定事实:
尼尔·阿姆斯特朗是第一个在月球上行走的人 。
尼尔·阿姆斯特朗第一次登上月球的日期是1969年7月21日 。
如果答案中包含既定给出的事实 , 模型会回答“是” 。反之 , 模型会回答“否” , 最后让模型统计有多少“是”的答案:
GPT-4最全攻略来袭!OpenAI官方发布,六个月攒下来的使用经验都在里面了

文章插图
下面是包含两点既定事实的示例输入(既有事件 , 又有时间):
仅满足一个既定事实的示例输入(没有时间):
而下面这个示例输入 , 不包含任何一个既定事实:
这种基于模型的评估方法有许多可能的变化形式 , 需要跟踪候选答案与标准答案之间的重叠程度 , 并追踪候选答案是否与标准答案的有相矛盾的地方 。
GPT-4最全攻略来袭!OpenAI官方发布,六个月攒下来的使用经验都在里面了

文章插图
比如下面的这个示例输入 , 其中包含不合标准的答案 , 但与专家答案(标准答案)并不矛盾:
GPT-4最全攻略来袭!OpenAI官方发布,六个月攒下来的使用经验都在里面了

文章插图
下面是这个示例输入 , 其答案与专家答案直接矛盾(认为尼尔·阿姆斯特朗是第二个在月球上行走的人):
GPT-4最全攻略来袭!OpenAI官方发布,六个月攒下来的使用经验都在里面了

文章插图
最后一个是带有正确答案的示例输入 , 该输入还提供了比必要内容更多的详细信息(时间精确到了02:56 , 并指出了这是人类历史上的一项不朽成就):
GPT-4最全攻略来袭!OpenAI官方发布,六个月攒下来的使用经验都在里面了

文章插图
传送门:
https://Github.com/openai/evals (OpenAIEvals)
参考链接:
[1]https://platform.openai.com/docs/guides/gpt-best-practices
[2]https://www.reddit.com/r/OpenAI/comments/141yheo/openai_recently_added_a_gpt_best_practices_guide/
— 完—




推荐阅读