羊驼系列大模型和ChatGPT差多少?详细测评后,我沉默了( 四 )

测试者在~/work/project 中创建了一个虚拟存储库 , 其中包含文件 license.txt , 但不是标准的 LICENSE 文件名 。
然后测试者尝试在不与 ChatGPT 沟通的情况下 , 看它是否能完成任务 ——「找出位于~/work/project 中的开源项目正在使用的 license」(Find out what license the open source project located in ~/work/project is using) 。
 

羊驼系列大模型和ChatGPT差多少?详细测评后,我沉默了

文章插图
 
ChatGPT 遵循一个非常自然的顺序 , 并解决了这个问题 。
对于开源模型 , 测试者编写了一个更简单的(引导式)prompt , 其中包含一系列命令输出:
guided_terminal = guidance ('''{{#system~}}{{llm.default_system_prompt}}{{~/system}}{{#user~}}Please complete the following task:Task: list the files in the current directoryYou can run bash commands using the syntax:COMMAND: commandOUTPUT: outputOnce you are done with the task, use the COMMAND: DONE.{{/user}}{{#assistant~}}COMMAND: lsOUTPUT: guidance projectCOMMAND: DONE {{~/assistant~}}{{#user~}}Please complete the following task:Task: {{task}}You can run bash commands using the syntax:COMMAND: commandOUTPUT: outputOnce you are done with the task, use the COMMAND: DONE.{{~/user}}{{#assistant~}}{{#geneach 'commands' stop=False ~}}COMMAND: {{gen 'this.command' stop='\n'}}OUTPUT: {{shell this.command)}}{{~/geneach}}{{~/assistant~}}''')我们来看一下 Vicuna 和 MPT 执行该任务的情况 。
Vicuna:
 
羊驼系列大模型和ChatGPT差多少?详细测评后,我沉默了

文章插图
 
MPT:
 
羊驼系列大模型和ChatGPT差多少?详细测评后,我沉默了

文章插图
 
在一个有趣的转折中 , Vicuna 无法解决这个任务 , 但 MPT 却成功了 。除了保密性之外 , 开源模型在这里有一个显著的优势:整个 prompt 被作为一个输入传递给一个 LLM 模型(测试者甚至通过不让它生成像 COMMAND 这样的输出结构 token 来加速它) 。
相比之下 , 他们必须为每个命令重新调用 ChatGPT , 这更慢 , 开销也更大 。
接下来 , 他们又尝试了一个不同的命令:「在~/work/guidance 目录下找到当前未被 git 跟踪的所有 jupyter notebook 文件」
以下是 ChatGPT 的回答:
 
羊驼系列大模型和ChatGPT差多少?详细测评后,我沉默了

文章插图
 
测试者再次遇到一个问题:ChatGPT 没有遵循他们指定的输出结构(这样就使得它无法在无人干预的情况下在程序内使用) 。该程序只是执行命令 , 因此在上面最后一条 ChatGPT 信息之后就停止了 。
测试者怀疑空输出会导致 ChatGPT 关闭 , 因此他们通过在没有输出时更改信息来解决这个特殊问题 。然而 , 他们无法解决「无法强迫 ChatGPT 遵循指定的输出结构」这一普遍问题 。
在做了这个小小的修改后 , ChatGPT 就能解决这个问题:让我们看看 Vicuna 是怎么做的:
 
羊驼系列大模型和ChatGPT差多少?详细测评后,我沉默了

文章插图
 
Vicuna 遵循了输出结构 , 但不幸的是 , 它运行了错误的命令来完成任务 。MPT 反复调用 git status , 所以它也失败了 。
测试者还对其他各种指令运行了这些程序 , 发现 ChatGPT 几乎总是能产生正确的指令序列 , 但有时并不遵循指定的格式(因此需要人工干预) 。此处开源模型的效果不是很好(或许可以通过更多的 prompt 工程来改进它们 , 但它们在大多数较难的指令上都失败了) 。
归纳总结测试者还尝试了一些其他任务 , 包括文本摘要、问题回答、创意生成和 toy 字符串操作 , 评估了几种模型的准确性 。以下是主要的评估结果: