羊驼系列大模型和ChatGPT差多少?详细测评后,我沉默了( 三 )

 

羊驼系列大模型和ChatGPT差多少?详细测评后,我沉默了

文章插图
 
 
羊驼系列大模型和ChatGPT差多少?详细测评后,我沉默了

文章插图
 
测试者表示 , 他们之所以要多次迭代 prompt , 是因为 OpenAI API 不允许他们做部分输出补全(即他们不能指定 AI 助手如何开始回答) , 因此他们很难引导输出 。
相反 , 如果使用一个开源模型 , 他们就可以更清楚地指导输出 , 迫使模型使用他们规定的结构 。
新一轮测试使用如下 prompt:
qa_guided = guidance ('''{{#system~}}{{llm.default_system_prompt}}{{~/system}}{{#user~}}You will read a meeting transcript, then extract the relevant segments to answer the following question:Question: {{query}}----{{transcript}}----Based on the above, please answer the following question:Question: {{query}}Please extract the three segment from the transcript that are the most relevant for the answer, and then answer the question.Note that conversation segments can be of any length, e.g. including multiple conversation turns. If you need less than three segments, you can leave the rest blank.As an example of output format, here is a fictitious answer to a question about another meeting transcript:CONVERSATION SEGMENTS:Segment 1: Peter and John discuss the weather.Peter: John, how is the weather today?John: It's raining.Segment 2: Peter insults JohnPeter: John, you are a bad person.Segment 3: BlankANSWER: Peter and John discussed the weather and Peter insulted John.{{/user}}{{#assistant~}}CONVERSATION SEGMENTS:Segment 1: {{gen'segment1'}}Segment 2: {{gen'segment2'}}Segment 3: {{gen'segment3'}}ANSWER: {{gen 'answer'}}{{~/assistant~}}''')如果用 Vicuna 运行上述 prompt , 他们第一次就会得到正确的格式 , 而且格式总能保持正确:
 
羊驼系列大模型和ChatGPT差多少?详细测评后,我沉默了

文章插图
 
当然 , 也可以在 MPT 上运行相同的 prompt:
羊驼系列大模型和ChatGPT差多少?详细测评后,我沉默了

文章插图
虽然 MPT 遵循了格式要求 , 但它没有针对给定的会议资料回答问题 , 而是从格式示例中提取了片段 。这显然是不行的 。
接下来比较 ChatGPT 和 Vicuna 。
测试者给出的问题是「谁想卖掉公司?」两个模型看起来答得都不错 。
以下是 ChatGPT 的回答:
 
羊驼系列大模型和ChatGPT差多少?详细测评后,我沉默了

文章插图
 
以下是 Vicuna 的回答:
 
羊驼系列大模型和ChatGPT差多少?详细测评后,我沉默了

文章插图
 
接下来 , 测试者换了一段材料 。新材料是马斯克和采访人员的一段对话:
 
羊驼系列大模型和ChatGPT差多少?详细测评后,我沉默了

文章插图
 
测试者提出的问题是:「Elon Musk 有没有侮辱(insult)采访人员?」
ChatGPT 给出的答案是:
羊驼系列大模型和ChatGPT差多少?详细测评后,我沉默了

文章插图
Vicuna 给出的答案是:
 
羊驼系列大模型和ChatGPT差多少?详细测评后,我沉默了

文章插图
 
Vicuna 给出了正确的格式 , 甚至提取的片段也是对的 。但令人意外的是 , 它最后还是给出了错误的答案 , 即「Elon musk does not accuse him of lying or insult him in any way」 。
测试者还进行了其他问答测试 , 得出的结论是:Vicuna 在大多数问题上与 ChatGPT 相当 , 但比 ChatGPT 更经常答错 。
用 bash 完成任务测试者尝试让几个 LLM 迭代使用 bash shell 来解决一些问题 。每当模型发出命令 , 测试者会运行这些命令并将输出插入到 prompt 中 , 迭代进行这个过程 , 直到任务完成 。
ChatGPT 的 prompt 如下所示:
terminal = guidance ('''{{#system~}}{{llm.default_system_prompt}}{{~/system}}{{#user~}}Please complete the following task:Task: list the files in the current directoryYou can give me one bash command to run at a time, using the syntax:COMMAND: commandI will run the commands on my terminal, and paste the output back to you. Once you are done with the task, please type DONE.{{/user}}{{#assistant~}}COMMAND: ls{{~/assistant~}}{{#user~}}Output: guidance project{{/user}}{{#assistant~}}The files or folders in the current directory are:- guidance- projectDONE{{~/assistant~}}{{#user~}}Please complete the following task:Task: {{task}}You can give me one bash command to run at a time, using the syntax:COMMAND: commandI will run the commands on my terminal, and paste the output back to you. Once you are done with the task, please type DONE.{{/user}}{{#geneach 'commands' stop=False}}{{#assistant~}}{{gen 'this.command'}}{{~/assistant~}}{{~#user~}}Output: {{shell this.command)}}{{~/user~}}{{/geneach}}''')


推荐阅读