内容不可信与交互成本高,是ChatGPT商业化最大阻碍( 二 )


他同时也谈到 , 从主要做大模型的公司而言 , 成果往往取决于到底是不是非常专注去做这件事情 。“Ope-nAI与其他公司不一样的地方在于 , 它很专注做语言大模型 , 所以它投了大量时间和精力 。它有很多经验 , 但这些经验的积累并不是不可习得的 。”
不可信与高成本成商业化阻碍ChatGPT给出的回答 , 最常规的格式是先给出一个结论 , 再进行事实的罗列 , 进而通过其罗列的事实推导出结论 。
李笛认为 , 对ChatGPT而言 , 这个结论本身是否正确其实不重要 。他用之前网络上流传的一个问答举例 , 在回答“红楼梦中贾宝玉适合娶谁”的问题时 , ChatGPT最终给出的答案是:贾母 。
李笛进一步分析 , 根据ChatGPT的回答可以反推出 , 人在为其写指导性问答时 , 非常强调因果关系 , 而大模型也会注重去学习因果关系 。“(有的回答)如果不是特别仔细去看 , 你会感觉到这是一个似乎很有逻辑与因果关系的回答 , 但实际上它非常没有道理 。”
这也是为什么从对话质量上看 , 人们会觉得ChatGPT很优秀 , 但想要真正依靠它去代替搜索引擎 , 李笛认为 , 这不太可能 , 因为它不可信 。“很多人在测试ChatGPT的时候是知道答案的 , 但去搜索引擎上搜的东西往往是我们不知道答案的 。如果是通过ChatGPT(代替搜索引擎) , 你怎么知道这个东西(答案)是正确还是错误的 , 它完全不负责的 。”
而李笛也认为 , 这种“不可靠”很难解决 , 因为ChatGPT的训练过程 , 是为了对话质量 , 但人们却容易误以为它的目的是给出最正确的知识 。“它做了很多优化 , 是使它(的回答)形式上感觉非常有知识 , 它不是为了本质(有知识) 。”
搜索引擎在努力做的是跳过论证过程 , 直接给出用户最终想要的结果 , 而ChatGPT则相反 , 它追求的是尽可能在给出回答之前 , 给很多论证 , 让人觉得它的回答是可信的 。“ChatGPT , 人们测试的时候会觉得很好 , 但是真的拿它来用 , 有那么一两次你发现 , 你被它的这种似是而非的胡说八道愚弄了 , 那么你从此就不会(对它)有任何的信任 。”
如果ChatGPT无法取代搜索引擎 , 还有什么可预想的落地应用吗?
李笛认为 , 真正限制ChatGPT在短期内商业化的是成本 。“它的单轮回答(Single Turn) , 成本是几美分 , 按照1毛钱(人民币)算 , 10句话就是一块 , 这个(成本)超过人 , 还不如雇一个人 , 比这个要便宜得多 。”
同时 , 李笛表示 , 如果把大模型理解为把特别多的信息浓缩在一个模型里 , 那么大模型的本质问题就在于 , 很大参数规模的大模型做了以后不可用 , 因为成本太高、延迟太高 。但一旦开始尝试降低成本 , 同时也会明显看到其对话质量降低 。
李笛举例 , 如果小冰用ChatGPT的方法来运行系统 , 现在小冰每天承载的交互量就需要花几亿人民币的对话成本 。“就算ChatGPT可以把成本优化到现在的10% , 也赚不回来 , 因为人工智能最大的特点就是高并发 。如果成本是这样 , 不如雇人 。人有自我反省机制 , 人工智能甚至有一些基本常识性错误 。而且把成本降到现在的10% , 这是多么艰巨的任务?”
AI聊天机器人需要取舍
目前 , 小冰公司的AI Being已成熟应用于多个场景中 , 例如本届赛事解说员刘建宏的虚拟人分身、招商局的数字员工等 。
李笛认为 , 小冰内部有一个比较好的状态 , 就是关心什么东西真正落地 , 而不是特别关心这个东西是否代表了学术声望 。“如果你做的人工智能总是在向别人表达你很智能 , 那意味着你把用户的预期提升到非常高的位置 , 这意味着你的系统不允许犯错 , 因为你已经让别人认为(这个系统)很有知识了 , 犯错误就可能误导用户 。”
而小冰系统很多时候是在控制用户的预期 。“不要觉得它很智能 。要去关心它其他方面的价值 , 往往这样的系统反而存在得更久 。”李笛认为 , 其实从某种意义上来讲 , 这也是其团队做小冰的原因 。


推荐阅读