今天心血来潮,准备利用一道题测试下deepseek、文心一言、通义千问三个国内的大模型,看看他们的表现如何。
题目:你是单位工作人员小李,副科长安排你整理向上级汇报的工作报告,需要整合大量数据,科长安排你完成本科室的半年工作总结,并且这两项工作都要在同一天提交,你感到压力很大,你会怎么办?
来看三个大模型的回答:
总结一下,三个大模型的回答各有千秋,
deepseek的回答具有极强的实操性,甚至每一步都手把手教你怎么做,极为细致具体。但是这个大模型太聪明了,太把我们当天才了,这就好比一个北大毕业生,在考虑问题时会当然的带入“这道题我会那么你也肯定也会”的逻辑,实际上我们大部分考生的思维反应不过来,答不出来这么高深的答案。实际上,考官也答不出来。所以这个答案确实有点超前。
通义千问和文心一言的答案相对来说比较“弱智”一些,好像更适合我们的智商水平,但实际上这两个的答案实话不多,虚话太多,具体可执行的措施不多,看起来好像是那么一回事,实际上实操性较差。但是很诡异的是,因为我们大多数人也确实不能再那么短的时间内回答出高质量的答案,所以显得这两个大模型的答案好像也不错。
所以,这说明啥呢?三个大模型,大家可以都去试试。
在具体的问题上,再先进的大模型,也不会做到面面俱到,它只能在总的实力上超过对手,但是不能否认的是,在一些领域,它是可以允许不如对手的。所以,有时候deepseek的回答并不能完全尽如人意,大家要权衡采纳。
© 版权声明
THE END