剛剛,谷歌DeepMind、JHU、牛津等發(fā)布研究,證實(shí)GPT-4的心智理論已經(jīng)完全達(dá)到成年人類水平,在更復(fù)雜的第6階推理上,更是大幅超越人類!此前已經(jīng)證實(shí),GPT-4比人類更能理解語言中的諷刺和暗示。在心智理論上,人類是徹底被LLM甩在后面了。
GPT-4的高階心智理論(ToM),已經(jīng)正式超越人類!
就在剛剛,谷歌DeepMind、約翰斯·霍普金斯大學(xué)和牛津大學(xué)等機(jī)構(gòu)的學(xué)者發(fā)布的研究證實(shí),GPT-4在心智理論任務(wù)上的表現(xiàn),已經(jīng)完全達(dá)到了成年人類的水平。
而且,它在第6階推理上的表現(xiàn),更是大幅超過了人類!
論文地址:https://arxiv.org/pdf/2405.18870
無獨(dú)有偶,此前Nature子刊《自然·人類行為》的一項(xiàng)研究也證實(shí)了,GPT-4在心智理論上的表現(xiàn)已經(jīng)位于人類水平之上,能夠比人類更好地察覺出言語中的諷刺和暗示。如果你不這么覺得,那它大概率只是在隱藏實(shí)力而已。
總之,這前后腳的兩項(xiàng)研究清晰地表明,如今表現(xiàn)最好的大語言模型,已經(jīng)發(fā)展出廣義的心智理論能力,而GPT-4,已經(jīng)是其中的佼佼者。
所以,距離各位LLM用心智和權(quán)術(shù)把我們?nèi)祟愅媾诠烧浦g的那一天,還有多遠(yuǎn)?
高階心智理論
這次的研究,探討了LLM究竟能在多大程度上發(fā)展高階心智理論(higher-order ToM)。
所謂高階心智理論,就是人類以遞歸方式,推理他人的多種心理和情感狀態(tài)的能力。
比如,「我認(rèn)為你相信她知道」這句話中,就包含了非常復(fù)雜的多層推理,屬于一個(gè)三階陳述。
在以前,大部分相關(guān)研究,都集中在二階ToM上。
用什么樣的方法,能衡量出LLM對如此復(fù)雜問題的把握能力?
團(tuán)隊(duì)特意引入了一套手寫測試套件——多階心智理論問答測試。
而參與PK的選手,有5個(gè)LLM和一大群成年人。