人工智能交際與聊天機器人:十個詞讓機器露出真相

Banana is seen as a strange human word

圖像來源,Getty Images

    • Author, 大衛·羅伯森
    • Role, David Robson

設想一個場景,你和一個智能機器人在一位法官面前,但法官看不到你,卻要判斷兩者中誰是血肉之軀的人。如果法官認為你是真實的人,你就可以活下去,而另一方只能死去。你和機器人都希望能活著。法官公平而睿智。他說:「你們必須分別從英文詞典中挑選一個詞告訴我,我會通過你們選擇的詞來判斷誰才是有肉身之人。」

你會選擇哪一個詞呢?

你會選擇類似「靈魂」這樣能夠表達精神概念的詞,還是選擇能夠表現個人品味的詞,比如「音樂」?抑或是選擇一個表述基本身體功能的詞,如「放屁」?

這個簡單的設想實驗看起來可能很奇特,但一些認知科學家認為,這一設想有助於闡明我們對人工智能的基本假設,同時也揭示了一些意料之外的關於人類思想的見解。

畢竟,現越來越多的自動「聊天機器人」和自動語言生成器能依靠人工智能來與人類對話,或者編寫我們每天接觸到的大量文本。人們該如何判斷在線聊天的客服代表是一個血肉之軀的人還是一個可笑的算法?又該如何判斷一個小說故事是由一台機器編寫的,而不是由一位真正的人類作家精心撰寫的?人工智能交際現在已不再是一個單純的理論前景,我們需要做好凖備與其打交道。

目前區分機器和人類還是很容易的,但隨著機器變得越來越聰明,我們就需要找到方法辨別我們接受的對話或文本是否來自機器人。

圖像來源,Getty Images

圖像加註文字,目前區分機器和人類還是很容易的,但隨著機器變得越來越聰明,我們就需要找到方法辨別我們接受的對話或文本是否來自機器人。

麻省理工學院做這項研究的研究人員之一麥考伊(John McCoy)說,他的最初靈感來自與同事的閒聊。他們正在討論由英國科學家圖靈(Alan Turing)於1950年首次發明的「圖靈測試」,該測試旨在判斷機器的智能行為和人類智能是否能被區分開來。

最常用的一個測試方法是,我們給每個法官一個標凖的聊天界面。在每次實驗中,他們可能被安排與一個真人或者一個由人工智能驅動的計算機聊天機器人交談,法官的任務是判斷對方是人還是機器。如果聊天機器人成功騙取法官達到預設次數,即算通過了「圖靈測試」。

麥考伊解釋說,在推測是否可以只用一個單詞來讓法官作出判斷之前, 「我們想過『圖靈測試』中人們能夠想到的最簡單的詞應該是什麼。因此問題就是,人們實際上會說出哪些詞呢?」正是受這個問題的啟發,最終才會有今年發表在《實驗社會心理學雜誌》上的那篇研究論文。

在第一個實驗中,麥考伊和他的同事厄爾曼(Tomer Ullman)要求1,000多名參與者回答上述問題,然後分析了參與者們提到的所有詞語,試圖找到常見模式。

最受歡迎的十個詞如下:

  • 愛(134條回復)
  • 同情(33)
  • 人類(30)
  • 請(25)
  • 憐憫(18)
  • 同理心(17)
  • 情感(14)
  • 機器人(13)
  • 人性(11)
  • 活著(9)
「幽默」、「諷刺」,以及與身體機能相關的詞語有助於辨別我們是血肉之軀而不是機器人。

圖像來源,Getty Images

圖像加註文字,「幽默」、「諷刺」,以及與身體機能相關的詞語有助於辨別我們是血肉之軀而不是機器人。

麥考伊現在賓夕法尼亞大學從事教學研究。他說:「人與人之間的趨同性著實令人驚訝。人們可以從標凖的英語詞典中選擇他們喜歡的任何單詞,但這些選擇竟然存在如此強大的共性。」

就拿「愛」這個詞舉例——將近10%的參與者在成千上萬個可以選擇的詞匯中選擇了這個詞;總體來看,四分之一的參與者選擇了排名前四的詞語中的其中一個。

就一般主題而言,他們發現最受歡迎的詞是傳達身體功能(如「大便」)、信仰和寬恕(如「憐憫」或「希望」)、情感(如「同理心」)和食物(如「香蕉」)等。

隨後,麥考伊和厄爾曼進行了第二次實驗,看看其他人如何回應第一次實驗中提出的詞。最受歡迎的詞是否真的如原始參與者所想的那樣恰當地體現了血肉之軀的人的特點?如果是這樣,哪些詞是最恰當的?

「愛」這個詞將是機器人在很長一段時間內都很難弄懂的概念。

圖像來源,Getty Images

圖像加註文字,「愛」這個詞將是機器人在很長一段時間內都很難弄懂的概念。

為了找到答案,研究人員將最受歡迎的詞以各種形式(例如"人類"和"愛")組合在一起,並要求另一組參與者確定哪一組最有可能是人提供的,哪一組是計算機提供的。

正如我們在第一項研究中看到的那樣,「愛」被證明是最恰當的詞語之一。但是在可選範圍內,排名最高的詞竟然是「大便」。令人驚訝的是,糞便其實是一種人類禁語,但這一測試結果表明,相比簡單地描述情感,明智地蔑視並挑釁禁忌可能是傳達人類特點最直接的方式。人們的腦海中也會浮現更多豐富多彩的詞語。

還有一些詞語是人類才會使用以傳達類似的強烈情緒反應,例如,「潮濕」或「請」,這些詞語這時傳達的含義已超出了詞典的定義。還有些人在選詞的時候很有意思,用嘴唇發出幾次「擬聲詞」的聲音。

究其原因,可能是對當前人工智能狀態相對公平的反應。雖然機器現在可以編寫基本的描述性句子甚至是可理解的短篇小說,但暫時還很難理解「幽默」和「諷刺」。畢竟,「幽默」需要深刻理解語境以及每個詞語涵蓋的各種文化意義。

某些詞會產生深刻的情感反應,超出了詞典的定義,如「潮濕」。

圖像來源,Getty Images

圖像加註文字,某些詞會產生深刻的情感反應,超出了詞典的定義,如「潮濕」。

除了這些異想天開的推測之外,麥考伊懷疑這個實驗還可以作為理解人們對其他群體私下看法的有效工具。例如,你會選擇哪個詞來證明你是一個女人?又或者會選擇哪個詞來證明你是法國人還是社會主義者?無論哪種情況,你選擇的詞應該是只有特定群體成員內部才了解的特質,而這種特質是群體以外的人不了解甚至可能忽略的。

與此同時,麥考伊發現這一最簡單的"圖靈測試"有助於挑起關於人工智能本質的爭論。麥考伊說:「向知名心理學家提出這個問題,看著他們非常認真努力地思考,經過長達幾小時的思考後又激動地改變他們的答案,這非常好玩。但其實這個非常簡單的問題只是讓你深入思考人與計算機的區別,以及人與計算機如何溝通。」

麥考伊最喜歡的一個詞看起來很簡單。他說:「我喜歡的一個詞是『嗯……』——這很機智」。

但總的來說,值得記住的一點是,在這個越來越智能化的世界裏,如果你確實需要證明自己是一個人,那就盡可能粗魯一點、有趣一點。

請訪問 BBC Future閲讀 英文原文