恐怖的人形機器人



全球第一家人形機器人獨角獸誕生了!

繼1月底與微軟洽談後,機器人初創公司Figure AI還在尋找更多金主。

已經確定的投資者及機構如下:

1,亞馬遜創始人貝索斯,投資 1 億美元;
2,微軟,9500 萬美元;
3,OpenAI ,500 萬美元。
4,英偉達與亞馬遜的附屬基金,各自5000 萬美元;
6,英特爾風投部門, 2500 萬美元;
7,LG Innotek , 850 萬美元;
8,三星投資集團, 500 萬美元;
9,Parkway Venture Capital , 1 億美元;
10,Align Ventures , 9000 萬美元;
11,Aliya Capital Partners , 2000 萬美元……(還有一大串金額較小的,略過)

總融資額為 6.75 億美元,投後估值達到 27 億美元左右。

但眾所周知,目前人形機器人風頭最盛的是誰?馬斯克。

科技大佬們如此集中的大規模投資,瞬間就把美國科技圈子劃分為特斯拉和非特斯拉兩派,涇渭分明。

如此針鋒相對,很明顯就是絕不讓老馬吃獨食。


01

執著的理由

關於機器人的外形是否一定要和人類一樣,質疑聲從未停過。

相當一部分人認為,人形機器人是多餘的研究。

人類的獨特,在於想像力出眾和團隊分工協作。

但從身體構造來看,我們的生存能力並不強,既不耐寒也不耐熱 ,一到夜晚就成了瞎子。

運動能力更是差勁,肌肉必須後天鍛鍊,不像動物一樣天生就有,負重不如馬、跑得沒貓狗快、不會飛、不擅長游泳、跳得也不高。

一個並不完美的構造,為什麼要將之作為範本?

比如,人只有兩隻手,難道機器人也要限制成兩隻手?

為什麼要設計一個腦袋?如果是為了放感測器,全身分佈放置豈不更好?

為什麼要有腿?在陸地上行進,履帶車效率更高。

至於跳躍,讓機器人跳起來所需的功率,都能夠飛行了。

都能飛了,還要腿幹什麼?

以一般的眼光來看,機器人做成人形,是完全沒必要的。

既然如此,科技大佬們為什麼還要燒大錢、花大力氣去研發人形機器人?

首先,最淺顯的一方面:

人類形態更容易喚起投資者、消費者和網民的認同感,更容易圈錢。

這一波AI浪潮,掀起了技術革命的同時,也引爆了全球科幻圈子。

比如,對馬斯克而言,至少在未來幾年,他的擎天柱最終能否商業化並不重要,只需要將這些宣傳噱頭與自己捆綁在一起,就能順利賣出更多車,股價節節攀升。

在商言商,這是科技大佬們必然有的想法。不過除此之外,或許還有更深的一方面:

因為他們所追求的是普適性,是更大的商業價值。

任何一種商品,必須是每個人都能使用的,而不是少數人的專屬。

但我們現在所能看到的所有人形的、非人形的機器人,從功能上而言,只能適用單一場景——這實際上就不能稱之為機器人,頂多是具備一定智慧的機器。

既然帶個“人”字,至少要具備一定的交流能力,能適用於人類社會。

而人類社會中的絕大多數建築與工具,都是為了方便人的使用而設計的。

比如,成年人的平均身高170cm、體重70kg,那麼汽車、房門、桌椅、走道等私人的、非私人的任何物品、設施,都是以這個標準生產建造的。

所以,如果要造一臺通用機器人,理論上人形機器人才最合適。

凡是人類能用的工具,它都能夠直接使用。我們不需要為機器人專門設計另外一套標準、工具和環境。

簡而言之,就是為了方便。

但這裡有個非常矛盾的點:

人形機器人在人類社會的優勢是通用性,但這同樣是限制它商業化落地的最大障礙。

恐怖的人形機器人插图1

不同於工業機器人只需要完成某項單一任務,人形機器人得在開放式的環境中,完成更復雜的任務。

而當前階段的所有人形機器人,要麼依然只能針對單一場景的單一任務,要麼就必需有開發人員即時控制,無法直接給普通人使用。

何解?

因為過去的人形機器人,並不具備交互性。

更精準點說,並不具備普適的交互性,只有掌握了相關技能的研究人員才能與機器人交互。

越來越成熟的大模型,或許能解決這個硬傷。


02

相輔相成

大模型越發成熟,於人形機器人最大的意義,是讓它越來越具備通用性。

其實早在去年,日本東京大學團隊就開發了全球第一個由GPT-4驅動的人形機器人Alter3。

它最大的亮點,就在於使用者並不需要具備任何專業知識,只需要與機器人進行自然語言交互,就能指示它執行各種任務。

它是怎麼做到的呢?

主要通過兩種技術,zero-shot(零樣本學習)和CoT(思維鏈),GPT-4才能將人類的自然語言轉換成機器人能理解的代碼。

比如,你對Alter3說“笑一個”,它會先向GPT-4詢問,什麼是笑、怎麼表現出來,然後GPT將答案轉換成Python代碼,機器人再根據代碼完成面部動作。

這個過程看起來很複雜,但在人的肉眼中,幾乎是0延遲的。

更厲害的是,Alter3還擁有糾錯能力——它能根據使用者的的口頭反饋,事實調整自身行為。

這種極強的靈活性,或許能在一定程度上理解為學習能力。

Alter3已經足夠神奇,但它已經是過去式。

是的,就是這麼快,AI迭代的速度遠超以往任何技術。

最初,GPT只是個單純的文字對話模型;2023年9月,語音和圖像功能正式上線,大力發展多模態技術;到今年,以GPT為基礎的視頻生成模型Sora又問世。

這一步一步,蹭蹭遞進,你覺得像什麼?

OpenAI要讓自己的大模型,越來越符合人腦的標準。

人腦最基本的能力是什麼?五感神經。

語音功能可以理解為大模型的聽覺神經,圖像→視頻可以理解為視覺神經。

有人覺得不對,大模型生成的圖片、視頻,都是根據人的指示來的,並不是它自己“看”到的。

但想想看,我們人看到的東西,就是直接“看”到的麼?

我們的眼睛“看”到的任何靜止的、運動的事物,都是腦神經對光資訊反饋,從而形成的一種視覺效果。

這與大模型根據資訊指令,生成圖像、視頻,邏輯上是一樣的。

區別只在於,我們的資訊源於自然界的萬事萬物,大模型的資訊源是一串串代碼。

恐怖的人形機器人插图3

關於這個問題,可以以後再具體討論……

回到主題。

既然大模型能在短時間具備視覺、聽覺,那麼另外的嗅覺、味覺、觸覺,想必也很快會實現。

但問題又來了。

嗅覺我不太理解,而味覺、觸覺的產生,必須與外界有實際接觸,單靠大模型怎麼可能辦得到?

僅靠AI自己當然不行,所以它需要載體、需要一系列成套的“器官”,也就是黃仁勳一再強調的“具身智慧”。

什麼樣的人造器官才能還原出我們想像中的五感? 

最簡單的,當然是直接模仿人的身體構造。

至少在現在看來,人形的“具身智慧”是完善多模態大模型的最優解。

而在大模型五感越來越成熟的同時,人形機器人的功能會越來越豐富、越來越具備普適性。

大模型是大腦、人形機器人是肉體,兩者相互輔助、共同進化。

這是個非常優美的良性循環。

只要算力、硬體技術跟得上,電影裡的那種智能機器人,也就不遠了。

看到這裡,是不是有點細思極恐的感覺。或許,人類自己也是這麼誕生的?

誰又是我們的master?


03

在的價

一旦真正的智慧機器人出現,它們有多大的價值,是很明瞭的。

除了老生常談的家務、養老、學習、伴侶等,更重要的是充當勞動力。

我們普通人往往擔心,機器人會不會搶走自己的範圍。

但從更宏觀的角度來看,更大的威脅不是機器人是否會取代人力,而是智能機器人能否及時到來。

老齡化越來越普遍,目前全球大部分經濟體,尤其是發達經濟體,失業率都達到了1980年以來的最低水準,勞動力嚴重短缺。

比如日本,預計每年將減少40萬勞動力。

照此趨勢,到2030年,全球預計將產生8520萬人的缺口,導致8.452萬億美元的損失,相當於日本+德國GDP之和。

這種時候,能7×24小時無怨言工作的機器人,就顯得尤為可愛了。

恐怖的人形機器人插图5

這裡需要再強調一下,為什麼一定要人形機器人。

因為勞動力的短缺,普遍存在於各行各業,並不只是製造業。

如果只是在工廠勞作,不需要管外形,實用就行。

但正如上文所說,機器人想要進入人類社會的所有行業,最好是具備普適性,能夠在現有的社會中直接使用。

不論服務生、收銀員還是教師、司機、掃大街的等等等等,它們都能勝任。

這樣的未來,想必是美好的,就像電影和小說裡描述的那樣。

其中蘊含的市場,想必是極為巨大的。

根據馬斯克描述,全球勞動力市場將高達40萬億美元,是電動車市場的10倍,可能還低估了。

但機器人畢竟不是人,所謂外形,都只是人為的造物。

金錢與慾望的火焰,無論什麼時候都不能燒到對未知的敬畏。

恐怖的人形機器人插图7

Robot一詞,源於捷克作家卡雷爾·恰佩克筆下的《羅素姆的萬能機器人》,原型為“Robota”,在捷克語中為“苦力”的意思。

羅素姆公司大量製造機器人奴隸,它們擁有人類的外貌,日復一日從事繁重的勞動。在海倫娜等理性主義者的幫助下,Robota逐漸擁有自我意識,開始對自己的社會地位不滿。

恐怖的人形機器人插图9

起義爆發,人類被屠殺殆盡,只有像機器人一樣用自己雙手勞動的阿爾奎斯特存活。

統治世界後,Robota們痛苦地發現,技術資料已被人類焚毀。為了創造後代,它們請求阿爾奎斯製造新的機器人,並自願成為實驗材料。

然而,阿爾奎斯特能力有限,儘管肢解了一個又一個Robota,也無法成為新紀元的上帝。絕望之際,一對男女機器人突然進化出人類獨有的情感——愛情,擁有了繁殖後代的能力。

新的亞當和夏娃誕生了,世界得以延續。

哈利路亞!

……

只希望在不久的將來,人形機器人能成為人類永遠的好幫手,而不是如Robota那般,順手把我們送走……(全文完)

聯系郵箱:0xniumao@gmail.com