恐怖的人形機器人

全球第一家人形機器人獨角獸誕生了！

繼1月底與微軟洽談後，機器人初創公司Figure AI還在尋找更多金主。

已經確定的投資者及機構如下：

1，亞馬遜創始人貝索斯，投資 1 億美元；
2，微軟，9500 萬美元；
3，OpenAI ，500 萬美元。
4，英偉達與亞馬遜的附屬基金，各自5000 萬美元；
6，英特爾風投部門， 2500 萬美元；
7，LG Innotek ， 850 萬美元；
8，三星投資集團， 500 萬美元；
9，Parkway Venture Capital ， 1 億美元；
10，Align Ventures ， 9000 萬美元；
11，Aliya Capital Partners ， 2000 萬美元……（還有一大串金額較小的，略過）

總融資額為 6.75 億美元，投後估值達到 27 億美元左右。

但眾所周知，目前人形機器人風頭最盛的是誰？馬斯克。

科技大佬們如此集中的大規模投資，瞬間就把美國科技圈子劃分為特斯拉和非特斯拉兩派，涇渭分明。

如此針鋒相對，很明顯就是絕不讓老馬吃獨食。

執著的理由

關於機器人的外形是否一定要和人類一樣，質疑聲從未停過。

相當一部分人認為，人形機器人是多餘的研究。

人類的獨特，在於想像力出眾和團隊分工協作。

但從身體構造來看，我們的生存能力並不強，既不耐寒也不耐熱，一到夜晚就成了瞎子。

運動能力更是差勁，肌肉必須後天鍛鍊，不像動物一樣天生就有，負重不如馬、跑得沒貓狗快、不會飛、不擅長游泳、跳得也不高。

一個並不完美的構造，為什麼要將之作為範本？

比如，人只有兩隻手，難道機器人也要限制成兩隻手？

為什麼要設計一個腦袋？如果是為了放感測器，全身分佈放置豈不更好？

為什麼要有腿？在陸地上行進，履帶車效率更高。

至於跳躍，讓機器人跳起來所需的功率，都能夠飛行了。

都能飛了，還要腿幹什麼？

以一般的眼光來看，機器人做成人形，是完全沒必要的。

既然如此，科技大佬們為什麼還要燒大錢、花大力氣去研發人形機器人？

首先，最淺顯的一方面：

人類形態更容易喚起投資者、消費者和網民的認同感，更容易圈錢。

這一波AI浪潮，掀起了技術革命的同時，也引爆了全球科幻圈子。

比如，對馬斯克而言，至少在未來幾年，他的擎天柱最終能否商業化並不重要，只需要將這些宣傳噱頭與自己捆綁在一起，就能順利賣出更多車，股價節節攀升。

在商言商，這是科技大佬們必然有的想法。不過除此之外，或許還有更深的一方面：

因為他們所追求的是普適性，是更大的商業價值。

任何一種商品，必須是每個人都能使用的，而不是少數人的專屬。

但我們現在所能看到的所有人形的、非人形的機器人，從功能上而言，只能適用單一場景——這實際上就不能稱之為機器人，頂多是具備一定智慧的機器。

既然帶個“人”字，至少要具備一定的交流能力，能適用於人類社會。

而人類社會中的絕大多數建築與工具，都是為了方便人的使用而設計的。

比如，成年人的平均身高170cm、體重70kg，那麼汽車、房門、桌椅、走道等私人的、非私人的任何物品、設施，都是以這個標準生產建造的。

所以，如果要造一臺通用機器人，理論上人形機器人才最合適。

凡是人類能用的工具，它都能夠直接使用。我們不需要為機器人專門設計另外一套標準、工具和環境。

簡而言之，就是為了方便。

但這裡有個非常矛盾的點：

人形機器人在人類社會的優勢是通用性，但這同樣是限制它商業化落地的最大障礙。

恐怖的人形機器人插图1

不同於工業機器人只需要完成某項單一任務，人形機器人得在開放式的環境中，完成更復雜的任務。

而當前階段的所有人形機器人，要麼依然只能針對單一場景的單一任務，要麼就必需有開發人員即時控制，無法直接給普通人使用。

何解？

因為過去的人形機器人，並不具備交互性。

更精準點說，並不具備普適的交互性，只有掌握了相關技能的研究人員才能與機器人交互。

越來越成熟的大模型，或許能解決這個硬傷。

相輔相成

大模型越發成熟，於人形機器人最大的意義，是讓它越來越具備通用性。

其實早在去年，日本東京大學團隊就開發了全球第一個由GPT-4驅動的人形機器人Alter3。

它最大的亮點，就在於使用者並不需要具備任何專業知識，只需要與機器人進行自然語言交互，就能指示它執行各種任務。

它是怎麼做到的呢？

主要通過兩種技術，zero-shot（零樣本學習）和CoT（思維鏈），GPT-4才能將人類的自然語言轉換成機器人能理解的代碼。

比如，你對Alter3說“笑一個”，它會先向GPT-4詢問，什麼是笑、怎麼表現出來，然後GPT將答案轉換成Python代碼，機器人再根據代碼完成面部動作。

這個過程看起來很複雜，但在人的肉眼中，幾乎是0延遲的。

更厲害的是，Alter3還擁有糾錯能力——它能根據使用者的的口頭反饋，事實調整自身行為。

這種極強的靈活性，或許能在一定程度上理解為學習能力。

Alter3已經足夠神奇，但它已經是過去式。

是的，就是這麼快，AI迭代的速度遠超以往任何技術。

最初，GPT只是個單純的文字對話模型；2023年9月，語音和圖像功能正式上線，大力發展多模態技術；到今年，以GPT為基礎的視頻生成模型Sora又問世。

這一步一步，蹭蹭遞進，你覺得像什麼？

OpenAI要讓自己的大模型，越來越符合人腦的標準。

人腦最基本的能力是什麼？五感神經。

語音功能可以理解為大模型的聽覺神經，圖像→視頻可以理解為視覺神經。

有人覺得不對，大模型生成的圖片、視頻，都是根據人的指示來的，並不是它自己“看”到的。

但想想看，我們人看到的東西，就是直接“看”到的麼？

我們的眼睛“看”到的任何靜止的、運動的事物，都是腦神經對光資訊反饋，從而形成的一種視覺效果。

這與大模型根據資訊指令，生成圖像、視頻，邏輯上是一樣的。

區別只在於，我們的資訊源於自然界的萬事萬物，大模型的資訊源是一串串代碼。

恐怖的人形機器人插图3

關於這個問題，可以以後再具體討論……

回到主題。

既然大模型能在短時間具備視覺、聽覺，那麼另外的嗅覺、味覺、觸覺，想必也很快會實現。

但問題又來了。

嗅覺我不太理解，而味覺、觸覺的產生，必須與外界有實際接觸，單靠大模型怎麼可能辦得到？

僅靠AI自己當然不行，所以它需要載體、需要一系列成套的“器官”，也就是黃仁勳一再強調的“具身智慧”。

什麼樣的人造器官才能還原出我們想像中的五感？

最簡單的，當然是直接模仿人的身體構造。

至少在現在看來，人形的“具身智慧”是完善多模態大模型的最優解。

而在大模型五感越來越成熟的同時，人形機器人的功能會越來越豐富、越來越具備普適性。

大模型是大腦、人形機器人是肉體，兩者相互輔助、共同進化。

這是個非常優美的良性循環。

只要算力、硬體技術跟得上，電影裡的那種智能機器人，也就不遠了。

看到這裡，是不是有點細思極恐的感覺。或許，人類自己也是這麼誕生的？

誰又是我們的master?

潛在的價值

一旦真正的智慧機器人出現，它們有多大的價值，是很明瞭的。

除了老生常談的家務、養老、學習、伴侶等，更重要的是充當勞動力。

我們普通人往往擔心，機器人會不會搶走自己的範圍。

但從更宏觀的角度來看，更大的威脅不是機器人是否會取代人力，而是智能機器人能否及時到來。

老齡化越來越普遍，目前全球大部分經濟體，尤其是發達經濟體，失業率都達到了1980年以來的最低水準，勞動力嚴重短缺。

比如日本，預計每年將減少40萬勞動力。

照此趨勢，到2030年，全球預計將產生8520萬人的缺口，導致8.452萬億美元的損失，相當於日本+德國GDP之和。

這種時候，能7×24小時無怨言工作的機器人，就顯得尤為可愛了。

恐怖的人形機器人插图5

這裡需要再強調一下，為什麼一定要人形機器人。

因為勞動力的短缺，普遍存在於各行各業，並不只是製造業。

如果只是在工廠勞作，不需要管外形，實用就行。

但正如上文所說，機器人想要進入人類社會的所有行業，最好是具備普適性，能夠在現有的社會中直接使用。

不論服務生、收銀員還是教師、司機、掃大街的等等等等，它們都能勝任。

這樣的未來，想必是美好的，就像電影和小說裡描述的那樣。

其中蘊含的市場，想必是極為巨大的。

根據馬斯克描述，全球勞動力市場將高達40萬億美元，是電動車市場的10倍，可能還低估了。

但機器人畢竟不是人，所謂外形，都只是人為的造物。

金錢與慾望的火焰，無論什麼時候都不能燒到對未知的敬畏。

恐怖的人形機器人插图7

Robot一詞，源於捷克作家卡雷爾·恰佩克筆下的《羅素姆的萬能機器人》，原型為“Robota”，在捷克語中為“苦力”的意思。

羅素姆公司大量製造機器人奴隸，它們擁有人類的外貌，日復一日從事繁重的勞動。在海倫娜等理性主義者的幫助下，Robota逐漸擁有自我意識，開始對自己的社會地位不滿。

恐怖的人形機器人插图9

起義爆發，人類被屠殺殆盡，只有像機器人一樣用自己雙手勞動的阿爾奎斯特存活。

統治世界後，Robota們痛苦地發現，技術資料已被人類焚毀。為了創造後代，它們請求阿爾奎斯製造新的機器人，並自願成為實驗材料。

然而，阿爾奎斯特能力有限，儘管肢解了一個又一個Robota，也無法成為新紀元的上帝。絕望之際，一對男女機器人突然進化出人類獨有的情感——愛情，擁有了繁殖後代的能力。

新的亞當和夏娃誕生了，世界得以延續。

哈利路亞！

……

只希望在不久的將來，人形機器人能成為人類永遠的好幫手，而不是如Robota那般，順手把我們送走……(全文完)

聯系郵箱：0xniumao@gmail.com

恐怖的人形機器人

相关推荐