半個世紀前發明的工具，成為了人工智能的瓶頸

Jonathan Vanian

2020-12-19

如果能突破這個“瓶頸”，多個行業都能從中受益

文本設置

小號

默認

大號

Plus(0條)

電子表格是一種非常巧妙的發明，在誕生之初，其使命是實現簿記的數字化，自此而后的50年間，因為它的存在，研究人員與商業人士得以不受行、列數量的限制而任意輸入各種數據，然后再借助計算機對這些信息進行分析。如今，電子表格被廣泛應用于工作生活的各個方面，甚至連學童都可以像財務分析師管理預算一樣使用這一工具。

神經網絡是一種復雜的人工智能程序，能夠模擬人腦的計算過程。近年來，由于神經網絡的發展，頂尖人工智能研究人員關注的焦點已經從結構化數據（例如成行成列的文字和數字）轉向了圖像。換句話說，功能強大的計算機可以通過瀏覽數百萬張貓咪的照片來了解這種小型貓科動物的特征，但同樣的軟件卻很難解讀簡單的電子表格。

這讓醫學研究、金融和運營等領域里的數據科學家們深感沮喪，因為在這些領域中，結構化數據才是真正的“硬通貨”。

金融公司Capital One的一位應用型機器學習研究員巴彥·布魯斯（Bayan Bruss）說：“我們的數據大多是結構化數據，或者至少是對這些數據進行了某種結構化處理。深度學習的進展與我們的數據之間有著很大距離，我們做的很多工作都是為了縮小這種距離?！?/font>

圖片來源：Lena Vargas

一些公司為解決這一問題也推出了自己的新項目。以生物技術巨頭基因泰克（Genentech）為例，該公司的數據科學家最近花費數月時間制作了一個包含55,000名癌癥患者健康記錄和基因組數據的電子表格，既收錄了年齡、膽固醇水平、心率等信息，也收錄了一些更為復雜的屬性數據，比如分子特征和基因異常狀況等?；蛱┛擞媱潓⑦@些信息輸入神經網絡，并借此描繪出患者的健康屬性，以期開發出突破性藥物，針對每位患者的情況對癥下藥。

問題在于，研究人員現在才剛開始訓練神經網絡學習使用（像基因泰克制作的電子表格那樣的）結構化數據?；蛱┛说膫€性化醫療保健數據科學分析業務全球主管瑞安·科平（Ryan Copping）表示：“包括臨床試驗數據和電子病歷在內，我們的大多數數據都是結構化數據?！比绻嬎銠C網絡能夠分析并自主認知病人資料中的相似性，“那么我們就可以開始對結果進行觀察，并考慮如何針對病人的具體情況選擇治療方案。然而，現在還做不到這一點?！?/font>

除醫療保健行業外，很多其它行業也有機會從中受益。據研究公司IDC預測，今年，商業領域將產生5.8澤字節的銷售預測、客戶數據等生產力數據。一個澤字節大致相當于全球所有海灘上沙粒的總數。也就是說，這是一個天文數字，IDC的全球數據層項目（Global DataSphere，該項目負責計算全球每年產生的數據量）的負責人約翰·里德寧（John Rydning）如是說。

這意味著，只要能夠將數據壓縮成神經網絡可以學習的格式，那么各種類型的企業都將有機會從中獲益。食品巨頭百事公司（PepsiCo.）的首席戰略和轉型官阿西娜·卡尼烏拉（Athina Kanioura）認為，預測能力的小幅提升也能夠帶來巨大的財務回報。她說：“準確度的增加將會帶來數百萬美元的收益?！?/font>

接下來的挑戰則是要找到那些對商業活動最有價值的數據，把它們提供給研究人員使用。斯坦福大學（Stanford University）的教授、硅谷新創企業Sisu Data（該公司的主營業務是為企業開發分析工具）的首席執行官彼得·貝利斯（Peter Bailis）說：“深度網絡非?？犰?，在汽車、推文理解等領域都大有可為。但如果只是儲存在表格中的數據，那么對我們在認知風險、了解客戶滿意度等方面的幫助就非常有限了?！?/font>

如果換成商業人士都可以聽懂的話，那么問題依然是：人工智能能否解決自己難以識別Excel內容的問題？

******

神經網絡商業應用的推廣進度取決于其是否能夠像分析圖像一樣理解單詞的含義。為解決這一問題，研究人員將目光轉向了一種名為Word2vec的技術。（“vec”代表向量，是神經網絡最擅長理解的分析單元類型。）Word2vec由谷歌（Google）的一個研究小組于2013年開發，并已經作為開源軟件項目對外發布，可以幫助計算機理解特定單詞之間的聯系。Word2vec技術為更強大的語言系統的出現鋪平了道路，這些新推出的系統已經能夠識別出與“汽車”一詞關系更密切的企業是寶馬（BMW）、日產（Nissan）這樣的汽車制造商，而不是卡夫亨氏（Kraft Heinz）這樣的食品公司。

Word2vec之所以具備神奇的計算能力，是因為其可以將單詞轉換成神經網絡能夠理解的數字串，進而識別出詞語之間的相關性。經過一段時間的訓練，通過對更多文本進行學習，神經網絡便具備了根據單詞共同出現的頻率對其進行打分的能力，并能夠根據分數對單詞進行分組。與更早出現的所謂自然語言處理技術相比，這些較新的系統提升了與人類思維典型相關的模式識別屬性。

借助這種計算機輔助的單詞聯想游戲，計算機將可以理解表格中存儲的信息。這個過程相當于為神經網絡創建了一套自己的摩爾斯電碼（Morse code）：當應用程序在一份有關銷售情況的電子表格中遇到一列表示“日期”的數據時，無需獲得明確指令，只要借助足夠的數據，便能夠理解某些假日可能會對特定季節的銷售產生影響。

舊金山大學應用數據倫理中心（University of San Francisco's Center for Applied Data Ethics）的主任、非營利教育機構Fast.ai的聯合創始人雷切爾·托馬斯（Rachel Thomas）說：“這是底層的核心概念。神經網絡通過建模特定形態的模式創造了一種無限靈活的學習架構?！?/font>

僅在投資領域就有大量通過文字分析創造價值的機會。

高盛集團（Goldman Sachs）的一個研究小組正在對神經網絡進行訓練，使其獲得搜尋“家庭房產內部轉讓”相關詞匯的能力。在進行非商業性質的交易時，交易雙方很可能不會如實描述房產的真實價值，如果可以教會軟件在篩選資料時將相關信息排除在外，自然能夠提高銀行的分析能力。

“為此，我們訓練了一個可以識別此類交易、并減少對其關注程度的神經網絡?！奔又荽髮W圣迭戈分校（University of California at San Diego）計算機科學專業的常任教授查爾斯·埃爾肯（Charles Elkan）表示，直到最近，他還在負責領導高盛集團的機器學習項目。

復雜的詞語聯想對物流行業也有很大價值。位于舊金山的外賣新創企業Instacart便使用了word2vec的一種變體技術，讓自己的算法能夠預測顧客的偏好，這一能力在公司無法提供顧客想要的產品時尤其有用。為了方便神經網絡處理相關信息，該公司使用的程序會將超市庫存商品的“單詞”轉換成“數字形式的數據”，隨后，神經網絡會對相應物品進行分組，以便理解這些數據的意義：例如，（通過分組，神經網絡會發現，）與咖啡相比，什錦干果與干果或堅果的共同點更多。Instacart的機器學習主管沙拉特·拉奧（Sharath Rao）表示，使用這種技術幫助公司節約了時間和資金成本。他說：“不然我們就得思考所有可能的配對，還得保留一張（手填）表格?！?/font>

*****

雖然在結構化數據領域里應用深度學習技術已經是大勢所趨，但障礙依然存在。

首先，這是一個全新的想法，此前并未對其效果進行過驗證，沒有人知道與更為傳統的統計方法相比，這種技術可以有哪些優勢。人工智能芯片生產公司英偉達（Nvidia）的數據科學家埃文·奧爾德里奇（Even Oldridge）說：“現在我們還不知道這個問題的答案?！?/font>

的確，考慮到訓練神經網絡的費用，對于那些不具備人工智能專長的企業來說，原有的數據分析方法可能已經夠用了。

百事公司的高管、人工智能專家卡尼烏拉說：“我堅信，這個世界上絕不存在能夠解決所有問題的‘錦囊妙計’，對所有公司來說都是如此?！?/font>

云服務巨頭亞馬遜（Amazon）、微軟（Microsoft）和谷歌在推銷自己的服務時實際上也隱含著這層意思：與其投入巨資、招攬人才去爭取潛在的增量回報，還不如直接從我們這里購買人工智能服務。

與其它以“教會計算機具備‘思考’能力”為目的的項目一樣，人類的偏見也會對項目的成功構成威脅。深度學習系統的優劣取決于訓練它們所用的數據，數據太多或太少都可能會使軟件的預測產生偏差。

以基因泰克的數據集為例，該數據集收入了此前15年的癌癥病人的臨床數據，但只收入了此前8年的基因組測試數據，也就是說，在此之前的患者數據并不像研究人員所希望的那樣具有可比性。

供職于基因泰克的科平說：“如果我們對這些數據集缺乏了解，那么據此建立起來的模型可能毫無可靠性可言?！?/font>

科平表示，盡管如此，對這些電子表格中的內容進行強化分析依然具有很高的潛在價值，其意義完全不亞于獲得“預測一名病人在接受某種治療之后可以存活多久”的能力。對一堆表格來說，能夠做到這一點也算是不錯的成績了。

*****

數家公司正在對神經網絡進行訓練，希望其能夠處理自己已有的結構化數據，這些公司包括：

基因泰克

這家生物技術先驅企業制作了一份內含繁雜健康數據、覆蓋數萬名患者的電子表格，從常規記錄到基因組圖譜，不一而足。這一研究具有重要意義：如果人工智能真可以通過正確方式來分析這些數據，個體病患在未來或將能夠獲得針對其疾病制定的個性化治療方案。

高盛集團

人工智能為投資者提供了無限機遇。受高盛集團聘請，一位機器學習專業的教授開發了一種訓練工具，借助這種工具，神經網絡可以學會忽略那些可能使金融分析復雜化的詞語，比如“家庭內部轉讓”（出現這一詞語時，交易中的房產價值可能失真）。神經網絡學會識別、忽略此類詞語能夠提升現有分析模型的效率。

Instacart

這家外賣新創企業擁有一套易于理解的數據集，內含員工需要為顧客選取的各種超市商品。該公司正在訓練算法進行復雜單詞聯想的能力，例如在看到什錦干果時，可以聯想到堅果和干果，方便在顧客所需商品缺貨時為其提供替代選擇。(財富中文網）

譯者：Feb

財富中文網所刊載內容之知識產權為財富媒體知識產權有限公司及/或相關權利人專屬所有或持有。未經許可，禁止進行轉載、摘編、復制及建立鏡像等任何使用。

0條Plus

精彩評論

評論

撰寫或查看更多評論

請打開財富Plus APP

前往打開

熱讀文章

關注我們

半個世紀前發明的工具，成為了人工智能的瓶頸

撰寫或查看更多評論

半個世紀前發明的工具，成為了人工智能的瓶頸