——來自2020人工智能與電力大數(shù)據論壇的智慧共享
11月11—12日,由中國電力發(fā)展促進會(以下簡稱“電促會”)和國家電網有限公司大數(shù)據中心聯(lián)合舉辦的“2020人工智能與電力大數(shù)據論壇”在京召開。
11日上午,百度知識圖譜部的主任研發(fā)架構師宋勛超就《知識圖譜及其在電力業(yè)務中的應用》在論壇現(xiàn)場做了精彩的主題演講。
百度知識圖譜部的主任研發(fā)架構師宋勛
演講實錄全文如下:
各位專家,各位領導,各位電力行業(yè)的同仁,大家早上好。我是來自百度知識圖譜部的主任研發(fā)架構師宋勛超,很榮幸能夠在今天代表百度參加我們人工智能與電力大數(shù)據論壇。我今天匯報演講的題目是從數(shù)據到知識,數(shù)據智能化的升級之路。
我們人類發(fā)展到現(xiàn)在,已經經歷了三次科技革命。第一次科技革命將人類帶入了機械化時代,第二次科技革命將我們帶入了電氣化時代,第三次科技革命是信息化時代的科學革命。
目前,我們正處在第4次科技革命正在興起的時候,第4次科技革命其實就是人工智能的科技革命,人工智能的高速發(fā)展,已經為新一輪的產業(yè)變革提供了重要的驅動力量。人工智能技術包括以語音、圖像、視頻、ARVR等為核心組成的感知層技術,以及以語言和知識為核心的認知技術。語言和知識技術是人工智能的核心,它能夠像讓機器像人類一樣去掌握知識,理解語言,對于人工智能的發(fā)展至為重要,同時也是我們未來要實現(xiàn)通用人工智能所必須要具備的一個必要條件。
為什么這么說呢?讓我們的讓我們來簡單的回顧一下人工智能的發(fā)展和歷程。在人工智能接近60年的發(fā)展歷程里,我們一共經歷了兩代的發(fā)展,目前正處在第三代的一個發(fā)展期。
第一代的人工智能,我們稱之為符號主義的人工智能。我們知道人工智能的三駕馬車分別是數(shù)據、算力和算法,在這個階段,人工智能依賴的是專家的經驗和知識來去進行顯示的符號表示和邏輯推理,取出來模擬人類的一些智能行為,去解決一些推理規(guī)劃和決策類的問題。
一個具有代表意義的系統(tǒng)是IBM的國際象棋程序深藍,那么這個國際象棋程序在1997年打敗了國際象棋大師卡斯帕羅夫,然后我們認為第一代人工智能存在著一些質的缺陷,例如專家知識稀缺昂貴,因為這一代人工智能系統(tǒng),它系統(tǒng)里面所承載的各種各樣的知識往往是需要去用專家的能力去人工構建的。另外,這一代人工智能它所涵蓋的這個知識形態(tài)非常局限,如語言類的知識以及一些模糊類的知識,很難被這一代的人工智能系統(tǒng)所消化,因此它的應用范圍非常有限。
第二代人工智能,也就是大家目前所廣泛接觸到的基于深度學習的人工智能,這一代人工智能的特點最主要的特點就是數(shù)據驅動。在這一代人工智能系統(tǒng)里,往往不需要具備大量的領域知識,只要我們標注了足夠多的樣本數(shù)據,人工智能就能夠被低成本的啟動,再加上目前我們的神經網絡的規(guī)模越來越大,上一級的參數(shù)都是非常常見的,以及我們GPU算力的極大增強,使得這一代的人工智能技術呢能夠非常輕易的處理大數(shù)據。
但是,這一代人工智能技術依然有一些非常嚴重的局限性。首先基于神經網絡的人工智能,它往往具有一個不可解釋性的這樣的一個特點。另外,我們知道數(shù)據驅動往往需要一些非常大規(guī)模的樣本來去支撐我們的模型訓練。
雖然現(xiàn)在有一些研究方向,比如說遷移學習、小樣本學習,能夠從一定程度上去解決這樣的行業(yè)大樣本,大量的標注樣本缺失的問題,但是他依然沒有能夠從本質上解決這一代人工智能的一些本質的缺陷,因此它依然是不易推廣的。
從第一代人工智能和第二代人工智能的成就看,我們aI經濟進入了一個高速的發(fā)展期,我們現(xiàn)在稱之為第三代的人工智能,就是把第一代的知識驅動和第二代的數(shù)據驅動結合起來的新一代的人工智能。
在這個階段,人工智能的三要素除了數(shù)據算法和算例,還必須具備更為重要的第4大要素,也就是知識。目前,知識增強驅動的人工智能技術在非常多的領域已經取得了一些比較好的成果,運用前景也非常廣泛,比如基于知識增強的多模態(tài)語音理解,基于知識增強的大規(guī)模預訓練語言模型等等。
第三代人工智能的一個終極目標,就是去真正的模擬人類的行為,讓人工智能系統(tǒng)不僅能夠接受數(shù)學,還要能夠掌握知識,可解釋督辦,安全可信可靠可擴展,以及基于人工智能去實現(xiàn)真正的推力與決策,是這一代人工智能的最主要的特點。
接下來,讓我們把目光從人工智能發(fā)展史聚焦到百度的人工智能技術。今年是百度搜索誕生的第20個年頭,百度發(fā)展人工智能技術也已經有10年了,在過去的十年中,百度搜索引擎一直是各類人工技術凈化與落地的主戰(zhàn)場,而百度人工智能技術的發(fā)展和基礎,就是中國規(guī)模最大的互聯(lián)網大數(shù)據。
目前,百度已經擁有萬億互聯(lián)網的網頁內容,其中包括百億級的視頻、音頻圖像和定位數(shù)據,我們匯聚了海量用戶的互聯(lián)網行為數(shù)據,深度挖掘了30余個垂直行業(yè),360度的去刻畫用戶的屬性,積累了10億級的用戶的精準畫像,讓我們每天響應數(shù)10億次的網民訴訟請求。
在數(shù)據總量層面,整個百度擁有數(shù)十萬臺的服務器和一b加級的這個數(shù)據存儲,在我們服務于中國10億級網民的搜索引擎這個產品中,我們已經初步實現(xiàn)了數(shù)據到知識的轉化,以及基于大數(shù)據的智能化應用,基于這個規(guī)模最大的互聯(lián)網大數(shù)據,我們構建了世界上規(guī)模最大的中文知識圖譜,除了通用的實體圖譜,我們還針對不同的應用場景,以及不同的知識形態(tài),構建了關注點圖,并且實現(xiàn)了多元的異構互聯(lián)。
同時通過持續(xù)的獲取知識和積累知識,百度大腦的理解能力和智能化水平也在不斷的升級,從而更好的支撐不同的應用場景。那么我們是依靠什么技術來去驅動百度大數(shù)據的智能化升級呢?這里我想簡要的介紹一下百度知識中臺,百度指數(shù)中臺源于知識圖譜,這個曲線呢展示了知識圖譜,從2012年百度開始研究到現(xiàn)在的一個發(fā)展的歷程。那么截止到目前,我們百度的知識圖譜已經積累了50億的實體,5500億的事實,日均響應400億次的請求。
那么行業(yè)客戶為什么需要知識中臺,或者說數(shù)據到知識的轉換,能夠給行業(yè)客戶帶來一些什么樣的價值。其實知識中臺的提出是基于一個各行各業(yè),在大數(shù)據的智能化應用中普遍面臨的一個挑戰(zhàn),就是要就是高如何高效的沉淀與利用知識。
這些挑戰(zhàn)主要體現(xiàn)在以下4個層面,第一個層面是知識生產,行業(yè)大數(shù)據中往往蘊含著非常多的海量的隱性知識,這些隱性知識非結構化率非常高,從數(shù)據中去用人工梳理出這些知識成本高效率低。
第二個層面是知識組織,行業(yè)大數(shù)據往往面臨著系統(tǒng)分制、碎片化和孤島化的一些現(xiàn)狀,數(shù)據的形態(tài)單一,難以直接的去表達業(yè)務的邏輯。
第三個層面是知識獲取,我們直接的從數(shù)據出發(fā),內容缺乏理解,信息的獲取效率往往是非常低下的。
最后的層面是智能化應用,簡單的依賴傳統(tǒng)的大數(shù)據技術,已經在很多的智能化的應用方向遇到了一些瓶頸,它的本質原因其實是數(shù)據的深層表達能力的缺失,因此行業(yè)急需一套面向企業(yè)全生命周期的解決方案。
百度知識中臺就是這樣一款覆蓋企業(yè)支持全生命周期的解決方案。所謂的知識全生命周期就是指知識生產、知識組織、知識獲取和知識應用,它涵蓋了企業(yè)內多種模態(tài)的數(shù)據,包括了用戶數(shù)據、內容數(shù)據和數(shù)值數(shù)據。這些類型的數(shù)據涵蓋了我們傳統(tǒng)大數(shù)據類型的各個方面,同時它提供多場景層次的知識應用能力,比如搜索能力,分析能力和更為高級的決策能力,最終助力企業(yè)去匯聚數(shù)據凝練知識復能業(yè)務,提升企業(yè)的核心競爭力。
百度知識中臺從技術層面可以下接企業(yè)的數(shù)據中臺,能夠接入企業(yè)數(shù)據中臺中所蘊含的海量結構化、半結構化和無結構化數(shù)據。在基礎技術層面,能獲得百度在人工智能的多項核心積累,包括了知識圖譜技術,自然語言處理技術,語音技術、圖像技術,然后以及和傳統(tǒng)大數(shù)據息息相關的數(shù)據科學技術。在產品舉證層面,能夠直接向企業(yè)客戶提供三個標準化的產品,分別是企業(yè)搜索智能知識庫和知識圖譜決策引擎。
這三個標準化產品可以由淺入深的滿足企業(yè)不同場景,不同層次的知識體系構建與智能化的應用需求。從2018年到2020年,,兩年來我們已經賦能了眾多的行業(yè),比如說在金融行業(yè),我們去做智能客服風控管理,在醫(yī)療行業(yè),我們基于知識中臺去做醫(yī)療臨床輔助決策和病案指控,在媒體行業(yè)我們基于知識中臺去做輔助創(chuàng)作和內容生產,還有政務、教育、司法、辦公,其中自然包括最近一年我們重點投入的能源和電力行業(yè)。
目前,能源和電力行業(yè)正處在一個大數(shù)據智能應用化的一個轉型的一個變革期。我們認為,相比于其他行業(yè),能源和電力行業(yè)在沉淀知識這個層面面臨著更艱巨的挑戰(zhàn)。
首先,是能源行業(yè)數(shù)據體驗,單系統(tǒng)Pb級的數(shù)據非常常見,以南方電網為例,就是Pb級的數(shù)據系統(tǒng)有10余個,在和百度共建的這個非結構化數(shù)據平臺中,我們已經目前承載了百Pb級的這個數(shù)據。
其次,是數(shù)據種類非常多,能源行業(yè)的這個業(yè)務形態(tài)非常專業(yè),而且知識形態(tài)會更加復雜,數(shù)據形態(tài)有各種邊緣設備所產生出的這個數(shù)據數(shù)據,還有各種業(yè)務文檔,長期積累的這個海量的文本數(shù)據,還有企業(yè)在用戶和管理經營的過程中所產生的運營數(shù)據,最后還有非常多的音頻圖片和視頻等多模態(tài)數(shù)據,而這些體量大種類多的數(shù)據利用率是非常低的,因為其本質原因就是行業(yè)尤其是能源電力行業(yè),缺乏一套知識體系建設和智能化應用的解決方案。
目前,我國大數(shù)據的整體利用率只有0.4%,大數(shù)據的價值急需被知識化的沉淀和利用。有電網專家分析稱,每當大數(shù)據的利用率提高10%,我們就能夠使電網的利潤率提高20%~50%。因此,數(shù)據知識化的潛在經濟效益是非常大的。
能源電力行業(yè)的應用范圍業(yè)務范圍非常廣,我們覆蓋到了電力的發(fā)輸電配用這5大環(huán)節(jié),因此對于知識應用的能力層級和覆蓋度也提出了更高的要求。我們認為,與能源電力行業(yè)相比,其他行業(yè)更需要在數(shù)據中臺之上去建立知識中臺,來助力企業(yè)實現(xiàn)大數(shù)據智能化應用的一個轉型,實現(xiàn)由淺入深三個層次的智慧化電力能源應用。
基于智能知識庫,我們可以解決業(yè)務檢索咨詢、電力問答機器人、電力資產管理等類型的業(yè)務應用,以及基于更加高級的圖譜決策引擎,我們可以深入到電力業(yè)務的本質去解決故障,我們現(xiàn)在不在公司啊電力智能調度等等形態(tài)的這個業(yè)務應用。
總結起來,能源電力知識中臺的業(yè)務價值主要體現(xiàn)在以下4個層面,提煉知識價值,打破數(shù)據孤島,降低維護成本和提升運營效率。
下面,我和大家分享三個過去一年中我們在能源電力行業(yè)的一些實踐案例,這三個案例分別體現(xiàn)了知識中臺的三個標準化產品,在企業(yè)知識體系建設與智能化應用中發(fā)揮的重要價值。同時,它也印證了從數(shù)據到知識的轉化,能夠給我們企業(yè)所帶來的效益的三個非常經典的案例。
第一個案例是依托企業(yè)搜索,打造南方電網的自搜。依托知識中臺的核心能力,我們助力南網集團公司實現(xiàn)了全業(yè)務全類型和是探全時態(tài)數(shù)據和信息的精準查詢便捷獲取,這已經在今年7月成功上線。
在這個項目中,通過系統(tǒng)性的資源建設中,引入了包括業(yè)務數(shù)據、辦公信息、資產信息、材料協(xié)同、行業(yè)資訊、內容運營等6大數(shù)據源的數(shù)據,并且對這引入的6大數(shù)據源的數(shù)據進行了非常系統(tǒng)的知識生產,知識構建和知識應用,服務的人群滿足了全集團員工辦公和業(yè)務搜索的需求。截止到目前,全系統(tǒng)的知識化數(shù)據量已經達到4億家,然后集團內累計用戶搜索次數(shù)1616萬。
第二個案例,是借助智能知識庫來去實現(xiàn)電力投資項目管理分析。智能知識庫體現(xiàn)了一個超越搜索的直接知識滿足能力。這背后依托的基礎就是這種知識平臺的技術,能夠在智能問答的層面給大家提供更加便利的搜索體驗。
目前百度在搜索產品中,所謂的直接滿足率已經達到百分之五十七,在這個項目中,我們就是將這一系列技術,運用到了企業(yè)的電力投資項目管理分析的應用過程中?;谶@個產品,我們將集團內發(fā)電、環(huán)保、金融等10余個核心的業(yè)務系統(tǒng)來去進行一個知識互聯(lián)化,打破數(shù)據的隔離壁壘,大幅度的提升了集團投資管理效率,降低了這個項目的系統(tǒng)性風險。
具體而言,在這個項目中,基于支持中臺的電力管理投資知識庫呢對接集團的大數(shù)據平臺,融合了集團50%以上的這個業(yè)務系統(tǒng),提供了投資風險分析、項目運營提報、電力客戶營銷和可視化關聯(lián)統(tǒng)計等等知識應用能力,全系統(tǒng)的知識問答覆蓋率達到80%以上,知識問答的準確率在98%以上。
最后一個案例,是基于圖譜決策引擎來去實現(xiàn)核電設備的故障分析,這是基于知識直接去進行業(yè)務的輔助決策的一種形態(tài)。在這個項目中初步決策引擎,將數(shù)據運營中心中的多種數(shù)據,包括了結構化的數(shù)據和無結構化的數(shù)據,去進行一個系統(tǒng)化的知識圖譜的構建,形成了千萬級別的設備知識圖譜,能夠支持上百種的故障分析和診斷模式,為一線操作人員去秒級別的提供故障根因分析與操作步驟建立,從而達成沉淀與傳承一線操作人員的經驗知識,顯著的降低設備誤診率與處理時長,大幅提升現(xiàn)場運維處理效能的目標。
最后,結合人工智能最新的發(fā)展趨勢,以及我們對行業(yè)需求的洞察,我們認為深度挖掘大數(shù)據的價值,將數(shù)據到知識的信息的轉化,進一步的沉淀為人工智能系統(tǒng)所能消費的知識,是普世性的支持各類人工智能應用目前所最需要攻克的一個難題。
以上就是我今天分享的全部內容,未來百度知識中臺愿意攜手更多的能源電力客戶與伙伴,用知識來助力電力行業(yè)實現(xiàn)智能化的轉型,謝謝大家。
(根據速記整理,未經嘉賓審核)
評論