“數據治國”的三個關鍵理念

——從互聯(lián)網思維到未來治理圖景
 
  【摘要】大數據因其規(guī)模巨大、類型復雜、產生速度快、價值密度低等特點,對現有信息技術構成巨大挑戰(zhàn)。運用新理念、新技術、新方法對大數據進行全生命周期的創(chuàng)新管理和應用,是推動國民經濟轉型和社會管理創(chuàng)新的重要契機,也是提升國家綜合競爭力的重要趨勢。支撐這場大數據革命的底層力量,不僅僅是技術革命,更是涉及領導意識、組織文化和行為方式的思維革命。在國家治理層面,尤其需要形成“數據治國”的治理理念,掌握用數據思考和解決社會問題的新方法,最重要的是樹立數據思維、互聯(lián)網思維和計算思維這三種思維方式。
 
  大數據是因信息技術特別是數據獲取技術的革命性進步而形成的信息爆炸現象,因其規(guī)模巨大、類型復雜、產生速度快、價值密度低等特點,對現有信息技術構成巨大挑戰(zhàn)。運用新理念、新技術、新方法對大數據進行全生命周期的創(chuàng)新管理和應用,是推動國民經濟轉型和社會管理創(chuàng)新的重要契機,也是提升國家綜合競爭力的重要趨勢。支撐這場大數據革命的底層力量,不僅是技術革命,更是涉及領導意識、組織文化和行為方式的思維革命。在國家治理層面,尤其需要形成“數據治國”的理念,掌握用數據思考和解決社會問題的新方法,最重要的是樹立三種思維方式。
 
  數據思維
 
  數據在經濟社會運行中的地位從未像今天這樣重要。之所以要重視大數據,是因為它是一種更好的工具,是信息時代堪比人、財、物要素的資源,是對未來具有戰(zhàn)略意義的資產。但實際上,大數據的價值并不止于此,它正在“成為這個世界上最重要的土壤和基礎”(涂子沛語)(1),成為一切管理和決策的依據。與之相應的,大數據治理首先要樹立的是數據思維。
 
  量化思維:先有數,再做事?!耙磺薪钥闪炕??!边@是斯蒂芬·貝克(Stephen Beck)在《當我們變成一堆數字》一書中提出的觀點。(2)在這本匯聚數字報告和分析的力作里,斯蒂芬·貝克展示了我們正在進入一個鮮活的量化世界:每一天,我們的身后都拖著一條由個人信息組成的長長的“尾巴”,我們點擊網頁、切換電視頻道、駕車穿過自動收費站、用信用卡購物、使用手機等行為——這些過去完全被忽略的信息——都通過各種方式被數據化地記錄下來。
 
  放眼宏觀,我們看到物聯(lián)網傳感器數據、互聯(lián)網用戶生成(UGC)數據、業(yè)務系統(tǒng)運行數據、信息系統(tǒng)日志數據、科學儀器產生的數據……這些數據源源不斷地產生,把物理世界的萬事萬物一一映射成一個數據世界,從而形成大數據時代的全貌。
 
  數據的延伸,就是管理的延伸?!安粫炕蜔o法管理”(3)的思想已成為管理學界的共識。借助“一切皆可量化”的技術背景與思維方式,政府可以獲得更多基于管理和服務對象的信息,做到更加精準的洞察和預測,從而大大豐富治理的手段和方式。
 
  美國政府已經在著手進行追蹤恐怖分子的大數據挖掘計劃。他們認為,如果恐怖分子要計劃一次襲擊活動,必定會在各種角落留下某種痕跡,通過對這些“數據足跡”進行挖掘,就能發(fā)現和追蹤恐怖分子。這些做法,對于我國邊疆地區(qū)維穩(wěn)和預防暴力事件都是一種有益的啟示。
 
  紐約市為了恢復哈德森河的生態(tài),在河的沿岸都安裝了傳感器,傳感器把河水的鹽度、濁度、葉綠素、顆粒物粒徑以及河面風向等數據收集起來,實時地傳遞到后臺。在計算中心,各種數據匯成了一條虛擬的哈德森河,流水何時被污染,化學、物理、生物成分發(fā)生了什么變化,一看便知。(4)接下來,數據科學家便可以利用這些信息建立一個哈德森河的環(huán)境模型,評估不同的治理方案和人類干預對哈德森環(huán)境的多種影響,以保證在實際治理時的效率和效果。
 
  很多國家和地區(qū),包括中國的一些地區(qū),正在給數以千萬計的家庭安裝智能電表。這些電表每隔幾秒鐘或幾分鐘就讀取一次用電數據,電力公司據此每個月向每戶家庭提供一份個性化報告,以鼓勵節(jié)約用電。在美國,智能電表工程預計每年能為全國消費用電節(jié)省5億美元。大數據成為政府節(jié)能減排的千里眼、萬只手,并且做到了深入每一戶家庭、量身定制解決方案,這在入戶抄電表的傳統(tǒng)工作方式下根本是無法想象的事情!
 
  量化只是第一步。量化的目的是建設數據平臺,涉及數據捕獲、數據傳輸、數據存儲、數據處理、數據分析、數據消亡等動態(tài)過程。要在國家和社會治理層面建立這樣一個完整的數據生命周期,需要做大量的基礎性工作,更要在政府部門普遍形成“先有數,再做事”的組織文化和行為風尚。
 
  決策思維:讓數據說話。隨著信息技術的進步,硬件的重要性正在急速下降,數據的重要性正在不斷提升。以前都是先有應用后有數據,現在是先有數據再說應用。數據具有獨立存在的價值,軟件是為數據服務的。在大數據時代,我們需要樹立以數據為中心的新思維。具體到政府層面,應當盡快將已有的管理決策模式變?yōu)椤皵祿寗印毙履J剑陬I導意識、組織文化和工作流程上經歷一次從內而外的蛻變。
 
  一般來說,決策可以由三種方式分別或混合地驅動:直覺、經驗和邏輯。雖然有時直覺和經驗在決策過程中是無可替代的,例如喬布斯對蘋果產品需求的直覺把握,但經驗和直覺往往容易產生偏差。比如,決策的出發(fā)點或許并不差,但由于缺乏民主基礎和科學依據,其結果往往不能令民眾滿意;決策過程可能很粗放,完全是“一言堂”,根本不聽取社會上方方面面的意見,結果在實施過程中,漏洞百出。
 
  中國領導者的決策往往更傾向于依賴經驗和直覺,有時候甚至僅迫于眼前的境遇與狀況,缺乏依靠數字管理的習慣。在政府的會議室里,一件似乎經過了理智討論的事情,可能是在沒有什么實際標準的情況下做出的決定。這種現象并不少見。個別領導干部把決斷誤認為武斷和盲斷,由于決策失誤給國家和人民造成損失,被群眾戲稱為“三拍”干部,即“事前拍腦袋決策、事中拍胸脯保證、出事后拍屁股走人”。
 
  在過去,受數據獲取以及分析的限制,依靠決策人的經驗“拍腦袋”決策是不得已而為之。在大數據時代,各行各業(yè)都在學習如何利用數據進行預測、作出決策,政府領導者們如果不能與時俱進,做到凡事“心中有數”,很難想象如何做一個稱職的“當家人”。此外,隨著公共管理事務的日益復雜,僅憑個人感知,已經很難全面地了解所有正在發(fā)生的事情,并給出正確的判斷。這就要求政府部門提高改革決策的科學性,把大數據技術與思維運用到管理與決策中,掌握決策依據、優(yōu)化決策過程、跟蹤決策實施;要求管理者改變“差不多先生”(胡適語)的作風(5),養(yǎng)成“用數據來說話、用數據來管理、用數據來決策、用數據來創(chuàng)新”的思維習慣。
 
  有志于引領組織實現大數據轉型的管理者們,可以從兩個最簡單的技巧開始。首先,要養(yǎng)成問“數據怎么說”的習慣。大數據驅動下的管理,重要的不是“我們怎么想”,而應該是“我們知道什么”。遇到重大決策的時候,還要緊跟著這個問題進一步問:“這些數據從哪兒來的?”“這些數據能得出什么結論?”“我們對結果有多大信心?”決策者對于數據與客觀證據的尊重是大數據發(fā)揮價值的重要保證。當管理層的思維發(fā)生了這樣的變化,員工就能從中迅速接收到信息,得到重視數據的激勵。其次,要允許數據做主。數據得出的結論,有的能夠支持既有的經驗,有些則可能與之相悖。當結論與經驗不符時,數據說了算還是經驗說了算?這將對數據在組織中的地位形成考驗。如果決策者不愿意根據數據調整自己的經驗,甚至有選擇地“看到”那些和自己經驗相一致的數據,那么無論搜集了多么海量的數據,無論引入了何種高深的算法,這些數據與算法都只是為了支持與粉飾決策者既有的決定,不能帶來新的知識與價值。相反,如果員工用來自一線的大數據分析結果,讓經驗豐富的領導推翻了自己原先的直覺判斷,放手讓“大數據說話”,這將是改變組織決策文化的最大力量!
 
  整合思維:打破信息孤島。政府掌握著社會方方面面的大數據,人口、交通、衛(wèi)生、社保、稅收、城市規(guī)劃……雖然大多數政府部門都建成了比較完備的信息化平臺,但是各個部門間的數據沒有進行高效的整合,大量部門的數據如一個個信息孤島,給政府調度和公眾辦事帶來了不便,也制約了數據活力的激發(fā)。
 
  例如,購買一套住房,需要填報十幾張表格,每張表格可能1/3以上的內容是重復的,這些都是政府擁有的基礎數據,完全可以根據身份證號碼自動生成。北漂小伙為了辦一張護照,返鄉(xiāng)6次,補5張證明,多跑3000公里。而只要實現了綜合數據聯(lián)網,這5張證明的相關信息(無犯罪證明、公司在職證明、公司營業(yè)執(zhí)照、公司外派人員資格證明、本地身份證),完全可以由政府部門內部調取,而不必讓老百姓為此急斷腸、跑斷腿。(6)
 
  信息孤島是行業(yè)信息化的階段性產物,而要打破條塊分割,實現不同政府部門、不同層級之間數據的集中共享也非一日之功。一方面,需進行縱向信息系統(tǒng)整合,在相同的上下級政府部門之間,利用多級網絡和中心數據庫,構建統(tǒng)一的信息平臺。例如,流動人口在我國是一個較大的問題。誰在流動?能不能從傳統(tǒng)的戶籍系統(tǒng)里找出一些規(guī)律以利于更好地管理?比如,能不能把勞動力輸出省安徽的戶籍數據與輸入省廣東的戶籍數據整合起來?這既需要自上而下的部署,也需要自下而上的實驗。另一方面,還需進行水平的電子政務信息系統(tǒng)整合,實現跨部門的政府信息資源共享和政務協(xié)同。例如,在社保(市民)卡辦理的時候,以共享信息的方式使用二代身份證照片,可減少市民照相和出行成本;企業(yè)報備辦理港澳商務通行證,通過共享國稅地稅相關信息,可以免去到市國地稅局開設納稅額度證明步驟;稅務質檢登記復用工商信息,可以減少辦事人員等待時間等。
 
  數據之網縱橫交錯,才能激發(fā)活力。我國財政部門以互聯(lián)網門戶網站建設和財政專網系統(tǒng)建設為抓手,全面打造財政政務公開的“陽光平臺”,形成縱向聯(lián)通國家、省、市、縣財政部門、橫向連接同級人民銀行國庫、代理銀行、國地稅部門以及所有預算單位的橫縱結合的網絡系統(tǒng)。這些舉措不斷塑造著“財—金—企—社”信息資源網絡化的雛形。
 
  要徹底打破信息孤島,還需要從內部管理觀念和行政體制上著手。雖然說“信息孤島”形成的表面原因是信息存儲格式不一致的問題,但目前更深層次的原因其實是管理上的孤島現象。觀念和態(tài)度不變,即使手握利器,行政效率和服務質量也難提高。誰都知道“九龍治水”弊端多,即使現在大數據有辦法讓“九龍”成天“坐在一起”,但如果互相誰也不理誰,水還是治不好。
 
  互聯(lián)網思維
 
  凱文·凱利指出,云計算時代的最大文化動向就是永遠在線。(7)人與人、人與設備、設備與設備時時刻刻的連接,將以7×24小時的方式源源不斷地產生數據。特別是web2.0之后的用戶生成內容(UGC),包括社交網絡(SN),是大數據形成的重要原因之一。因此,要做好大數據治理,還必須深入理解互聯(lián)網思維。
 
  關聯(lián)思維:萬物皆相關。在氣象經濟學界流行這樣一條“德爾菲氣象定律”,即氣象投入與產出比為1:98,也就是說,在氣象信息方面每投入1元,就可以得到98元的經濟回報。一個典型的例子是,氣溫每降低1℃,北京市燃氣供暖系統(tǒng)日消耗天然氣將增加約200萬立方米。如果提高氣象預報的精度,實時對供暖系統(tǒng)進行合理調度,無疑將有效降低能源消耗,節(jié)省很大一筆經費開支。
 
  這就是大數據的價值所在。通過挖掘海量數據,呈現一個充滿關聯(lián)的世界。誠如舍恩伯格所預言的那樣:“將世界看作信息,看作可以理解的數據的海洋,為我們提供了一個從未有過的審視現實的視角。它是一種可以滲透到所有生活領域的世界觀?!保?)
 
  在商業(yè)案例中,你可能聽說過啤酒與尿布、搜索詞與流感趨勢、女兒懷孕與廣告?zhèn)鲉蔚墓适拢辉趪遗c社會治理中,也有很多運用數據相關性的成功案例。例如,紐約市警方開發(fā)了一款電子數據地圖——CompStat,通過分析案件發(fā)生歷史與發(fā)薪日、體育賽事、天氣變化、假日等變量的相關性,預測最可能發(fā)生罪案的“熱點”地區(qū),并預先在這些地區(qū)部署警力。應用這套系統(tǒng)后的次年,該市犯罪率就出現了明顯的下降,兇殺案發(fā)生數量創(chuàng)下了50年來最低。(9)
 
  中國海關的“電子口岸”整合了工商、稅務、海關、外貿、外匯、銀行、公安、交通、鐵路、民航、國檢等十幾家部門的數據。數據之間實時的聯(lián)網分析,使“電子口岸”在加快報關速度、高效打擊不法分子的同時,更成為中國經濟的“氣象預報臺”,能夠為國家宏觀經濟調控提供非常精細、全面的決策支持。
 
  大數據之所以能發(fā)掘規(guī)律、作出預測,靠的是對相關關系的把握。我們常說“清明時節(jié)雨紛紛”,這個結論并不是邏輯推導出來的,而是人們通過多年觀察,發(fā)現以往每年這幾天總是下雨比較多,于是總結出了這樣一個樸素的規(guī)律。同樣的道理,計算機可以在海量的數據上運用數據挖掘等辦法,自動地發(fā)現一些相關性,然后通過相關關系來預測事情發(fā)生的可能性。例如,從公交車輛運行的點數據推斷一個路段發(fā)生擁堵的可能性,從納稅人的異常數據特征發(fā)現偷稅漏稅的可能性,從人們上網檢索的關鍵詞推斷流感爆發(fā)的可能性,等等。
 
  盡管因果關系是最深刻的一類聯(lián)系,但是我們很多時候并不能獲得。這種情況下,我們是無所作為呢,還是也可以有所作為?答案是明顯的,只要我們知道一些相關關系,我們也可以進行預測。相關關系也許不能準確地告知我們某件事情為何會發(fā)生,但是它會提醒我們這件事情正在發(fā)生。在許多情況下,這種提醒的幫助已經足夠大了。如果電子醫(yī)療記錄顯示橙汁和阿司匹林的特定組合可以治療癌癥,那么找出具體的致病原因就沒有這種治療方法本身來得重要。同樣,只要我們知道什么時候是買機票的最佳時機,就算不知道機票價格瘋狂變動的原因也無所謂了。因此,我們常常說在大數據時代,“是什么”比“為什么”更重要,相關關系比因果關系更重要。[page]
  去中心思維:走向網狀社會?;ヂ?lián)網時代最鮮明的特征是去中心化、平等化。因為互聯(lián)網在本質上是反壟斷的:開源軟件社區(qū)的發(fā)展打破了少數大企業(yè)對技術的壟斷,信息公開和開放數據打破了信息壟斷,云計算等租賃業(yè)務的普及打破了資源壟斷。
 
  尤其在傳播領域,我們可以非常清楚地看到這樣一個去中心化的趨勢。在報刊、廣播、電視流行的傳統(tǒng)媒體時期,人們只能聽到中心的一個聲音。后來,博客的誕生使得每個人都可以發(fā)表自己的想法。較之于傳統(tǒng)媒體,這是個巨大的飛躍。但是個人的想法能讓多少人聽到,卻依然取決于門戶網站的編輯(即自己發(fā)表的博客是否被精選)。隨著微博的興起,所有人可以在一個統(tǒng)一的公共討論空間討論,更重要的是這個討論空間,不再依靠一個中心,而是靠著興趣、關系的鏈條自動生成、壯大,編輯的力量被前所未有地削弱了。
 
  數據的生產和流動也遵循這樣一個去中心化的趨勢。涂子沛在《大數據》一書中指出(10),在大數據時代,基于層級的社會控制手段將不再適用,基于流程的管理方法也有很大局限性。這是因為,在大數據時代,信息和數據是最重要的資源,一旦信息自由、數據開放,就意味著信息和每一個公民之間都是等距的,而且中間沒有層級的過濾。數據的開放和流動,就代表著知識的開放和流動、代表著權力的開放和流動,這種開放和流動是多中心的、水平的。在這個時代,社會的主體結構將從分層轉向“結網”,在網狀傳播力量的不斷沖擊下,個人的主體價值將得到前所未有地張揚,集中在政府的權力將開始分散,權力的最終流向是社會、是大眾、是一個個獨立的公民個體。大數據時代正在呼喚下一波社會化的浪潮:一個更開放的社會,一個權力更分散的社會,一個網狀的大社會。
 
  這會形成一種什么樣的國家和社會治理圖景?一個可以預見的前景是,政府的組織形態(tài)必將越來越開放,從條塊分割、封閉的架構向開放、協(xié)同、合作的方向邁進。傳統(tǒng)的決策過程是線性的、自上而下的,而伴隨互聯(lián)網和大數據浪潮而來的,將是一個非線性的、去中心化的、自下而上的、發(fā)現群體智慧的決策模式。
 
  美國一位程序員發(fā)明了一款應用軟件——SeeClickFix,居民可以通過手機拍照,向該軟件舉報亂涂亂畫、交通燈損壞或者排水管堵塞事件,這些投訴被自動記錄在案,并被發(fā)送到公共事業(yè)部門的卡車儀表盤上,相關問題也得到了很快的解決。(11)SeeClickFix自2008年3月研發(fā)以來,目前已在美國上千個城市和社區(qū)中使用,其中既有舊金山、華盛頓、達拉斯等大城市,也包括麻州西部和康州的許多小鎮(zhèn)。
 
  SeeClickFix是政府2.0理念的典型代表。在我國“社區(qū)網格化”管理系統(tǒng)實踐中,類似系統(tǒng)也得到了普遍應用?!罢?.0”的實質,就是平臺的政府、服務導向的政府、開放的政府,從以政府為主體的管治轉向以協(xié)同共治、公共服務為導向的公共價值塑造。通過這種開放的平臺,公眾能夠參與政府提供公共服務產品的全過程,包括公共服務產品的設計、生產、供給等各個環(huán)節(jié);而政府也能打開更為深入和廣泛了解民情民意的“政策窗口”,疏通促進社會和諧的民意渠道,找到不斷優(yōu)化公共決策的新機遇。
 
  人本思維:政務人性化?;ヂ?lián)網思維的核心在于以用戶需求為主導,將用戶思考和用戶體驗做到極致是關鍵所在。政府的核心職能就是為人民服務,以人為本是貫徹落實科學發(fā)展觀的核心要求。在這個層面上,我們的執(zhí)政理念與互聯(lián)網精神是非常契合的。
 
  以人為本的前提是全面了解與服務對象有關的情況與需求,只有建立在這種數據基礎上的判斷,才能保證政府落地的政策能實實在在地使每一個公民受益。如果搞“長官意志”,不能很好地把握民情民意,這種服務就會陷入想當然的境地。
 
  在大數據的輔助下,政府一方面能夠實時、全面感知和預測公眾所需的各類服務和信息,及時發(fā)現需求熱點,為用戶提供更加智能化的辦事、便民服務;另一方面,對公民需求的多維度多層次細分,把從面上的需求判斷變?yōu)閷π枨蠹毠?jié)的感知,使政府服務提供更精準、更個性化。人本思維的樹立,有助于使政府改變傳統(tǒng)的“指令導向”的公共管理模式和“供給導向”的公共服務模式,開啟“需求導向”的公共管理與服務新模式。(12)
 
  北京市公交部門于2013年9月推出“定制公交”平臺。市民可在該平臺上提出自己的出行需求。公交集團則根據乘客提出的出行需求和客流情況,設計商務班車線路,然后在定制公交平臺上招募乘客、預訂座位、在線支付。根據約定的時間、地點、方向開行商務班車,保證一人一座,每日出行費用也將遠遠低于自駕車和乘坐出租車。
 
  大數據的創(chuàng)新運用和實時分析,還被認為能夠推動失業(yè)、饑餓、疾病爆發(fā)等社會問題的解決,對于發(fā)展中國家的發(fā)展而言尤其具有特殊意義。近些年全球糧食、能源和金融危機的經驗告訴人們,盡管當今世界信息技術非常發(fā)達,但決策者得到有用信息并及時采取行動以保護弱勢人群的速度,卻總是滯后于危機的出現。為了改變這種狀況,2009年,聯(lián)合國啟動“全球脈動”(Global Pulse)計劃(13),旨在為各國提供實時數據分析,以便更準確地了解人類福祉狀況,降低全球性危機對人類生活的影響。與傳統(tǒng)的統(tǒng)計僅能有效跟蹤中長期發(fā)展趨勢相比,“全球脈動”旨在發(fā)現新的數字化指標,實時了解情況,并及時為決策者提供反饋。
 
  聯(lián)合國秘書長潘基文說:“我們事實上是在一個實時信息的海洋中游泳,手機和數據服務的爆炸式增長意味著世界各地的人們在為全球知識庫作出海量的信息貢獻。他們還通過交流、購買、出售和其他日常生活活動以免費的方式提供著信息。私營部門正在研究這些新數據以便實時了解顧客。聯(lián)合國也必須為自己的服務對象——全世界那些失去工作、生病、難以養(yǎng)活自己和家人的人們做同樣的事情?!保?4)
 
  在2014年“兩會”上,“大數據”一詞首次被寫入《政府工作報告》。不少代表委員舉起“數據治國”的大旗:小米總裁雷軍呼吁將大數據上升為國家戰(zhàn)略,百度總裁李彥宏提議用大數據解決教育資源不平等問題,還有多位代表委員提出成立國家大數據戰(zhàn)略委員會,用大數據破解“十面霾伏”、“舌尖上的安全”、“人在證途”、反恐、房價調控等民生難題。誠如涂子沛在《數據之巔》中所言:“人類的地平線上出現了一些新方法來解決一些老問題,這些方法用的不是鋼筋和水泥,而是軟件和數據?!保?5)
 
  計算思維
 
  “大數據”現象是由于信息技術的進步而產生的,大數據時代就是大計算時代,無處不在的計算標志著一個計算型社會的興起。因此可以說,沒有計算技術的發(fā)展,就沒有大數據。但是,常常聽到有人說“技術不重要”,這種輕視技術的思想對于大數據應用的良性發(fā)展只會帶來傷害。大數據應用就是一種基于計算機信息技術的解決問題的辦法,因此也需要計算思維。
 
  計算思維是運用計算機科學的基礎概念進行問題求解、系統(tǒng)設計以及人類行為理解等涵蓋計算機科學之廣度的一系列思維活動。計算思維,簡單地說是指人們利用計算機解決問題的普遍方法。計算思維的提出者周以真(Jeannette M. Wing)教授認為,計算思維同算術能力、語言能力等一樣,是每一個現代人需要具備的基本能力。(16)從計算機解決問題的角度分析,我們認為以下兩個方面最為重要:
 
  算法思維:把工作交給機器。大數據應用是一個極為復雜的系統(tǒng),大數據系統(tǒng)包括數據采集、數據清洗、數據存儲、數據傳輸、數據管理、數據分析、數據挖掘、數據展示等許多環(huán)節(jié),其中任何一項工作都是人力所難以勝任的,一定要借助計算機的力量,通過事先編寫好的程度自動完成。
 
  我們在日常工作中也常常會做些調查研究、數據統(tǒng)計分析等,都是手工完成的,最多采用一些數據處理的工具,例如excel等。在大數據時代,我們面臨的是TB級、PB級的數據,這遠超出了人力所能處理的范疇。
 
  算法思維的關鍵是要回答以下幾個問題:我們面對的問題是否可計算?計算復雜度有多大?是否存在在合理的時間和資源條件下可完成計算任務的有效的計算算法?這些問題有些專業(yè),并非管理人員能回答,具體答案可以交給技術人員去完成,但是管理人員在決策時需要考慮到這些問題。
 
  基于大數據的求解問題的算法不能太復雜,需要比較簡單才可行。舉個智能翻譯的例子。(17)傳統(tǒng)翻譯軟件設定了很多語法規(guī)則,用這些僵化的規(guī)則拆解每個句子,再逐字翻譯生成不同的語句。但這往往使翻譯出來的語句生硬拗口,甚至錯誤率很高。谷歌的翻譯軟件卻不是這么做,他們從大量已存的翻譯文章中對比,找出最合適的翻譯的文字。事實證明雖然網上搜集來的翻譯文章有不少是錯誤的,或者質量不高,但由于數據量極大,這些錯誤可以通過排序被過濾掉,這種方法大大提高了翻譯的質量和準確性。也就是說,不精確的大數據用簡單算法,比精確的小數據用復雜算法要有效得多!以大數據方式做翻譯的另一個好處是,系統(tǒng)會隨著數據的積累而不斷改善。如果您看到某條譯文不太合適,可以點擊相關詞組查看備選翻譯結果。當您點擊更好的備選譯文時,Google翻譯會記下您的反饋,并在日后繼續(xù)改進。谷歌翻譯目前能夠支持71種語言的互譯,2012年用戶的使用次數達到2億次。
 
  用簡單的算法,在大數據上能夠創(chuàng)造出復雜的人工智能,使計算機代替人類完成動態(tài)監(jiān)測、語音咨詢、作業(yè)批改乃至醫(yī)療診斷、法律文書處理等專業(yè)任務。這種處理不僅是實時的、大批量的,更是科學的、精準的。
 
  美國郵政(USPS)的計算機系統(tǒng)能夠自動掃描郵件的相關數據(存放位置、派送路線、重量、體積等信息),通過與數據庫中近4千億條數據的比較,甄別出“郵資欺詐”的郵件。掃描一封郵件只需要50~100毫秒。一旦檢測出了“異常”——比如包裹郵資不足或者郵票重復使用等情況,系統(tǒng)就會對信件實施實時攔截,再由分揀人員對其進行特殊處理。有趣的是,該項目竟然由此形成了“威懾效應”。自從2006年開始實施此計劃起,“郵資欺詐”行為減少了很多。(18)
 
  把工作交給機器,讓機器替代或輔助人工,不僅是科技的未來,更是政務大數據的未來。
 
  平臺思維:給工作搭一個舞臺?!捌脚_”指計算機硬件或軟件的操作環(huán)境,泛指進行某項工作所需要的環(huán)境或條件,包括技術平臺、業(yè)務平臺、數據平臺等?!捌脚_”不是一天就建立起來的,需要巨大的建設投資和長期的運行維護成本。我們的一切工作都需要在這個平臺上進行。平臺一旦建成,中途也很難更換。因此,平臺的規(guī)劃、技術選擇等就成為開展大數據應用的重要課題之一。
 
  由于大數據應用種類非常繁多,特征各不相同,一種普遍被接受的觀點是大數據平臺應該是因應用而異的。例如,就數據管理而言,傳統(tǒng)關系數據庫管理系統(tǒng)(DBMS)秉承的“全能型”(one-size-fits-all)理念不再適用于紛繁復雜的現實應用:數據不同,負載不同,應用場景不同等,導致每一類典型應用都需要有相應的數據管理系統(tǒng)。
 
  “平臺”的可擴展性也是一個重要的問題。從組織IT架構體系上來看,必須考慮可擴展性的問題:隨著使用人數的增多、業(yè)務量的增加,系統(tǒng)必須具備能夠及時擴展IT系統(tǒng)的能力。解決這個問題通常有兩種方式:縱向擴容(Scale up)和橫向擴容(Scale out),兩種擴容的方式分別從兩個維度來解決數據管理壓力??v向擴容就是將數據庫服務器的配置提高,如增加硬件資源配置,通過硬件速度提升來解決訪問壓力。橫向擴容就是將應用的數據拆分,將原來集中存儲的數據根據一定的規(guī)則分布到不同的物理數據庫服務器上??v向擴容模式實施成本較高,壓力大到一定程度之后,硬件可能無法滿足這類需求。如果能夠通過疊加相對廉價設備的方式實現存儲和計算能力的擴展,那么這將是長期可擴展的有效手段。這是橫向擴容的優(yōu)勢。
 
  舉例來說,我國的群體性事件時有發(fā)生。政府為了加強對群體性事件的發(fā)現和處置能力,就需要有一個基于大數據的輿情分析平臺,加強輿情研判能力,以捕捉最佳處置時機。這個平臺需要自動收集各種社交網絡上的信息并進行整合,監(jiān)控社會輿情和公眾情緒,并具有能對網民群體行為進行社會態(tài)勢分析與預警的能力,將可能釀成重大輿情危機的不穩(wěn)定苗頭化解在萌芽狀態(tài)。這個平臺需要管理各種結構化和非結構化的數據,需要很強的橫向擴展能力和實時數據分析能力。建設這個平臺將成為政府一項投資巨大、挑戰(zhàn)巨大的任務。
 
  結束語
 
  面對新一輪的大數據革命,由于技術的全球化和開放性,中國具有獨特的“后發(fā)優(yōu)勢”,在很多方面甚至具備創(chuàng)新和超越的可能。
 
  當然,在科技迅猛發(fā)展的今天,還有相當多的農民和城市底層居民,因為各種原因而成為信息時代的缺席者,無法在網絡世界表達意見和訴求。例如,用駕駛員的智能手機收集交通擁堵、路面坑洼數據,這固然是一個以低成本收集信息的途徑,但是,這樣收集的信息是存在盲區(qū)的,一些貧窮社區(qū)、老年社區(qū)的道路很可能會因為報告較少而得不到及時的維護。在中國,數字鴻溝造成的差別正在成為繼城鄉(xiāng)差別、工農差別、腦體差別“三大差別”之后的“第四大差別”,其本身已不僅僅是一個技術問題,而正在成為一個社會問題。只有確保人們能夠平等地享用現代通信和網絡基礎設施,擁有大體平等的教育機會,才能使這些問題得到解決。
 
  黨的十八屆三中全會將“國家治理體系和治理能力的現代化”列為全面深化改革的總目標,大數據應當成為國家治理現代化的題中之義,在頂層設計和國家戰(zhàn)略層面予以部署。大數據治理的內涵還很豐富,還有待我們進一步認識、進一步闡釋,有關數據質量、數據隱私、數據安全、數據標準、數據溯源、數據開放、數據定價估價等也都是非常重要而現實的課題。但是變化正在發(fā)生,你我置身其中,數據治國的時代已經來臨。
 
 ?。ㄖ袊嗣翊髮W中國調查與數據中心研究人員馮啟娜對此文亦有貢獻)
 
  注釋
 
  (1)涂子沛:《數據之巔:大數據革命的歷史、現實與未來》,北京:中信出版社,2014年,第292、337頁。
 
 ?。?)[美]斯蒂芬·貝克:《當我們變成一堆數字》,北京:中信出版社,2007年。
 
 ?。?)[美]安德魯·麥卡菲(Andrew McAfee)、埃里克·布林約爾松(Erik Brynjolfsson):《大數據:一場管理革命》,《哈佛商業(yè)評論》,2012年10月。
 
  (4)洪黎明:《物聯(lián)網:“智能城市”生長的沃土》,《福建日報》,2010年12月23日,第15版。
 
  (5)1919年,胡適寫下了一篇著名的雜文《差不多先生傳》,活靈活現地描繪出了中國人取道中庸、不肯認真、甘于糊涂、拒絕精準的庸碌形象,表達了對中國人“凡事差不多、凡事只講大致如此”的習慣和作風的憂慮。
 
 ?。?)《北漂小伙返鄉(xiāng)6次辦護照 補5張證明多跑3000公里》,“焦點訪談”,央視網,2013年10月11日。
 
  (7)[美]凱文·凱利:《技術元素》,北京:電子工業(yè)出版社,2014年,第223頁。
 
  (8)(17)[英]維克托·邁爾-舍恩伯格(Viktor Mayer-Schnberger):《大數據時代》,杭州:浙江人民出版社,2013年,第53~55、73頁。
 
 ?。?)(10)涂子沛:《大數據:正在到來的數據革命》,桂林:廣西師范大學出版社,2012年,第77~82、313頁。
 
 ?。?1)[美]安雅·卡緬涅茨(Anya Kamenetz):《技術公民占領政府:政府2.0時代的凱歌》(How an Army of Techies Is Taking on City Hall),高成長公司(Fast Company),2010年。
 
  (12)徐繼華、馮啟娜、陳貞汝:《智慧政府:大數據治國時代的來臨》,北京:中信出版社,2014年,第33~34頁。
 
 ?。?3)UN Global Pulse, Big Data for Development: Challenges & Opportunities, May, 2012.
 
 ?。?4)聯(lián)合國:《聯(lián)合國全球脈動:分析實時數據 增進人類福祉》,聯(lián)合國新聞網,2011年11月8日。
 
  (16)Wing J M., Computational Thinking, Communications of the ACM, 2006.
 
  (18)張婷:《美國郵政探尋“大數據”生存之道》,新華網,2013年4月19日。


責任編輯:admin