設為首頁 | 加入收藏 |

行業新聞

袁衛:如何擁抱大數據時代

2018/3/23 15:44:54

來源:生物探索

    記者:對于老百姓而言,大數據還是個新詞彙,能否介紹一下大數據産生的時代背景以及目前國内外研究、應用的狀況?

    袁衛:在上世紀80年代初,就已經有了大數據的概念和相關應用,但是它深入社會和百姓的視野,則是最近幾年的事情。2012年,美國政府由白宮牽頭,啟動了一個“大數據發展計劃”,這個計劃的推出被視為進入大數據時代的标志性事件,其重要性堪比1992年美國政府推出的“信息高速公路計劃”(被視為進入網絡時代的标志)。在相似的時間,歐盟各國陸續開放了很多政府數據,日本也啟動了一個大數據項目,聯合國2012年發布大數據報告,全球掀起了大數據研究和應用的熱潮。

    大數據的發展,是以網絡和計算機技術的高速發展為依托的。1965年英特爾創始人之一的摩爾先生提出,未來的網絡計算機發展,大體上每隔1年到2年,等面積集成電路中的晶體管數量将會增加一倍,即計算速度會提高一倍,同等的計算,成本會降低一半。經過近50年的實踐,驗證了摩爾先生的預測,也就是人們常說的“摩爾定律”。計算機和網絡科技的高速發展,使得大量網絡數據,包括音頻的、視頻的、圖片的、文本的各種各樣的數據,得以保存,并轉化為我們可以深入分析的數據。于是,大數據的研究和應用也就水到渠成了。

    記者:在大數據這個領域,我們和發達國家的差距大嗎?

    袁衛:上世紀八九十年代,我們在很多科技領域和國外差距很大,但是進入互聯網時代以後,這種狀況逐漸改觀。進入大數據時代,我們可進一步縮小與美國等科技發達國家的差距,甚至具有後發優勢,原因有三個方面:其一,在互聯網時代,各種最先進的技術可以快速傳播,基本上可以做到全球同步;其二,和微軟的操作系統等軟件不同,大數據絕大多數軟件是開源的,很多網絡技術也是公開的,中國的科學技術與教育工作者,隻要具有足夠的智慧和能力,完全可以追趕甚至在某個領域超過美國;其三,我們在數據資源上具有優勢。中國有13.5億人,13.5億個活動主體組織了各種社會經濟關系,建立起各種社會、網絡聯系,在各種社會經濟活動中産生大量的數據,這些數據是可以充分挖掘的資源。我們起步稍晚,但是具有後發優勢,在某些領域甚至可以達到國際先進水平,比如中國推進的智慧城市建設就很不錯,還有微信社交平台、阿裡小貸等,體現了中國的特色。

    統計學科迎來“最好的時期”

    記者:您是統計學方面的權威專家。在您看來,大數據對于統計學的發展有何影響?

    袁衛:統計學就是數據科學,大數據對統計學的發展影響巨大。我個人認為,大數據對于統計學的發展,既是機遇又是挑戰。

    說它是機遇,是因為大數據研究和應用會帶來大量人才需求,這對統計學的發展是一個巨大的利好,可以說,目前統計學發展正處于曆史上最好的時期。這幾年,從全國範圍看,統計學專業畢業生就業狀況都不錯,今後會更好。

    說它是挑戰,是因為大數據可能部分颠覆傳統的統計方法。比如有人認為,傳統的統計方法講究抽樣,但是大數據使得我們可以對接近總量的數據進行分析,這樣進行抽樣調查的需求就會減少;還有人認為,傳統的統計分析注重因果關系,但大數據情況下,隻需明确兩者之間有關系即可。另外,過去強調分析的準确性,而在大數據情況下,允許存在一定的誤差,等等。

    我認為,大數據對統計學帶來的上述挑戰确實存在,但是不會導緻傳統抽樣調查的需求減少。因為大數據雖然數據量很大,但絕大多數情況下這些大樣本都不是随機的,推斷總體都有系統偏差,因而抽樣調查等統計方法仍然是不可取代的。此外,在很多時候,科研和商業應用、科學決策還是需要進行準确的統計分析的。

    從人才培養的角度看,統計學在教學内容、教學方法、人才培養模式等方面需要進行變革,以适應大數據時代的人才素質要求,這是統計學科發展面臨的另一挑戰。

    大數據應用是把雙刃利劍

    記者:大數據在商業以及城市安全防範等領域已經有很多應用的成功案例,大數據将會給教育領域帶來怎樣的變革?

    袁衛:大數據将對教育産生非常深遠的影響。目前可以預見的,我想主要有兩個方面:一是通過大數據,分析學生成長環境、興趣愛好、能力特長等,有利于教育者對學生加深了解,有利于因材施教,使得根據學生個人興趣、特長、能力進行個性化教育成為可能;二是帶來教學内容、教學方式方法上的改變,立體化教學、案例教學、互動教學等方式的運用使得教學更加生動,MOOCs(慕課)就是大數據時代教學變革的一個例子。大數據可以促進全世界優質教育資源共享,發揮每個教師的優勢特長。大數據将對教育産生一系列的深遠影響,不可低估。

    記者:但是,大數據的廣泛應用,可能會導緻侵犯他人隐私的情況發生,對此您怎麼看?

    袁衛:在大數據時代,個人的相關數據信息輕易可得,個人隐私越來越不安全。其實不僅僅是個人隐私,包括國家安全和企業的商業機密,也受到很大的威脅。怎麼辦?我認為對于國家而言,一方面要積極推進數據對外開放,凡是不涉及個人隐私、國家安全和商業機密的數據,都應該公開,這樣才能避免形成數據孤島,充分發掘和利用數據資源;另一方面,在開放數據的同時要加強相關立法,這兩個方面是互相補充的,隻有這樣,才能趕上時代發展的步伐,充分發揮我們這個人口大國、經濟大國的數據資源優勢。

    從個人的角度講,要加強個人信息防護意識,在上網發布相關信息時,要了解哪些是可以發的,哪些是不能發的,以免給自己帶來困擾。

    兩個“交叉”探索人才培養之道

    記者:據了解,中國人民大學、北京大學、中國科學院大學、中央财經大學和首都經貿大學5所高校組建了一個協同創新平台,以“應用統計專業碩士”為載體培養大數據分析方面的人才。為何要采取這種多校合作的培養模式?

    袁衛:之所以采用這種協同創新、5校合作的培養模式,完全是由大數據人才的特點決定的。第一個特點,大數據人才是多學科交叉型人才,不是某一個學科可以單獨培養的。大家知道,現在進行數據分析,要有數據庫和軟件等計算機方面的知識,還要有數學和統計方面的知識和能力。這就涉及到中國學科體系中“統計學”和“計算機科學與技術”兩個一級學科。培養出的畢業生到了單位,可能還需要财經、新聞、生物醫學和管理等方面的知識。所以,大數據人才的培養,也需要計算機、統計學、數學等多學科共同參與。

    第二個特點,這是一類應用型人才,必須重視實踐環節。他們畢業後不是去做研究,而是投身業界,要能很快上手。這樣的人才培養,不是僅在學校、在實驗室、研究室裡就能夠培養出來的,而是要到實踐中去,解決實際問題。