最近幾年,新技術在快速普及,而很多概念在專家還沒有形成統一定義的時候,就快速被大眾關注;大數據概念就是這樣的概念,雖然非常普及,但不同人有不同的理解,這樣在交流中反倒容易引起誤解。今天想闡述一下大數據的概念。
大數據不是傳統的數據技術
我了解大數據的概念大概是在2012年,那個時候剛剛參與物聯網的媒體,在物聯網概念之后,大數據概念一直是科技領域、政府部門、企業關注的熱點。但是在那個時候,中國企業通過IT技術利用數據的經驗遠遠落后于先進國家的應用。
技術領先的國家,在大數據概念之前,已經有了豐富的利用數據的經驗,比如數據挖掘技術、BI、ODS等技術在現今國家已經有了非常豐富的案例。而早期利用數據,因為數據獲取成本高,只能是對精選的數據進行處理,這個時候統計學的數據原理、以及分類聚合、尋找關聯性等技術是數據的主要技術。
而中國企業在2012年時,在應用數據方面落后于發達國家,僅有個別行業、個別企業利用了信息系統的數據創造價值。
而當大數據概念進入中國之后,很多中國企業分不清楚大數據與傳統數據處理之間的關系,很多人把利用數據的工作都叫做大數據,導致了概念的混淆。甚至一些大學教授,ODS功能叫做大數據是根本錯誤的。
大數據與傳統的數據技術的差別:
1、數據規模大:傳統數據技術主要是利用現有存在關系性數據庫中的數據,對這些數據進行分析、處理,找到一些關聯,并利用數據關聯性創造價值。這些數據的規模相對較小,可以利用數據庫的分析工具處理。而大數據的數據量非常大,不可能利用數據庫分析工具分析。
2、非結構化數據:傳統數據主要在關系性數據庫中分析,而大數據可以處理圖像、聲音、文件等非結構化數據。
3、處理方式不同:因為數據規模大、非結構化數據這兩方面因素,導致大數據在分析時不能取全部數據做分析。大數據分析時如何選取數據?這就需要根據一些標簽來抽取數據。所以大數據處理過程中,比傳統數據增加了一個過程Stream。就是在寫入數據的時候,在數據上打一個標簽,之后在利用大數據的時候,根據標簽抽取數據。這個過程就類似于尋找圖書:如果你在你個人書柜里,尋找一本書是很容易的,所以你買了書,可以直接放到書柜上,不用做任何處理;而如果圖書館買了書,如果不做任何處理的話,你是很難找到一本書的,所以圖書館在新書入庫的時候,首先會對每本書打上標簽,而這個打標簽的過程,就是類似于Stream的工作。
XML技術是大數據Stream的基礎
在探索大數據的技術基礎的時候,很多人都容易忽視XML技術。
XML是eXtensible Markup Language的英文縮寫,將文件加上可以擴展(可以自定義)的標簽的語言。
XML是在2000年左右非常熱門的技術,其快速發展促進了很多技術的進步:html5技術發展,通過SOA技術實現跨平臺功能調用,文檔格式的統一等等。
使用XML標記的XSLT語言,是擴展樣式表轉換語言,可以將XML文件轉化成任何樣式的文本。
隨著XML技術的發展,很多文件都是用XML格式存儲,比如Word文檔等。打上XML標簽的數據可以非常容易的通過XSLT抽取出來。
XML技術可以方便的為數據打上標簽,并能快速通過標簽抽取數據,一方面可以在超越關系數據庫范圍之外的更大范圍處理數據;另外可以支持非結構化數據的處理。所以XML技術是大數據發展的最基礎的技術。
云計算技術為大數據提供高性價比的計算和存儲能力
數據可以創造價值,但大數據處理需要強大的計算和存儲能力。而在早期,這么強大的計算和存儲能力需要在大型機上實現。大型機價格昂貴,早期可以使用數據創造價值的企業都是非常富有的企業,比如電信運營商、銀行類的企業。
早期國內數據處理能力強的企業都是銀行、電信運營商的供應商。
而云計算技術的發展,可以讓大量的價格便宜的PC機匯聚起來,形成類似于大型機的計算和存儲能力,而成本又非常低。這個時候數據分析的成本就可以被更多的企業所承擔,從而形成對數據分析需求的一個爆發。
云計算對計算和存儲能力的可擴展性,對數據的分布式處理方式,促發了大數據概念的誕生。
物聯網為大數據提供豐富的數據來源
早期的數據處理,其數據來源主要是通過手工輸入、在手工輸入數據通過計算機處理之后形成的數據;這樣的數據還是有限的。
而物聯網技術的發展,更多的傳感設備可以自動采集數據,并能夠通過通訊技術、云計算技術匯聚到一個平臺上,從而極大的豐富了數據來源。
物聯網技術讓數據可以成幾何級數的增長,為大數據提供了豐富的數據來源,從而促發了對數據分析技術的需求,豐富了大數據應用。
而物聯網最終獲得價值,也是通過大數據積累到一定量之后,形成智慧,創造價值的。
未來人工智能、物聯網、智能制造創造價值,都離不開大數據的價值。
(審核編輯: 智匯小新)
分享