首頁(yè) > 優(yōu)秀范文 > 大數(shù)據(jù)技術(shù)
時(shí)間:2023-04-11 17:28:49
序論:速發(fā)表網(wǎng)結(jié)合其深厚的文秘經(jīng)驗(yàn),特別為您篩選了11篇大數(shù)據(jù)技術(shù)范文。如果您需要更多原創(chuàng)資料,歡迎隨時(shí)與我們的客服老師聯(lián)系,希望您能從中汲取靈感和知識(shí)!
傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù),從其創(chuàng)立至現(xiàn)在,長(zhǎng)期占據(jù)數(shù)據(jù)庫(kù)的絕對(duì)統(tǒng)治地位。但是,數(shù)據(jù)挖掘、商業(yè)智能和可視化技術(shù)的發(fā)展,特別是它們處理非結(jié)構(gòu)化數(shù)據(jù)的能力,動(dòng)搖了傳統(tǒng)數(shù)據(jù)庫(kù)的牢固地位。于是善于處理非結(jié)構(gòu)化數(shù)據(jù)的種種數(shù)據(jù)庫(kù)工具大量產(chǎn)生,這其中必須優(yōu)先提及的便是NoSQL(意為Not Only SQL)及NewSQL(意為New SQL)兩大數(shù)據(jù)庫(kù)陣營(yíng)。
現(xiàn)在隨著大數(shù)據(jù)時(shí)代的到來(lái),由Carlo Strozzi開(kāi)創(chuàng)的NoSQL以其技術(shù)上的先進(jìn)性、方便性得到了越來(lái)越多的認(rèn)可。NoSQL改變了數(shù)據(jù)的定義范圍,其“數(shù)據(jù)類(lèi)型”可以是文本、圖片、影像、網(wǎng)頁(yè),也可以是整個(gè)文件;NoSQL數(shù)據(jù)庫(kù)是非關(guān)系式的、數(shù)據(jù)間的關(guān)系更加復(fù)雜、多樣,類(lèi)型和相互關(guān)系具有多種擴(kuò)展可能、存儲(chǔ)方式也多采用分布式結(jié)構(gòu)。經(jīng)過(guò)十多年的發(fā)展,NoSQL取得了成功,采用NoSQL技術(shù)的產(chǎn)品也不斷增長(zhǎng),目前NoSQL網(wǎng)站上()已經(jīng)收集了150余個(gè)相關(guān)產(chǎn)品,人們也把采用類(lèi)似NoSQL結(jié)構(gòu)和原理的數(shù)據(jù)庫(kù)統(tǒng)稱(chēng)為NoSQL數(shù)據(jù)庫(kù)。
最初NoSQL有意排斥關(guān)系數(shù)據(jù)庫(kù)的ACID規(guī)則和SQL特性(后發(fā)現(xiàn)其弱點(diǎn)又在一定程度和一定范圍內(nèi)支持?jǐn)?shù)據(jù)的一致性要求和SQL特性)。NoSQL堅(jiān)持分布式領(lǐng)域的CAP理論,CAP的含義為:
Consistency,一致性。數(shù)據(jù)一致更新,所有節(jié)點(diǎn)訪問(wèn)同一份最新的數(shù)據(jù)副本;
Availability,可用性。對(duì)數(shù)據(jù)更新具備高可用性;
Partition tolerance,分區(qū)容錯(cuò)性。能容忍網(wǎng)絡(luò)分區(qū)。
CAP理論主張任何基于網(wǎng)絡(luò)的數(shù)據(jù)共享系統(tǒng),都最多只能擁有以下三條中的兩條。而這種“三取二”的法則以及具體理解與執(zhí)行的爭(zhēng)論就一直存在。想同時(shí)滿(mǎn)足三者,或者過(guò)分強(qiáng)化割舍三者之間聯(lián)系均會(huì)破壞數(shù)據(jù)系統(tǒng)的效率和效果。32歲便獲得加州大學(xué)伯克利分校終身教授的Eric Brewer提出了BASE理論(Basically Available, Soft state, Eventually consistent;基本可用、軟狀態(tài)、最終一致性),它用一種更注重可用性、更便于理解的方式解釋分布式系統(tǒng)的特點(diǎn)。
NewSQL注意到關(guān)系數(shù)據(jù)庫(kù)的靈活性不足、數(shù)據(jù)庫(kù)互鎖機(jī)制效率低下的特點(diǎn),同時(shí)也意識(shí)到NoSQL不支持SQL所帶來(lái)的不便,它采用了一種近似折中的方案,既支持SQL并保證一定程度的數(shù)據(jù)一致性,同時(shí)也提供NoSQL數(shù)據(jù)庫(kù)的非關(guān)系數(shù)據(jù)處理的擴(kuò)展功能,因而從產(chǎn)生之初便受到業(yè)界的喜愛(ài),相關(guān)產(chǎn)品不斷涌現(xiàn)。NoSQL和NewSQL常見(jiàn)產(chǎn)品及其分類(lèi)情況如圖所示。
2.2 NoSQL及其發(fā)展趨勢(shì)
在NoSQL潮流中,最重要的莫過(guò)于Apache基金會(huì)的Hadoop。它是一個(gè)領(lǐng)導(dǎo)者,是一個(gè)典型的分布式文件系統(tǒng),是一個(gè)開(kāi)源系統(tǒng)。用戶(hù)可以在不了解分布式底層細(xì)節(jié)的情況下,借助Hadoop開(kāi)發(fā)分布式程序,它取得了成功,成為分布式數(shù)據(jù)處理界的巨獸(Hadoop的Logo就是只大象)。 現(xiàn)在甚至出來(lái)了“無(wú)分布不Hadoop”——每個(gè)傳統(tǒng)的數(shù)據(jù)庫(kù)提供商都急切地聲明支持Hadoop。關(guān)系數(shù)據(jù)庫(kù)的傳統(tǒng)霸主Oracle公司也將Hadoop集成到自己的NoSQL數(shù)據(jù)庫(kù)中,Microsoft、Sybase、IBM也加入了收納Hadoop功能的競(jìng)賽中。
第二位領(lǐng)導(dǎo)者,MongoDB,是一個(gè)成功的文檔處理型數(shù)據(jù)庫(kù)系統(tǒng),它被稱(chēng)為“非關(guān)系式數(shù)據(jù)庫(kù)中最像關(guān)系式數(shù)據(jù)庫(kù)的產(chǎn)品”。MongoDB查詢(xún)功能強(qiáng)大,特別適合高性能的Web數(shù)據(jù)處理。
Cassandra是這個(gè)領(lǐng)域中的一個(gè)另類(lèi)產(chǎn)品,它兼有鍵值數(shù)據(jù)庫(kù)和列值數(shù)據(jù)庫(kù)兩者的長(zhǎng)處,它的查詢(xún)功能很優(yōu)秀。雖然運(yùn)行Cassandra集群難度較高,但它升級(jí)后的分析能力使得很多人感到驚訝。
Redis也是相當(dāng)好的一個(gè)產(chǎn)品。對(duì)故障恢復(fù)的良好支持以及使用Lua的服務(wù)器端腳本語(yǔ)言是明顯區(qū)別于其他軟件之處。使用Lua確實(shí)帶來(lái)了一些震動(dòng),因?yàn)楦嗟娜讼矚g和習(xí)慣JavaScript服務(wù)器端語(yǔ)言。但是,Lua是一個(gè)整潔的語(yǔ)言,它并為Redis開(kāi)啟了潘多拉盒子。
CouchBase在可擴(kuò)展性和其他潛在因素,使其看起來(lái)是一個(gè)很好的選擇,盡管Facebook以及Zynga面臨著關(guān)鍵開(kāi)發(fā)者離開(kāi)的風(fēng)波。CouchDB會(huì)變得更好抑或相反?只要數(shù)據(jù)庫(kù)做得好受眾就會(huì)歡迎,現(xiàn)在看來(lái),它確實(shí)做的很好。
還需要提及的是Riak,在功能性和監(jiān)控方面它也有了巨大的提升。在穩(wěn)定性方面,它繼續(xù)得到大家的贊美:“像巨石一般穩(wěn)定、可靠且不顯眼……”。Riak 數(shù)據(jù)模塊化方面做得很有特色。
中圖分類(lèi)號(hào):F49 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2015)030-0209-01
近幾年,大數(shù)據(jù)(big data)一詞越來(lái)越多地被提及,人們用它來(lái)描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。2012 年3 月,奧巴馬公布了美國(guó)《大數(shù)據(jù)研究和發(fā)展計(jì)劃》,標(biāo)志著大數(shù)據(jù)已經(jīng)成為國(guó)家戰(zhàn)略,上升為國(guó)家意志。從硅谷到北京,大數(shù)據(jù)的話題傳播迅速。
1 大數(shù)據(jù)時(shí)代
隨著計(jì)算機(jī)技術(shù)全面融入社會(huì)生活,經(jīng)過(guò)半個(gè)多世紀(jì)的發(fā)展,信息爆炸已經(jīng)積累到了一個(gè)開(kāi)始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長(zhǎng)速度也在加快。最先經(jīng)歷信息爆炸的學(xué)科,如天文學(xué)和基因?qū)W,創(chuàng)造出了“大數(shù)據(jù)”這個(gè)概念。
1.1 大數(shù)據(jù)時(shí)代產(chǎn)生的背景
最早提出“大數(shù)據(jù)”時(shí)代到來(lái)的是全球知名咨詢(xún)公司麥肯錫,麥肯錫稱(chēng):“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)?!贝笠?guī)模生產(chǎn)、分享和應(yīng)用海量數(shù)據(jù)的時(shí)代之所以能夠開(kāi)啟,源于信息科技的進(jìn)步、互聯(lián)網(wǎng)與云計(jì)算技術(shù)和物聯(lián)網(wǎng)的發(fā)展。
(1)信息科技的進(jìn)步。信息處理、信息存儲(chǔ)和信息傳遞是信息科技的三個(gè)主要支撐,存儲(chǔ)設(shè)備性?xún)r(jià)比不斷提升、網(wǎng)絡(luò)帶寬的持續(xù)增加,為大數(shù)據(jù)的存儲(chǔ)和傳播提供了物質(zhì)基礎(chǔ)。
(2)互聯(lián)網(wǎng)與云計(jì)算技術(shù)?;ヂ?lián)網(wǎng)時(shí)代,電子商務(wù)、社交網(wǎng)絡(luò)和移動(dòng)通信產(chǎn)生了大量結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),以云計(jì)算為基礎(chǔ)的信息存儲(chǔ)、分享和挖掘手段,可以便宜、有效地將這些大量、高速、多變化的終端數(shù)據(jù)存儲(chǔ)下來(lái),并隨時(shí)進(jìn)行分析與計(jì)算。互聯(lián)網(wǎng)領(lǐng)域的公司最早重視數(shù)據(jù)資產(chǎn)的價(jià)值,他們從大數(shù)據(jù)中淘金,并且引領(lǐng)著大數(shù)據(jù)的發(fā)展趨勢(shì)。
(3)物聯(lián)網(wǎng)的發(fā)展。眾所周知,物聯(lián)網(wǎng)時(shí)代所創(chuàng)造的數(shù)據(jù)不是互聯(lián)網(wǎng)時(shí)代所能比擬的,而且物聯(lián)網(wǎng)的數(shù)據(jù)是異構(gòu)的、多樣性的、非結(jié)構(gòu)和有噪聲的,最顯著的特點(diǎn)是是它的高增長(zhǎng)率。大數(shù)據(jù)是物聯(lián)網(wǎng)中的關(guān)鍵技術(shù),物聯(lián)網(wǎng)對(duì)大數(shù)據(jù)技術(shù)的要求更高,它的發(fā)展離不開(kāi)大數(shù)據(jù)。
1.2 大數(shù)據(jù)與數(shù)據(jù)挖掘
Google、Amazon、Facebook、Twitter,這些稱(chēng)霸全球互聯(lián)網(wǎng)的企業(yè),它們的成功都具備一個(gè)共同的因素,就是收集分析海量的各種類(lèi)型的數(shù)據(jù),并能夠快速獲取影響未來(lái)的信息的能力。“購(gòu)買(mǎi)了此商品的顧客還購(gòu)買(mǎi)了這些商品”,這恐怕是世界上最廣為人知的一種商品推薦系統(tǒng)了,而創(chuàng)造出這個(gè)系統(tǒng)的正是Amazon。Amazon 通過(guò)分析商品的購(gòu)買(mǎi)記錄、瀏覽歷史記錄等龐大的用戶(hù)行為歷史數(shù)據(jù),并與行為模式相似的其他用戶(hù)的歷史數(shù)據(jù)進(jìn)行對(duì)照,提供出最適合的商品推薦信息。Facebook 可以為用戶(hù)提供類(lèi)似“也許你還認(rèn)識(shí)這些人”的提示,這種提示可以準(zhǔn)確到令人恐怖的程度,而這正是對(duì)龐大的數(shù)據(jù)進(jìn)行分析而得到的結(jié)果。這種以數(shù)據(jù)分析為核心的技術(shù)就是數(shù)據(jù)挖掘(data mining)。
從技術(shù)角度看,數(shù)據(jù)挖掘是從大量的、復(fù)雜的、不規(guī)則的、隨機(jī)的、模糊的數(shù)據(jù)中獲取隱含的、人們事先沒(méi)有發(fā)覺(jué)的、有潛在價(jià)值的信息和知識(shí)的過(guò)程。從商業(yè)角度來(lái)說(shuō),數(shù)據(jù)挖掘是從龐大的數(shù)據(jù)庫(kù)中抽取、轉(zhuǎn)換、分析一些潛在規(guī)律和價(jià)值,從中獲取輔助商業(yè)決策的關(guān)鍵信息和有用知識(shí)。大數(shù)據(jù)概念的提出,將為數(shù)據(jù)挖掘技術(shù)的發(fā)展和應(yīng)用帶來(lái)一個(gè)很大的機(jī)遇。
2 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘旨在從大數(shù)據(jù)中提取隱藏的預(yù)測(cè)性信息,用便于理解和觀察的方式反映給用戶(hù),作為決策的依據(jù)。
2.1 數(shù)據(jù)挖掘原理
數(shù)據(jù)挖掘又稱(chēng)為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Diseoveryin Databases,KDD),是一個(gè)從數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中發(fā)現(xiàn)并抽取隱含的、明顯未知的、具有潛在用處的信息的過(guò)程。數(shù)據(jù)挖掘一般流程主要包括三個(gè)階段:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果解釋和評(píng)價(jià)。在數(shù)據(jù)挖掘的處理過(guò)程中,數(shù)據(jù)挖掘分析方法是最為關(guān)鍵的。
(1)數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)準(zhǔn)備是從海量數(shù)據(jù)源得到數(shù)據(jù)挖掘所用的數(shù)據(jù),將數(shù)據(jù)集成到一起的過(guò)程。由于數(shù)據(jù)收集階段得到的數(shù)據(jù)可能有一定的污染,即數(shù)據(jù)可能存在不一致,或有缺失數(shù)據(jù)、臟數(shù)據(jù)的存在,因此需通過(guò)數(shù)據(jù)整理,對(duì)數(shù)據(jù)進(jìn)行清洗及預(yù)處理。
(2)數(shù)據(jù)挖掘。是數(shù)據(jù)挖掘中最關(guān)鍵的一步,使用智能的方法提取數(shù)據(jù)模式,例如決策樹(shù)、分類(lèi)和聚類(lèi)、關(guān)聯(lián)規(guī)則和神經(jīng)網(wǎng)絡(luò)等。首先決定要提取什么樣的模型,然后選取相應(yīng)的算法參數(shù),分析數(shù)據(jù)從而得到可能形成知識(shí)的模式模型。
(3)結(jié)果解釋和評(píng)價(jià)。數(shù)據(jù)挖掘后的結(jié)果需要轉(zhuǎn)換成用戶(hù)能夠理解的規(guī)則或模式,并根據(jù)其是否對(duì)決策問(wèn)題具有實(shí)際意義進(jìn)行評(píng)價(jià)。
2.2 數(shù)據(jù)挖掘技術(shù)在營(yíng)銷(xiāo)中的應(yīng)用
無(wú)差別的大眾媒體營(yíng)銷(xiāo)已經(jīng)無(wú)法滿(mǎn)足零和的市場(chǎng)環(huán)境下的競(jìng)爭(zhēng)要求。精準(zhǔn)營(yíng)銷(xiāo)是企業(yè)現(xiàn)在及未來(lái)的發(fā)展方向,在精準(zhǔn)營(yíng)銷(xiāo)領(lǐng)域,最常用的數(shù)據(jù)挖掘分析方法包括分類(lèi)、聚類(lèi)和關(guān)聯(lián)三類(lèi)。
(1)關(guān)聯(lián)規(guī)則。挖掘關(guān)聯(lián)規(guī)則就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,例如空間關(guān)聯(lián)挖掘出啤酒與尿布效應(yīng);時(shí)間關(guān)聯(lián)挖掘出孕嬰用品與家居裝修關(guān)系;時(shí)間關(guān)聯(lián)挖掘出調(diào)味品、紙巾與化妝品的消費(fèi)等。
此外,關(guān)聯(lián)規(guī)則發(fā)現(xiàn)也可用于序列模式發(fā)現(xiàn)。序列模式發(fā)現(xiàn)的側(cè)重點(diǎn)在于分析數(shù)據(jù)項(xiàng)集在時(shí)間上或序列上的前后(因果)規(guī)律,可以看作是一種特定的關(guān)聯(lián)規(guī)則。例如顧客在購(gòu)買(mǎi)了打印機(jī)后在一段時(shí)間內(nèi)是否會(huì)購(gòu)買(mǎi)墨盒。
(2)分類(lèi)分析。分類(lèi)是假定數(shù)據(jù)庫(kù)中的每個(gè)對(duì)象屬于一個(gè)預(yù)先給定的類(lèi),從而將數(shù)據(jù)庫(kù)中的數(shù)據(jù)分配到給定的類(lèi)中。它屬于預(yù)測(cè)性模型,例如在銀行業(yè),事先定義用戶(hù)的信用狀況分為兩類(lèi):信用好和信用壞,對(duì)于一個(gè)信用狀態(tài)未知的用戶(hù),如果需要確定其信用度,可以采用“決策樹(shù)”法構(gòu)建一個(gè)分類(lèi)模型,決策樹(shù)方法著眼于從一組無(wú)次序、無(wú)規(guī)則的客戶(hù)數(shù)據(jù)庫(kù)中推理出決策樹(shù)表現(xiàn)形式的分類(lèi)規(guī)則。決策樹(shù)的非葉子節(jié)點(diǎn)均是客戶(hù)的一些基本特征,葉子節(jié)點(diǎn)是客戶(hù)分類(lèi)標(biāo)識(shí),由根節(jié)點(diǎn)至上而下,到每個(gè)葉子節(jié)點(diǎn),就生成了一條規(guī)則,由該決策樹(shù)可以得到很多規(guī)則,構(gòu)成了一個(gè)規(guī)則集合,從而進(jìn)行數(shù)據(jù)分析。
(3)聚類(lèi)分析。聚類(lèi)是將物理或抽象對(duì)象的集合進(jìn)行分組,然后組成為由類(lèi)似或相似的對(duì)象組成的多個(gè)分類(lèi)的分析過(guò)程,其目的就是通過(guò)相似的方法來(lái)收集數(shù)據(jù)分類(lèi)。為品牌找客戶(hù),回答品牌“誰(shuí)來(lái)賣(mài)”是精準(zhǔn)營(yíng)銷(xiāo)首先要解決的問(wèn)題,科學(xué)細(xì)分客戶(hù)是解決這一問(wèn)題的有效手段。聚類(lèi)可以將目標(biāo)客戶(hù)分成多個(gè)類(lèi),同一個(gè)類(lèi)中的客戶(hù)有很大的相似性,表現(xiàn)在購(gòu)買(mǎi)行為的高度一致,不同類(lèi)間的客戶(hù)有很大的相異性,表現(xiàn)在購(gòu)買(mǎi)行為的截然不同。
3 結(jié)語(yǔ)
大數(shù)據(jù)時(shí)代背景下“數(shù)據(jù)成為資產(chǎn)”,數(shù)據(jù)挖掘技術(shù)作為支撐精準(zhǔn)營(yíng)銷(xiāo)的重要手段,將它應(yīng)用于營(yíng)銷(xiāo)行業(yè)的決策中,不僅拓展了數(shù)據(jù)挖掘技術(shù)的應(yīng)用范圍,而且大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)可以幫助企業(yè)獲得突破性回報(bào)。
參考文獻(xiàn)
[1]維克托?邁爾―舍恩伯格;肯尼思?庫(kù)克耶.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].周濤譯.杭州:浙江人民出版社,2013.
[2]王偉玲.大數(shù)據(jù)產(chǎn)業(yè)的戰(zhàn)略?xún)r(jià)值研究與思考.技術(shù)經(jīng)濟(jì)與管理研究[J],2015(1).
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)03-0019-02
1 概述
當(dāng)前,互聯(lián)網(wǎng)的發(fā)展已經(jīng)進(jìn)入到一個(gè)全新階段,互聯(lián)網(wǎng)的應(yīng)用已經(jīng)深入到人們的日常生活中,尤其是移動(dòng)互聯(lián)網(wǎng)技術(shù)的發(fā)展和運(yùn)用已經(jīng)日益成熟,傳統(tǒng)企業(yè)都已經(jīng)開(kāi)始自覺(jué)地運(yùn)用移動(dòng)互聯(lián)網(wǎng)技術(shù)和概念拓展新業(yè)務(wù)和方向[1]。在此背景下,大數(shù)據(jù)技術(shù)應(yīng)運(yùn)而生,針對(duì)大數(shù)據(jù)這一新興概念,麥肯錫全球研究所曾給出這樣的定義:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類(lèi)型和價(jià)值密度低四大特征。
2 分布集群數(shù)據(jù)庫(kù)
組成分布集群數(shù)據(jù)庫(kù)系統(tǒng)的每臺(tái)計(jì)算機(jī)可單獨(dú)放在一個(gè)地方,其中每臺(tái)計(jì)算機(jī)都可能保存一份數(shù)據(jù)庫(kù)的完整拷貝副本,或者是部分副本,每臺(tái)計(jì)算機(jī)單元具有自己局部的數(shù)據(jù)庫(kù),位于不同地點(diǎn)。這些計(jì)算機(jī)之間通過(guò)網(wǎng)絡(luò)進(jìn)行連接,共同組成一個(gè)完整的、全局的邏輯上集中、物理上分布的大型數(shù)據(jù)庫(kù)。
在分布式集群系統(tǒng)中,數(shù)據(jù)庫(kù)對(duì)用戶(hù)來(lái)說(shuō)是一個(gè)邏輯上的數(shù)據(jù)庫(kù)整體,數(shù)據(jù)庫(kù)的一致性、完整性及安全性都是對(duì)這一邏輯整體進(jìn)行管理控制的。分布集群服務(wù)器對(duì)共享的數(shù)據(jù)進(jìn)行統(tǒng)一的管理,但是非數(shù)據(jù)庫(kù)的處理操作可以由客戶(hù)機(jī)來(lái)完成。
在分布式集群系統(tǒng)中,通常采用外部鏈接技術(shù)進(jìn)行數(shù)據(jù)庫(kù)的遠(yuǎn)程控制。組成分布式集群的各計(jì)算機(jī)之間可以通過(guò)網(wǎng)絡(luò)進(jìn)行相互通訊,用戶(hù)可以遠(yuǎn)程透明地單獨(dú)訪問(wèn)遠(yuǎn)程各數(shù)據(jù)庫(kù)單元的數(shù)據(jù),也可以組合多個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)以滿(mǎn)足多工作組、部門(mén)的復(fù)雜應(yīng)用需求。遠(yuǎn)程數(shù)據(jù)庫(kù)鏈接技術(shù)連接了各分散的數(shù)據(jù)庫(kù)單元,邏輯的將他們組合為一個(gè)整體,從應(yīng)用視圖的角度來(lái)看,分布集中數(shù)據(jù)庫(kù)系統(tǒng)就是一個(gè)整體的數(shù)據(jù)庫(kù)服務(wù)系統(tǒng)。用戶(hù)對(duì)此系統(tǒng)的單一邏輯的數(shù)據(jù)庫(kù)訪問(wèn)請(qǐng)求都被自動(dòng)分解、自動(dòng)尋址、自動(dòng)轉(zhuǎn)換為網(wǎng)絡(luò)請(qǐng)求,并在相應(yīng)數(shù)據(jù)庫(kù)結(jié)點(diǎn)上實(shí)現(xiàn)相應(yīng)的操作請(qǐng)求。
分布集群數(shù)據(jù)庫(kù)系統(tǒng)支持混合的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),并采用混合的網(wǎng)絡(luò)協(xié)議,自動(dòng)地進(jìn)行網(wǎng)絡(luò)協(xié)議的轉(zhuǎn)換。在分布集群數(shù)據(jù)庫(kù)系統(tǒng)中,在保證海量數(shù)據(jù)存儲(chǔ)的基礎(chǔ)上,混合了高可用集群和高可靠集群,提高了數(shù)據(jù)庫(kù)系統(tǒng)的可用性和可靠性,滿(mǎn)足了現(xiàn)代互聯(lián)網(wǎng)應(yīng)用的需求。
物化視圖是從一個(gè)或幾個(gè)基表導(dǎo)出的表,同視圖相比,它存儲(chǔ)了導(dǎo)出表的真實(shí)數(shù)據(jù)。當(dāng)基表中的數(shù)據(jù)發(fā)生變化時(shí),物化視圖所存儲(chǔ)的數(shù)據(jù)將變得陳舊,用戶(hù)可以通過(guò)手動(dòng)刷新或自動(dòng)刷新來(lái)對(duì)數(shù)據(jù)進(jìn)行同步。物化視圖包括了查詢(xún)結(jié)果的數(shù)據(jù)對(duì)象,是遠(yuǎn)程數(shù)據(jù)的本地副本快照。物化視圖允許你在本地維護(hù)遠(yuǎn)程數(shù)據(jù)的副本,但是只能讀取這些副本[2]。
3 高可用集群
數(shù)據(jù)庫(kù)高可用集群通過(guò)緩存交換技術(shù)實(shí)現(xiàn),它基于同一份數(shù)據(jù)文件、但提供了多個(gè)數(shù)據(jù)庫(kù)實(shí)例,即數(shù)據(jù)庫(kù)服務(wù)進(jìn)程。高可用性首要確保數(shù)據(jù)不丟失,數(shù)據(jù)不丟失是高可靠性的最基本的要求,是必須要保證的;其次是使數(shù)據(jù)庫(kù)一直維持在正常的運(yùn)行狀態(tài),確保不停機(jī),以避免給客戶(hù)造成損失。
在大數(shù)據(jù)應(yīng)用環(huán)境下,數(shù)據(jù)庫(kù)系統(tǒng)的停機(jī)分為兩類(lèi),即計(jì)劃性停機(jī)和非計(jì)劃性停機(jī)。計(jì)劃性停機(jī)一般在數(shù)據(jù)庫(kù)管理軟件升級(jí)、系統(tǒng)維護(hù)或者硬件維護(hù)的情況下進(jìn)行,是有計(jì)劃地安排節(jié)點(diǎn)或者系統(tǒng)的停機(jī)。非計(jì)劃性停機(jī)是異常突然停機(jī),具有不可預(yù)見(jiàn)性,這種情況一般是數(shù)據(jù)庫(kù)管理系統(tǒng)缺陷或系統(tǒng)故障或硬件故障等[3]。
高可用集群數(shù)據(jù)庫(kù)技術(shù)主要包含如下幾點(diǎn):
1)負(fù)載均衡技術(shù):支持靜態(tài)和動(dòng)態(tài)負(fù)載均衡技術(shù),實(shí)現(xiàn)系統(tǒng)范圍內(nèi)各節(jié)點(diǎn)負(fù)載均勻,避免出現(xiàn)單一節(jié)點(diǎn)或者部分節(jié)點(diǎn)負(fù)載過(guò)重而影響整體性能。
2)全局事務(wù)并發(fā)控制技術(shù):通過(guò)高速緩存復(fù)制技術(shù),各節(jié)點(diǎn)保持字典數(shù)據(jù)一致,同時(shí)能夠看到全局鎖和事務(wù)視圖,使得能夠正常實(shí)現(xiàn)事務(wù)的ACID特性。
3)多節(jié)點(diǎn)并發(fā)訪問(wèn)文件控制技術(shù):由于多個(gè)節(jié)點(diǎn)共享同一份數(shù)據(jù),控制好各節(jié)點(diǎn)對(duì)同一份數(shù)據(jù)的更新操作,避免出現(xiàn)錯(cuò)誤的文件讀寫(xiě)導(dǎo)致的數(shù)據(jù)不一致的問(wèn)題。
4)動(dòng)態(tài)增加和移除節(jié)點(diǎn)技術(shù):在高可用集群環(huán)境中,能夠在不中斷服務(wù)的情況下,通過(guò)增加節(jié)點(diǎn)來(lái)提升系統(tǒng)性能,同時(shí)也能夠在節(jié)點(diǎn)出現(xiàn)故障時(shí),從集群中自動(dòng)移除該節(jié)點(diǎn),并且不影響整個(gè)集群系統(tǒng)對(duì)外提供服務(wù)。
4 高可靠集群
一般采用數(shù)據(jù)復(fù)制技術(shù)來(lái)保證數(shù)據(jù)庫(kù)系統(tǒng)的高可靠性,數(shù)據(jù)復(fù)制同時(shí)也是一種分擔(dān)系統(tǒng)訪問(wèn)壓力、加快異地訪問(wèn)響應(yīng)速的技術(shù),數(shù)據(jù)復(fù)制具有物理和邏輯之分。通過(guò)將一個(gè)服務(wù)器實(shí)例上的數(shù)據(jù)變更復(fù)制到另外的服務(wù)器實(shí)例??梢杂糜诮鉀Q大、中型應(yīng)用中出現(xiàn)的因來(lái)自不同地域、不同部門(mén)、不同類(lèi)型的數(shù)據(jù)訪問(wèn)、請(qǐng)求導(dǎo)致數(shù)據(jù)庫(kù)服務(wù)器超負(fù)荷運(yùn)行、網(wǎng)絡(luò)阻塞、遠(yuǎn)程用戶(hù)的數(shù)據(jù)響應(yīng)遲緩的問(wèn)題。
高可靠集群提供數(shù)據(jù)庫(kù)的容災(zāi)、數(shù)據(jù)保護(hù)、故障恢復(fù)等,實(shí)現(xiàn)數(shù)據(jù)庫(kù)快速切換與災(zāi)難性恢復(fù)。在生產(chǎn)數(shù)據(jù)庫(kù)的保證"事務(wù)一致性"時(shí),使用生產(chǎn)庫(kù)的物理全備份創(chuàng)建備庫(kù),備庫(kù)能夠通過(guò)生產(chǎn)庫(kù)傳輸過(guò)來(lái)的歸檔日志或重做條目自動(dòng)維護(hù)備用數(shù)據(jù)庫(kù)。
高可靠集群的數(shù)據(jù)同步技術(shù)有以下優(yōu)勢(shì):
1)數(shù)據(jù)庫(kù)自身內(nèi)置的功能;
2)配置管理較簡(jiǎn)單,不需要熟悉其他第三方的軟件產(chǎn)品。
3)物理Standby數(shù)據(jù)庫(kù)支持任何類(lèi)型的數(shù)據(jù)對(duì)象和數(shù)據(jù)類(lèi)型;
4)邏輯Standby數(shù)據(jù)庫(kù)處于打開(kāi)狀態(tài),可以在保持?jǐn)?shù)據(jù)同步的同時(shí)執(zhí)行查詢(xún)等操作。
5)在最大保護(hù)模式下,可確保數(shù)據(jù)的零丟失。
5 MPP技術(shù)的應(yīng)用
MPP 架構(gòu)采用統(tǒng)一的并行操作數(shù)據(jù)庫(kù)引擎,將數(shù)據(jù)分散在不同的數(shù)據(jù)庫(kù)節(jié)點(diǎn)上,在高速的內(nèi)部網(wǎng)絡(luò)環(huán)境下,對(duì)于海量數(shù)據(jù)的并發(fā)查詢(xún)可極大地減少 I/O,提高查詢(xún)效率。MPP 系統(tǒng)工作起來(lái)就像是一臺(tái)單獨(dú)的計(jì)算機(jī),由于采用自動(dòng)化的并行處理,在分析型數(shù)據(jù)倉(cāng)庫(kù)等 OLAP 應(yīng)用中,查詢(xún)性能比傳統(tǒng)的單節(jié)點(diǎn)數(shù)據(jù)庫(kù)大大提高。MPP 系統(tǒng)為新一代數(shù)據(jù)倉(cāng)庫(kù)所需的大規(guī)模數(shù)據(jù)和復(fù)雜查詢(xún)提供了先進(jìn)的軟件級(jí)解決方案,具有業(yè)界先進(jìn)的架構(gòu)和高度的可靠性,能幫助企業(yè)管理好數(shù)據(jù),使之更好地服務(wù)于企業(yè),推動(dòng)數(shù)據(jù)依賴(lài)型企業(yè)的發(fā)展。
6 大數(shù)據(jù)中的應(yīng)用
基于數(shù)據(jù)庫(kù)管理系統(tǒng),搭建高可用、高可靠的分布集群數(shù)據(jù)庫(kù)系統(tǒng),結(jié)構(gòu)如圖 1所示。
在此環(huán)境中,高可用集群之間可搭建成主備關(guān)系,與任意高可靠集群或任意單機(jī)數(shù)據(jù)庫(kù)服務(wù)器通過(guò)外部鏈接構(gòu)成邏輯上統(tǒng)一的分布集群數(shù)據(jù)庫(kù)系統(tǒng)。對(duì)于用戶(hù)而言,仍然是單一的數(shù)據(jù)庫(kù)服務(wù)。
單機(jī)數(shù)據(jù)庫(kù)服務(wù)器、高可用集群、高可靠集群都可通過(guò)外部鏈接作為單獨(dú)節(jié)點(diǎn)加入到分布集群數(shù)據(jù)庫(kù)系統(tǒng)中,利用數(shù)據(jù)庫(kù)系統(tǒng)的分布集群事務(wù)機(jī)制,既保留了局部數(shù)據(jù)庫(kù)的自治特性,又可以作為全局分布集群系統(tǒng)中的一員參與到整個(gè)海量數(shù)據(jù)分析中。
解決了海量規(guī)模數(shù)據(jù)存儲(chǔ)的問(wèn)題后,針對(duì)快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類(lèi)型和價(jià)值密度低問(wèn)題,數(shù)據(jù)庫(kù)技術(shù)還實(shí)現(xiàn)了以下功能:
1)物化視圖技術(shù)和高級(jí)復(fù)制技術(shù)解決分布集群系統(tǒng)中數(shù)據(jù)流轉(zhuǎn)速度慢的問(wèn)題。
2)支持面相對(duì)象、xml數(shù)據(jù)類(lèi)型,滿(mǎn)足數(shù)據(jù)類(lèi)型多樣化的需求。
3)數(shù)據(jù)挖掘技術(shù),是決策分析技術(shù)的一個(gè)更高層次,數(shù)據(jù)挖掘技術(shù)采用人工智能的決策分析方法,按照用戶(hù)既定的業(yè)務(wù)目標(biāo),對(duì)數(shù)據(jù)進(jìn)行篩選,揭示其中的規(guī)律,并進(jìn)一步將其模型化。
7 結(jié)束語(yǔ)
隨著計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)庫(kù)管理系統(tǒng)作為處理數(shù)據(jù)的核心之一,在大數(shù)據(jù)中的應(yīng)用不應(yīng)被忽視。因此,加強(qiáng)數(shù)據(jù)庫(kù)新技術(shù)的研發(fā),對(duì)于各個(gè)國(guó)家在大數(shù)據(jù)時(shí)代的信息戰(zhàn)中都顯得尤為重要。
參考文獻(xiàn):
大數(shù)據(jù)技術(shù)的進(jìn)步之快,與傳統(tǒng)的數(shù)據(jù)分析相比,就好比是噴汽式飛機(jī)與獨(dú)輪車(chē)的差距。如果管理者沒(méi)有足夠的判斷力和領(lǐng)導(dǎo)素養(yǎng),該項(xiàng)新技術(shù)所帶來(lái)的風(fēng)險(xiǎn)可能遠(yuǎn)遠(yuǎn)大于收益。
仔細(xì)研究塔吉特的“懷孕指標(biāo)”之后我們發(fā)現(xiàn),領(lǐng)導(dǎo)力在該項(xiàng)目當(dāng)中發(fā)揮的作用遠(yuǎn)比技術(shù)工具來(lái)得關(guān)鍵:
以一定的收益風(fēng)險(xiǎn)管理為導(dǎo)向 很久以前,早在上
世紀(jì)八十年代,塔吉特就通過(guò)研究發(fā)現(xiàn),消費(fèi)者很少會(huì)因?yàn)樯碳业膹V告或者優(yōu)惠券改變自己的購(gòu)物習(xí)慣,選擇不熟悉的品牌。只有當(dāng)重大事件發(fā)生時(shí),比如結(jié)婚、搬家或者生小孩,這一規(guī)律才會(huì)被打破。
沒(méi)有這項(xiàng)理論做前提,塔吉特的“懷孕指標(biāo)”項(xiàng)目就毫無(wú)意義。
合理的樣本和模型很重要 建立一個(gè)數(shù)據(jù)模型需
要明確的樣本和評(píng)估數(shù)據(jù),這就需要對(duì)客戶(hù)有足夠的洞察。
在塔吉特的案例里,他們使用嬰兒用品的購(gòu)買(mǎi)記錄作為樣本,以此為基礎(chǔ)來(lái)建構(gòu)一個(gè)數(shù)據(jù)模型,分析更大量的數(shù)據(jù)記錄。
理解信息的價(jià)值所在 需要仔細(xì)評(píng)估從最理想的數(shù)據(jù)中能夠得到的商業(yè)結(jié)果,對(duì)比數(shù)據(jù)收集、分析的過(guò)程和最終得到的結(jié)果,來(lái)判斷精確的分析是否值得。
例如,在塔吉特,可以根據(jù)“懷孕指標(biāo)”,將準(zhǔn)確率為80%的數(shù)據(jù)和準(zhǔn)確率為90%的數(shù)據(jù)進(jìn)行對(duì)比,以找到投入產(chǎn)出的最佳結(jié)合點(diǎn),形成最優(yōu)化的數(shù)據(jù)模型。
“檢察大數(shù)據(jù)”的概念厘定
“大數(shù)據(jù)”的生產(chǎn)與運(yùn)用是一個(gè)“人人為我,我為人人”的互通、共享、多贏過(guò)程。檢察機(jī)關(guān)在整合應(yīng)用其他政府機(jī)構(gòu)、企事業(yè)單位、社會(huì)組織提供的信息數(shù)據(jù)服務(wù)司法辦案的同時(shí),也在辦案中生產(chǎn)“大數(shù)據(jù)”。這些數(shù)據(jù)既可作為檢察機(jī)關(guān)校準(zhǔn)后續(xù)辦案的內(nèi)部參照系,同時(shí)部分?jǐn)?shù)據(jù)亦可對(duì)外輸出服務(wù)社會(huì)。前者如在刑事檢察中整合同類(lèi)案件形成案例數(shù)據(jù)庫(kù),用以提升公訴量刑精準(zhǔn)度,后者以當(dāng)前檢察機(jī)關(guān)向社會(huì)公眾提供的行賄犯罪檔案查詢(xún)服務(wù)最為典型。顯然作為數(shù)據(jù)運(yùn)用者,檢察機(jī)關(guān)“大數(shù)據(jù)”包括檢察工作所涉及的一切有用信息數(shù)據(jù)。其中,相當(dāng)一部分?jǐn)?shù)據(jù)并非檢察機(jī)關(guān)在司法辦案中產(chǎn)出的“原生”數(shù)據(jù)。如職務(wù)犯罪偵查辦案中反貪部門(mén)調(diào)用房產(chǎn)、銀行、公安行政機(jī)關(guān)的信息數(shù)據(jù)庫(kù)進(jìn)行初查;相關(guān)業(yè)務(wù)部門(mén)在審查、出庭公訴、訴訟監(jiān)督、參與社會(huì)治理等方面運(yùn)用信息化、數(shù)字化新技術(shù)等。
“檢察大數(shù)據(jù)”與上述檢察機(jī)關(guān)運(yùn)用的“大數(shù)據(jù)”有本質(zhì)區(qū)別?!皺z察大數(shù)據(jù)”專(zhuān)指檢察機(jī)關(guān)司法辦案大數(shù)據(jù),是檢察機(jī)關(guān)在司法辦案中的“原生”案件信息數(shù)據(jù),其最核心的特征是相關(guān)數(shù)據(jù)是關(guān)于檢察業(yè)務(wù)辦案的信息數(shù)據(jù)。目前,在檢察司法辦案大數(shù)據(jù)的擷取、管理、應(yīng)用方面,最高人民檢察院推進(jìn)的“統(tǒng)一業(yè)務(wù)應(yīng)用系統(tǒng)”是國(guó)家層面“檢察大數(shù)據(jù)”生成的最重要平臺(tái);同時(shí)各地檢察機(jī)關(guān)亦多有創(chuàng)新,如北京市人民檢察院開(kāi)發(fā)應(yīng)用的“檢立方”系統(tǒng)、上海市閔行區(qū)人民檢察院試運(yùn)行的“檢察官執(zhí)法辦案全程監(jiān)控考核系統(tǒng)”、浦東新區(qū)人民檢察院試運(yùn)行的“綜合管理信息平臺(tái)一期”、湖北省人民檢察院研發(fā)的“互聯(lián)網(wǎng)檢務(wù)辦公室”,南京市鼓樓區(qū)人民檢察院研發(fā)的辦公辦案軟件“移動(dòng)檢務(wù)通”等。上述系統(tǒng)平臺(tái)通過(guò)案件管理部門(mén)案件受理信息輸入及辦案人員在辦案過(guò)程中的流程信息輸入,生成、存儲(chǔ)、管理與檢察機(jī)關(guān)司法辦案相關(guān)的各項(xiàng)信息數(shù)據(jù),并通過(guò)對(duì)大數(shù)據(jù)不同子系統(tǒng)數(shù)據(jù)的深度分析,進(jìn)而服務(wù)領(lǐng)導(dǎo)決策與司法辦案。
當(dāng)前檢察工作中的大數(shù)據(jù)運(yùn)用
無(wú)論是檢察機(jī)關(guān)的“原生”大數(shù)據(jù),還是第三方生成的關(guān)聯(lián)大數(shù)據(jù),在當(dāng)前的檢察辦案與司法管理工作中都有著極為廣闊的應(yīng)用前景。作為檢察機(jī)關(guān)大數(shù)據(jù)的核心內(nèi)容,“原生”大數(shù)據(jù)即“檢察大數(shù)據(jù)”,在輔助檢察辦案、服務(wù)司法管理中發(fā)揮著極為重要的作用。
在“檢察大數(shù)據(jù)”輔助檢察辦案方面,目前較為典型的如貴州省人民檢察機(jī)關(guān)的“大數(shù)據(jù)司法辦案輔助系統(tǒng)”。司法辦案輔助系統(tǒng)運(yùn)用“實(shí)體識(shí)別”“數(shù)學(xué)建模”等大數(shù)據(jù)技術(shù),通過(guò)繪制“犯罪構(gòu)成知識(shí)”圖譜,建立各罪名案件數(shù)學(xué)模型的司法辦案輔助系統(tǒng),為辦案提供案件信息智能采集、“要素―證據(jù)”智能關(guān)聯(lián)和風(fēng)險(xiǎn)預(yù)警、證據(jù)材料甄別,以及類(lèi)案推送、量刑建議計(jì)算等智能化服務(wù)。目前,貴州省人民檢察機(jī)關(guān)的大數(shù)據(jù)司法辦案輔助系統(tǒng)已進(jìn)行了三次迭代升級(jí),正在貴州全省4個(gè)市(州)院和31個(gè)基層院試點(diǎn)運(yùn)行。
在“檢察大數(shù)據(jù)”服務(wù)司法管理方面,上海市閔行區(qū)人民檢察院的檢察官執(zhí)法辦案全程監(jiān)控考核系統(tǒng)非常具有代表性。該院通過(guò)對(duì)各職能部門(mén)受理、立案(項(xiàng))、辦理的案件以及不依附于自偵、批捕、等主要辦案業(yè)務(wù)的,有完整流程、審查結(jié)論及相關(guān)法律文書(shū)的訴訟監(jiān)督、社會(huì)治理、維護(hù)穩(wěn)定、預(yù)防犯罪等檢察業(yè)務(wù)進(jìn)行梳理,對(duì)檢察建議、糾正違法等共性的檢察業(yè)務(wù)指標(biāo)進(jìn)行歸并,形成了較為規(guī)范的檢察機(jī)關(guān)司法辦案大數(shù)據(jù)目錄和工作指標(biāo)w系。通過(guò)對(duì)檢察官在執(zhí)法辦案中產(chǎn)生的“原生”大數(shù)據(jù)的深度挖掘和研判分析,將案件統(tǒng)計(jì)、質(zhì)量監(jiān)控、專(zhuān)題研判、績(jī)效分析有機(jī)融為一體,進(jìn)而使辦案監(jiān)督管理者能夠及時(shí)準(zhǔn)確找出檢察官在辦案中存在的司法不規(guī)范問(wèn)題,有效強(qiáng)化對(duì)司法辦案的績(jī)效考評(píng)與內(nèi)部監(jiān)控。
除了重視對(duì)“原生”大數(shù)據(jù)的收集整理與挖掘應(yīng)用,如何發(fā)揮好“他山之石”的作用,在檢察辦案中運(yùn)用好第三方關(guān)聯(lián)大數(shù)據(jù),也是大數(shù)據(jù)技術(shù)與檢察辦案深度融合的重要內(nèi)容。除了上述在職務(wù)犯罪案件偵查中對(duì)房產(chǎn)、銀行、公安行政機(jī)關(guān)等提供的關(guān)聯(lián)數(shù)據(jù)的常規(guī)運(yùn)用外,當(dāng)前一些地方檢察機(jī)關(guān)正在進(jìn)行創(chuàng)新運(yùn)用第三方大數(shù)據(jù)方面的積極探索。如江蘇省無(wú)錫市錫山區(qū)人民檢察院對(duì)接社會(huì)治理公共服務(wù)管理平臺(tái)和民情APP,推出檢察民情APP的創(chuàng)新做法。自對(duì)接平臺(tái)以來(lái),錫山區(qū)人民檢察院已查閱近6000條民情信息,從海量數(shù)據(jù)中了解掌握群眾訴求,立足檢察職能,從中發(fā)現(xiàn)老百姓對(duì)征地拆遷、環(huán)境保護(hù)、社會(huì)保障等方面的民生需求,聚焦群眾關(guān)注的熱點(diǎn)民生問(wèn)題深入挖掘職務(wù)犯罪案件線索、訴訟監(jiān)督線索、執(zhí)行監(jiān)督線索及公益訴訟線索,使第三方大數(shù)據(jù)真正成為輔助檢察辦案,拓展監(jiān)督案源的新渠道。
短板
檢察大數(shù)據(jù)系統(tǒng)的提升點(diǎn)
引言
在現(xiàn)今信息技術(shù)發(fā)展中,數(shù)據(jù)同計(jì)算可以說(shuō)是信息技術(shù)發(fā)展過(guò)程中的兩個(gè)重要主題,在這兩個(gè)主題的基礎(chǔ)上,信息技術(shù)也逐漸出現(xiàn)了大數(shù)據(jù)技術(shù)概念。從嚴(yán)格意義來(lái)說(shuō),所謂大數(shù)據(jù)技術(shù),即是針對(duì)于海量數(shù)據(jù)的分析、存儲(chǔ)以及技術(shù)。對(duì)于這部分海量數(shù)據(jù)來(lái)說(shuō),我們很難直接對(duì)其進(jìn)行應(yīng)用,在獲得數(shù)據(jù)之后,需要在經(jīng)過(guò)一定處理后才能夠獲得有用的數(shù)據(jù),如何能夠?qū)崿F(xiàn)大數(shù)據(jù)時(shí)代下數(shù)據(jù)同計(jì)算的科學(xué)協(xié)作、并能夠?qū)⑵湫纬梢环N機(jī)制,則成為了目前非常重要的一項(xiàng)問(wèn)題。
1 計(jì)算同數(shù)據(jù)協(xié)作機(jī)制對(duì)比
對(duì)于面對(duì)數(shù)據(jù)系統(tǒng)來(lái)說(shuō),其一般為分布式系統(tǒng)類(lèi)型,即通過(guò)將計(jì)算向數(shù)據(jù)進(jìn)行遷移對(duì)系統(tǒng)中數(shù)據(jù)傳遞代價(jià)進(jìn)行降低,可以說(shuō)是一種通過(guò)計(jì)算對(duì)數(shù)據(jù)進(jìn)行尋找的方式。要想對(duì)數(shù)據(jù)進(jìn)行計(jì)算,實(shí)現(xiàn)數(shù)據(jù)的定位可以說(shuō)是一項(xiàng)重要的前提,而數(shù)據(jù)切分以及存儲(chǔ)方式情況也將對(duì)計(jì)算的模式以及處理效率產(chǎn)生影響。對(duì)此,要想對(duì)數(shù)據(jù)同計(jì)算間的科學(xué)協(xié)作進(jìn)行實(shí)現(xiàn),就需要對(duì)數(shù)據(jù)在分布式文件系統(tǒng)中的存儲(chǔ)方式進(jìn)行研究。而由于在分布式系統(tǒng)當(dāng)中,需要對(duì)數(shù)據(jù)冗余、節(jié)點(diǎn)失效以及備份等問(wèn)題進(jìn)行解決,就對(duì)數(shù)據(jù)同計(jì)算協(xié)作價(jià)值的研究帶來(lái)了較大的挑戰(zhàn)。在兩者協(xié)作機(jī)制研究中,數(shù)據(jù)同計(jì)算的一致性可以說(shuō)是研究重點(diǎn),需要首先從該方面進(jìn)行討論與解決。
1.1 位置一致性映射模型
對(duì)于分布式系統(tǒng)中數(shù)據(jù)同計(jì)算的一致性問(wèn)題,我們可以將其理解為將兩者在同一節(jié)點(diǎn)位置映射,即在數(shù)據(jù)存儲(chǔ)區(qū)域發(fā)起計(jì)算。以網(wǎng)格計(jì)算系統(tǒng)為例,其到達(dá)客戶(hù)節(jié)點(diǎn)的數(shù)據(jù)是計(jì)算先于數(shù)據(jù),并根據(jù)客戶(hù)端請(qǐng)求將數(shù)據(jù)映射到客戶(hù)端中進(jìn)行處理。對(duì)于Hadoop系統(tǒng)來(lái)說(shuō),就是先將數(shù)據(jù)存儲(chǔ)到系統(tǒng)的一個(gè)節(jié)點(diǎn)當(dāng)中,當(dāng)系統(tǒng)發(fā)起計(jì)算時(shí),再對(duì)元數(shù)據(jù)進(jìn)行查詢(xún)后對(duì)數(shù)據(jù)存儲(chǔ)位置進(jìn)行獲得,并將計(jì)算任務(wù)映射到節(jié)點(diǎn)當(dāng)中進(jìn)行處理。根據(jù)此種情況,我們可以將計(jì)算同數(shù)據(jù)間的映射比作是數(shù)據(jù)到節(jié)點(diǎn)的映射過(guò)程,在該過(guò)程中,數(shù)據(jù)片同計(jì)算程序在按照一定規(guī)則到節(jié)點(diǎn)進(jìn)行定位之后將兩者注入到節(jié)點(diǎn)當(dāng)中,而到該節(jié)點(diǎn)失效時(shí),數(shù)據(jù)片則會(huì)按照相應(yīng)的規(guī)則進(jìn)行數(shù)據(jù)備份以及遷移,并重新按照規(guī)則實(shí)現(xiàn)到節(jié)點(diǎn)的對(duì)應(yīng)。
在上述模型中,我們可以將計(jì)算視作是一種具有特殊特征的數(shù)據(jù)類(lèi)型,這是因?yàn)閷?duì)于計(jì)算而言,其自身就是程序語(yǔ)言設(shè)計(jì)的可執(zhí)行程序片,在系統(tǒng)映射過(guò)程中,可以將其同數(shù)據(jù)進(jìn)行同等的看待,且在程序中一般也將包括相關(guān)數(shù)據(jù)的邏輯位置信息。在分布式文件中,其中的定位算法也正是數(shù)據(jù)同節(jié)點(diǎn)間的映射功能,即要想對(duì)兩者的一致性位置進(jìn)行實(shí)現(xiàn),就離不開(kāi)分布式文件系統(tǒng)的支持。同時(shí),由于在分布式系統(tǒng)中計(jì)算遷移、存儲(chǔ)遷移以及數(shù)據(jù)冗余問(wèn)題的存在,在具體功能實(shí)現(xiàn)時(shí),也將對(duì)存儲(chǔ)冗余以及均衡調(diào)度等技術(shù)進(jìn)行結(jié)合性的應(yīng)用,以此對(duì)兩者科學(xué)協(xié)作、且具有穩(wěn)定健壯特征的系統(tǒng)進(jìn)行實(shí)現(xiàn)。映射方式方面,則有哈希映射以及元數(shù)據(jù)映射等。
1.2 元數(shù)據(jù)映射算法
對(duì)于該類(lèi)算法來(lái)說(shuō),其可以說(shuō)是最為基礎(chǔ)的對(duì)存儲(chǔ)位置同計(jì)算一致性進(jìn)行實(shí)現(xiàn)的方法,在實(shí)際應(yīng)用中,該方式通過(guò)數(shù)據(jù)塊存儲(chǔ)位置的查找使該位置能夠同指定的存儲(chǔ)節(jié)點(diǎn)進(jìn)行映射,在其對(duì)計(jì)算同數(shù)據(jù)的定位實(shí)現(xiàn)中,同網(wǎng)絡(luò)路由表原理較為類(lèi)似,即兩者通過(guò)對(duì)有路由的查詢(xún)保證數(shù)據(jù)能夠同計(jì)算被分配到同一個(gè)節(jié)點(diǎn)當(dāng)中。對(duì)于應(yīng)用該方式的系統(tǒng)來(lái)說(shuō),其一般為主從結(jié)構(gòu)類(lèi)型,如果其中出現(xiàn)單點(diǎn)失效情況,則將對(duì)整個(gè)系統(tǒng)產(chǎn)生較大的影響。對(duì)于HDFS以及GFS結(jié)構(gòu)來(lái)說(shuō),就是以該數(shù)據(jù)方式構(gòu)建的。在實(shí)際對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)時(shí),其一般會(huì)根據(jù)節(jié)點(diǎn)目前存儲(chǔ)負(fù)載情況進(jìn)行判斷,而為了避免結(jié)構(gòu)對(duì)失效情況具有過(guò)高的敏感性,也有學(xué)者通過(guò)對(duì)元數(shù)據(jù)進(jìn)行復(fù)制的方式提升系統(tǒng)可用性。
通過(guò)該方式的應(yīng)用,則能夠以較為便利的方式對(duì)機(jī)群系統(tǒng)目前狀態(tài)進(jìn)行利用,在以其為依據(jù)的基礎(chǔ)上對(duì)系統(tǒng)的負(fù)載均衡進(jìn)行實(shí)現(xiàn)。此時(shí),系統(tǒng)主節(jié)點(diǎn)則會(huì)通過(guò)一定調(diào)度算法的應(yīng)用對(duì)數(shù)據(jù)計(jì)算以及存儲(chǔ)進(jìn)行分配,在對(duì)系統(tǒng)負(fù)載均衡進(jìn)行實(shí)現(xiàn)的同將分配信息作為元數(shù)據(jù)進(jìn)行保存。目前,很多針對(duì)集群負(fù)載均衡算法都能夠在元數(shù)據(jù)方法中進(jìn)行應(yīng)用、并將其作為對(duì)柱節(jié)點(diǎn)資源進(jìn)行分配的依據(jù)。在實(shí)際應(yīng)用中,雖然該方式在網(wǎng)絡(luò)信息搜索以及大量復(fù)雜均衡算法的應(yīng)用方面具有較好的表現(xiàn),但當(dāng)系統(tǒng)具有較多數(shù)量小文件時(shí),則需要對(duì)路由數(shù)據(jù)進(jìn)行大量的維護(hù),并因此對(duì)數(shù)據(jù)的查詢(xún)效果產(chǎn)生影響。
1.3 哈希映射算法
哈希算法是一種從稀疏到緊密值的映射方式,在計(jì)算以及存儲(chǔ)定位時(shí),可以將其視作路由算法的一種,通過(guò)該方式的應(yīng)用,則能夠?qū)⒛繕?biāo)定位到節(jié)點(diǎn)位置。對(duì)于傳統(tǒng)的哈希算法,其在擴(kuò)展性以及容錯(cuò)性方面的表現(xiàn)都一般,并不能夠較為有效的對(duì)面向數(shù)據(jù)系統(tǒng)節(jié)點(diǎn)的動(dòng)態(tài)變化相適應(yīng),1997年,學(xué)者David Karger提出了使用一致性哈希算法對(duì)數(shù)據(jù)進(jìn)行定位,并在后續(xù)的改進(jìn)中逐漸使其成為了分布式存儲(chǔ)中的標(biāo)準(zhǔn)技術(shù)類(lèi)型。當(dāng)系統(tǒng)對(duì)該方式進(jìn)行應(yīng)用之后,則不需要對(duì)中心節(jié)點(diǎn)元數(shù)據(jù)進(jìn)行維護(hù),可以說(shuō)對(duì)普通元數(shù)據(jù)服務(wù)器性能瓶頸以及單點(diǎn)失效問(wèn)題進(jìn)行了較好的解決,其實(shí)現(xiàn)過(guò)程為:首先通過(guò)Key值的應(yīng)用將MD5算法變換成一個(gè)32位長(zhǎng)度的16進(jìn)制數(shù)值,在以該數(shù)值進(jìn)行232取模后將其映射到環(huán)狀哈??臻g,并以相同的方式將節(jié)點(diǎn)映射到環(huán)狀哈希空間當(dāng)中,此時(shí)Key則會(huì)在哈希空間中尋找到節(jié)點(diǎn)值作為路由值。
2 計(jì)算同數(shù)據(jù)的流式拓樸協(xié)作機(jī)制
2.1 Storm系統(tǒng)
流水線技術(shù)是對(duì)高性能數(shù)據(jù)進(jìn)行處理的重要技術(shù)類(lèi)型,其主要技術(shù)思想即將一個(gè)任務(wù)分解成多個(gè)具有前后關(guān)系的子任務(wù),在流水線模式中,各個(gè)子任務(wù)的啟動(dòng)同之前順序任務(wù)的完成情況具有依賴(lài),對(duì)具有先后相關(guān)性數(shù)據(jù)分析方面具有較好的實(shí)用性特征。目前,以分布式系統(tǒng)以及流式技術(shù)為協(xié)作的框架機(jī)制已經(jīng)在應(yīng)用中表現(xiàn)出了較好的生命力以及靈活性,在本研究中,將以Storm系統(tǒng)為例進(jìn)行簡(jiǎn)單的介紹。
Storm是由Twitter所推出的一種流式分布式系統(tǒng),在該集群中,由多個(gè)工作節(jié)點(diǎn)以及一個(gè)主節(jié)點(diǎn)組成,其中,主節(jié)點(diǎn)可以說(shuō)是系統(tǒng)的核心,具有任務(wù)布置、代碼分配以及故障檢測(cè)等作用。在該系統(tǒng)中,當(dāng)其要對(duì)實(shí)時(shí)計(jì)算任務(wù)進(jìn)行完成時(shí),需要對(duì)一個(gè)Topology進(jìn)行建立,并由該模塊對(duì)數(shù)據(jù)處理進(jìn)行規(guī)劃。在Storm系統(tǒng)中,元組是基本的數(shù)據(jù)流單位,可以將其看作是一個(gè)被封裝的數(shù)據(jù)結(jié)構(gòu)類(lèi)型,在Storm系統(tǒng)中,Topology可以說(shuō)是最高級(jí)別的執(zhí)行單元,其是由很多個(gè)節(jié)點(diǎn)所組成的拓?fù)?,在拓?fù)渲?,由不同?jié)點(diǎn)對(duì)相應(yīng)的計(jì)算邏輯進(jìn)行完成。在該系統(tǒng)中,Spout是系統(tǒng)的數(shù)據(jù)流生成器,而B(niǎo)olt則為不同的處理位置。對(duì)于數(shù)據(jù)流來(lái)說(shuō),由于Spout為數(shù)據(jù)源頭,在實(shí)際運(yùn)行中,其在對(duì)數(shù)據(jù)進(jìn)行讀取之后則會(huì)實(shí)現(xiàn)向Bolt的傳送,其不僅能夠?qū)Χ鄠€(gè)輸入流進(jìn)行接收,且能夠較好的對(duì)數(shù)據(jù)進(jìn)行特定處理。在Storm系統(tǒng)對(duì)Topology進(jìn)行應(yīng)用之后,其則具有了更為強(qiáng)大以及更為靈活的數(shù)據(jù)處理能力,節(jié)點(diǎn)在根據(jù)Topology邏輯對(duì)任務(wù)進(jìn)行分配之后將任務(wù)分配到相應(yīng)物理節(jié)點(diǎn)之上。而從整個(gè)架構(gòu)情況看來(lái),在數(shù)據(jù)以及計(jì)算協(xié)作處理方面,系統(tǒng)主要是通過(guò)Topology進(jìn)行分配,并在按照其描述之后由對(duì)應(yīng)的節(jié)點(diǎn)程序進(jìn)行處理,并由主節(jié)點(diǎn)將根據(jù)一個(gè)邏輯實(shí)現(xiàn)物理節(jié)點(diǎn)的映射。
2.2 流式拓樸映射模型
在Storm系統(tǒng)中,其通過(guò)Topology結(jié)構(gòu)的應(yīng)用,則能夠?qū)^為復(fù)雜的分布式數(shù)據(jù)處理任務(wù)進(jìn)行實(shí)現(xiàn),在整個(gè)過(guò)程中,對(duì)于不同計(jì)算任務(wù),Topology好比是邏輯規(guī)劃,并沒(méi)有對(duì)相應(yīng)的物理節(jié)點(diǎn)進(jìn)行對(duì)應(yīng),在系統(tǒng)主節(jié)點(diǎn)中,可能具有數(shù)量較多的該種結(jié)構(gòu),而對(duì)于每一個(gè)結(jié)構(gòu)都可以將其視作為對(duì)特殊問(wèn)題進(jìn)行處理的邏輯規(guī)劃,可以說(shuō),通過(guò)Topology結(jié)構(gòu)的應(yīng)用,則能夠?qū)Υ蠖鄶?shù)問(wèn)題的處理方式進(jìn)行描述。其整個(gè)過(guò)程可以抽象如圖1所示。
在圖1中,每一個(gè)操作就可以將其是作為Bolt,而數(shù)據(jù)發(fā)生器則為Spout,在該系統(tǒng)中,同樣由主節(jié)點(diǎn)對(duì)很多個(gè)處理節(jié)點(diǎn)進(jìn)行管理與監(jiān)控,對(duì)于每個(gè)任務(wù)的邏輯規(guī)劃,主節(jié)點(diǎn)都會(huì)在一定策略的基礎(chǔ)上對(duì)物理節(jié)點(diǎn)進(jìn)行分配,以此對(duì)相關(guān)的計(jì)算恩物進(jìn)行完成。如上圖中,主節(jié)點(diǎn)為操作1分配物理節(jié)點(diǎn)1,為操作2分配物理節(jié)點(diǎn)2,為操作3分配物理節(jié)點(diǎn)3,為操作4分配物理節(jié)點(diǎn)1,在以該種方式進(jìn)行分配之后,Topology則能夠被映射為集群物理結(jié)構(gòu),并能夠?qū)ο鄳?yīng)的計(jì)算任務(wù)進(jìn)行完成。而作為編程人員,在工作當(dāng)中僅僅需要對(duì)Topology的邏輯結(jié)構(gòu)進(jìn)行定義即可,其后續(xù)相關(guān)工作則完全由系統(tǒng)進(jìn)行維護(hù),作為設(shè)計(jì)人員,在整個(gè)操作過(guò)程中也不需要對(duì)失效問(wèn)題進(jìn)行擔(dān)心,這是因?yàn)楫?dāng)某個(gè)節(jié)點(diǎn)出現(xiàn)失效情況時(shí),主節(jié)點(diǎn)將根據(jù)對(duì)應(yīng)操作將其對(duì)一個(gè)好的物理節(jié)點(diǎn)進(jìn)行重新的映射,以此保證整個(gè)規(guī)劃能夠得到順利的實(shí)現(xiàn)。
通過(guò)上述的分析可以了解到,通過(guò)流式拓樸映射方法的應(yīng)用,則能夠使系統(tǒng)根據(jù)Topology描述的情況對(duì)不同的集群計(jì)算結(jié)構(gòu)進(jìn)行自動(dòng)組合,以此以更為靈活的方式對(duì)復(fù)雜問(wèn)題進(jìn)行處理。在整個(gè)過(guò)程中,系統(tǒng)的主節(jié)點(diǎn)具有數(shù)據(jù)路由以及計(jì)算的作用,并通過(guò)Topology的描述對(duì)協(xié)作機(jī)制的跟蹤定位進(jìn)行實(shí)現(xiàn)。
在此,我們以MPS對(duì)Topology到物理的映射過(guò)程進(jìn)行模擬,在節(jié)點(diǎn)間,將通過(guò)Mpi_Send()函數(shù)的應(yīng)用將流數(shù)據(jù)元組注入到節(jié)點(diǎn)當(dāng)中,并在該節(jié)點(diǎn)上對(duì)相關(guān)操作進(jìn)行發(fā)起,之后,通過(guò)MPI_Recv()函數(shù)的應(yīng)用對(duì)前端數(shù)據(jù)進(jìn)行接收,以此對(duì)節(jié)點(diǎn)間通訊進(jìn)行實(shí)現(xiàn)。對(duì)于該種方式來(lái)說(shuō),其能夠?qū)Σ煌瑪?shù)據(jù)系統(tǒng)僅僅能夠進(jìn)行非實(shí)時(shí)數(shù)據(jù)批處理的問(wèn)題進(jìn)行了較好的避免,具有較好的應(yīng)用效果。
3 結(jié)束語(yǔ)
在現(xiàn)今大數(shù)據(jù)時(shí)代背景下,數(shù)據(jù)同計(jì)算間的協(xié)作具有了更為重要的意義。在上文章,我們對(duì)大數(shù)據(jù)技術(shù)中計(jì)算與數(shù)據(jù)的協(xié)作機(jī)制進(jìn)行了一定的研究,需要能夠聯(lián)系實(shí)際進(jìn)行系統(tǒng)模式的選擇與應(yīng)用,以此更好的對(duì)數(shù)據(jù)處理任務(wù)進(jìn)行實(shí)現(xiàn)。
參考文獻(xiàn)
2傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)面臨的挑戰(zhàn)
基于二維關(guān)系模型的數(shù)據(jù)庫(kù)在數(shù)據(jù)管理的發(fā)展歷程中是一個(gè)標(biāo)志性的時(shí)期,數(shù)據(jù)結(jié)構(gòu)化存儲(chǔ),冗余較低、程序和數(shù)據(jù)具有一定的獨(dú)立性、易擴(kuò)充等特點(diǎn)。隨著Internet技術(shù)的發(fā)展,涌現(xiàn)出半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),對(duì)這些結(jié)構(gòu)復(fù)雜的大數(shù)據(jù)的高效實(shí)時(shí)多維分析的需求越來(lái)越多。傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)從70年展至今,雖然應(yīng)用范圍較廣技術(shù)較成熟,但在處理海量數(shù)據(jù)方面還存在許多不足。(1)關(guān)系模型結(jié)構(gòu)制約了快速訪問(wèn)大數(shù)據(jù)的能力。在二維關(guān)系表中,依據(jù)屬性的值來(lái)檢索相應(yīng)的元組,受這種方式的束縛,在檢索數(shù)據(jù)過(guò)程中,將耗費(fèi)一定的時(shí)間,從而使訪問(wèn)數(shù)據(jù)的時(shí)間較慢。在存儲(chǔ)對(duì)象設(shè)計(jì)上雖然可以使用分區(qū)的方法,提高數(shù)據(jù)訪問(wèn)沖突,但在大量數(shù)據(jù)的前提下,分區(qū)技術(shù)改善的性能較微弱。(2)處理大數(shù)據(jù)的靈活性不足。在應(yīng)用系統(tǒng)中,用戶(hù)的各種查詢(xún)需求經(jīng)常發(fā)生變化,不受時(shí)間和操作對(duì)象的約束,用戶(hù)希望隨時(shí)隨地都能快速得到反饋結(jié)果。關(guān)系型數(shù)據(jù)庫(kù)需要專(zhuān)門(mén)的數(shù)據(jù)庫(kù)維護(hù)人員對(duì)用戶(hù)的查詢(xún)要求進(jìn)行優(yōu)化處理,不能及時(shí)的反饋給用戶(hù)查詢(xún)結(jié)果,這使得使用關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)數(shù)據(jù)的企業(yè)不具備對(duì)大數(shù)據(jù)的快速響應(yīng)能力。(3)處理復(fù)雜結(jié)構(gòu)數(shù)據(jù)能力較弱。關(guān)系型數(shù)據(jù)庫(kù)對(duì)現(xiàn)實(shí)數(shù)據(jù)的處理常見(jiàn)類(lèi)型為字符、數(shù)值等,對(duì)于半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理只限于二進(jìn)制代碼文件的存儲(chǔ),而現(xiàn)今用戶(hù)對(duì)復(fù)雜結(jié)構(gòu)數(shù)據(jù)的要求上升為識(shí)別、檢索和多維分析,如何處理占總數(shù)據(jù)量85%的非結(jié)構(gòu)化數(shù)據(jù),是許多關(guān)系數(shù)據(jù)庫(kù)產(chǎn)品需要解決的問(wèn)題。(4)存儲(chǔ)維護(hù)管理PB級(jí)數(shù)據(jù)導(dǎo)致成本不斷增加。數(shù)據(jù)量遞增使得企業(yè)在硬件存儲(chǔ)上投資不斷增加,雖然存儲(chǔ)設(shè)備的投入成本在逐步降低,但總成本卻在逐步提高。此外,大量復(fù)雜結(jié)構(gòu)的數(shù)據(jù)維護(hù)工作也給數(shù)據(jù)庫(kù)管理員增加了很多負(fù)擔(dān)。
3大數(shù)據(jù)庫(kù)技術(shù)
隨著大數(shù)據(jù)技術(shù)的日趨完善,各大公司及開(kāi)源社區(qū)都陸續(xù)了一系列新型數(shù)據(jù)庫(kù)來(lái)解決海量數(shù)據(jù)的組織、存儲(chǔ)及管理問(wèn)題。目前,工業(yè)界主流的處理海量數(shù)據(jù)的數(shù)據(jù)庫(kù)有四種,分別是列式數(shù)據(jù)庫(kù)、內(nèi)存數(shù)據(jù)庫(kù)、鍵值數(shù)據(jù)庫(kù)及流式數(shù)據(jù)庫(kù)。
3.1列式數(shù)據(jù)庫(kù)
采用列族存儲(chǔ)數(shù)據(jù),將經(jīng)常被使用的數(shù)據(jù)放到一個(gè)列族中,例如,經(jīng)常會(huì)查詢(xún)學(xué)生的學(xué)號(hào)和姓名,而不是專(zhuān)業(yè),這樣把學(xué)號(hào)和姓名放到一個(gè)列族中,專(zhuān)業(yè)放到另一個(gè)列族中,該數(shù)據(jù)庫(kù)通常用來(lái)存儲(chǔ)分布式大數(shù)據(jù),HBase是列式數(shù)據(jù)庫(kù)的典型代表。
3.2內(nèi)存數(shù)據(jù)庫(kù)
對(duì)數(shù)據(jù)庫(kù)中所有數(shù)據(jù)的操作都在內(nèi)存中完成,一般數(shù)據(jù)庫(kù)也有一定的緩存機(jī)制,對(duì)大部分?jǐn)?shù)據(jù)的操作都包含從外存到內(nèi)存的讀取,這一過(guò)程在很大程度上降低了系統(tǒng)的性能。由于在內(nèi)存中的讀/寫(xiě)是以納秒為單位的,所以?xún)?nèi)存數(shù)據(jù)庫(kù)的性能極高,Spark是內(nèi)存數(shù)據(jù)庫(kù)的典型代表。
3.3鍵值數(shù)據(jù)庫(kù)
該數(shù)據(jù)庫(kù)主要借助哈希表的結(jié)構(gòu),使用一個(gè)特定的鍵和一個(gè)指向特定數(shù)據(jù)的指針,利用鍵來(lái)完成對(duì)數(shù)據(jù)庫(kù)中數(shù)據(jù)的添加、刪除和查詢(xún)操作,這種結(jié)構(gòu)具有很好的擴(kuò)展性,使系統(tǒng)具有較高的性能,Memcached、Redis、MemcacheDB都是鍵值數(shù)據(jù)庫(kù)的典型代表。
3.4流式數(shù)據(jù)庫(kù)
基本理念是數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間的流逝而不斷減少,因此,需要使式數(shù)據(jù)庫(kù)來(lái)實(shí)現(xiàn)流式計(jì)算。流式計(jì)算處理模式是將源源不斷的數(shù)據(jù)視為數(shù)據(jù)流,它總是盡可能快速地分析最新的數(shù)據(jù),并給出分析結(jié)果,也就是盡可能實(shí)現(xiàn)實(shí)時(shí)計(jì)算。典型流式數(shù)據(jù)庫(kù):SparkStreaming、Storm。
4大數(shù)據(jù)SQL
隨著國(guó)民經(jīng)濟(jì)的不斷發(fā)展,人們生活水平的不斷提高,居民購(gòu)買(mǎi)汽車(chē)能力加強(qiáng)。我國(guó)的汽車(chē)保有量隨之增加,在一些大城市機(jī)動(dòng)車(chē)擁有量以超過(guò)10%的速度加速,機(jī)動(dòng)車(chē)成為每個(gè)家庭代步的交通工具,在有限的交通資源配置下,機(jī)動(dòng)車(chē)的增加縮短了道路使用周期,城市主干道路超負(fù)荷使用,違法停車(chē)致使道路不能合理使用、行車(chē)不文明、乘車(chē)環(huán)境不良等現(xiàn)象有增無(wú)減。大數(shù)據(jù)時(shí)代,如何改善當(dāng)前的交通狀況是本文闡述的核心內(nèi)容。文章從以下幾個(gè)方面來(lái)闡述:大數(shù)據(jù)的現(xiàn)狀、大數(shù)據(jù)的概述、大數(shù)據(jù)的應(yīng)用、智能交通的需求、智能交通體系的建立、數(shù)據(jù)技術(shù)。
1 大數(shù)據(jù)的現(xiàn)狀
據(jù)權(quán)威數(shù)據(jù)顯示,大數(shù)據(jù)應(yīng)用在我國(guó)還處在起步階段。但在未來(lái)三年,通信、金融領(lǐng)域?qū)⒃诖髷?shù)據(jù)市場(chǎng)突破100億元。市場(chǎng)規(guī)模在2012年有望達(dá)到4.7億元,到2013年增至11.2億元,增長(zhǎng)率高達(dá)138%,2014年,保持了與2013年基本持平的增速,增長(zhǎng)率為114.38%,市場(chǎng)規(guī)模達(dá)到24.1億元,未來(lái)三年內(nèi)有望突破150億元,2016年有望達(dá)到180億規(guī)模。自從2014年以來(lái),各界對(duì)大數(shù)據(jù)的誕生都備加關(guān)注,已滲透到各個(gè)領(lǐng)域:交通行業(yè)、醫(yī)療行業(yè)、生物技術(shù)、零售行業(yè)、電商、農(nóng)牧業(yè)、個(gè)人位置服務(wù)等行業(yè),由此也正在不斷涌現(xiàn)大數(shù)據(jù)的新產(chǎn)品、新技術(shù)、新服務(wù)。
大數(shù)據(jù)行業(yè)“十三五”規(guī)劃主要目標(biāo):在2020年,將大數(shù)據(jù)打造成為國(guó)民經(jīng)濟(jì)新興支柱產(chǎn)業(yè)并在社會(huì)各領(lǐng)域廣泛應(yīng)用,推動(dòng)我國(guó)大數(shù)據(jù)產(chǎn)業(yè)穩(wěn)步快速發(fā)展,基本健全大數(shù)據(jù)產(chǎn)業(yè)體系,推動(dòng)制定一批相關(guān)大數(shù)據(jù)的國(guó)標(biāo)、行標(biāo)和地方標(biāo)準(zhǔn),引進(jìn)具備大數(shù)據(jù)條件的企業(yè),建設(shè)大數(shù)據(jù)產(chǎn)業(yè)孵化基地,提高全國(guó)信息化總體水平,以躋身世界先進(jìn)水平。
2 大數(shù)據(jù)的概述
2.1 大數(shù)據(jù)定義
大數(shù)據(jù)即巨量數(shù)據(jù)集合,目前還沒(méi)有一個(gè)統(tǒng)一的定義。大數(shù)據(jù)的概念最早是由全球著名的管理咨詢(xún)公司麥肯錫提出,2011年Mckinsey研究稱(chēng),大數(shù)據(jù)通常是指信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),在各個(gè)行業(yè)和業(yè)務(wù)領(lǐng)域,數(shù)據(jù)已經(jīng)滲透到行業(yè)中并逐漸成為重要的要素,人們能夠從海量數(shù)據(jù)中挖掘出有用的數(shù)據(jù)并加以應(yīng)用。對(duì)大數(shù)據(jù)定義的另一說(shuō)法是利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時(shí)間超過(guò)可容忍時(shí)間的數(shù)據(jù)集。
隨著信息時(shí)代的高速發(fā)展,大數(shù)據(jù)已經(jīng)成為社會(huì)生產(chǎn)力發(fā)展的又一推動(dòng)力。大數(shù)據(jù)被稱(chēng)為是繼云計(jì)算、物聯(lián)網(wǎng)之后信息時(shí)代的又一大顛覆性的技術(shù)革命。大數(shù)據(jù)的數(shù)據(jù)量巨大,一般10TB規(guī)模左右,但在實(shí)際應(yīng)用中,多個(gè)數(shù)據(jù)集放在一起,已經(jīng)形成了PB級(jí)的數(shù)據(jù)量,甚至EB、ZB、TB的數(shù)據(jù)量。
2.2 大數(shù)據(jù)的特點(diǎn)
2.2.1 數(shù)據(jù)量巨大
數(shù)據(jù)量級(jí)別從TB級(jí)別躍升到PB級(jí)別。隨著可穿戴設(shè)備、物聯(lián)網(wǎng)和云計(jì)算、云存儲(chǔ)等技術(shù)的發(fā)展,用戶(hù)的每一個(gè)動(dòng)作都可以被記錄,由此每天產(chǎn)生大量的數(shù)據(jù)信息。據(jù)有關(guān)人士估算:1986~2007年,全球數(shù)據(jù)的存儲(chǔ)能力每年提高23%,雙向通信能力每年提高28%,通用計(jì)算能力每年提高58%;2007年,人類(lèi)大約存儲(chǔ)了超過(guò)300EB
的數(shù)據(jù);到2013年,世界上存儲(chǔ)的數(shù)據(jù)能達(dá)到約1.2ZB。
2.2.2 數(shù)據(jù)類(lèi)型多樣化
即數(shù)據(jù)類(lèi)型繁多,產(chǎn)生了海量的新數(shù)據(jù)集,新數(shù)據(jù)集可以是關(guān)系數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)這樣的結(jié)構(gòu)化數(shù)據(jù)到半結(jié)構(gòu)化數(shù)據(jù)和無(wú)結(jié)構(gòu)數(shù)據(jù),從靜態(tài)的數(shù)據(jù)庫(kù)到動(dòng)態(tài)的數(shù)據(jù)流,從簡(jiǎn)單的數(shù)據(jù)對(duì)象到時(shí)間數(shù)據(jù)、生物序列數(shù)據(jù)、傳感器數(shù)據(jù)、空間數(shù)據(jù)、超文本數(shù)據(jù)、多媒體數(shù)據(jù)、軟件程序代碼、Web數(shù)據(jù)和社會(huì)網(wǎng)絡(luò)數(shù)據(jù)[1]。各種數(shù)據(jù)集不僅產(chǎn)生于組織內(nèi)部運(yùn)作的各個(gè)環(huán)節(jié),也來(lái)自于組織外部。
2.2.3 數(shù)據(jù)的時(shí)效性高
所謂的數(shù)據(jù)時(shí)效性高指以實(shí)時(shí)數(shù)據(jù)處理、實(shí)時(shí)結(jié)果導(dǎo)向?yàn)樘卣鞯慕鉀Q方案,數(shù)據(jù)的傳輸速度、響應(yīng)、反應(yīng)的速度不斷加快。數(shù)據(jù)時(shí)效性為了去偽存真,采用非結(jié)構(gòu)化數(shù)據(jù)剔除數(shù)據(jù)中無(wú)用的信息,而當(dāng)前未有真正的解決方法,只能是人工承擔(dān)其中的智能部分。有些專(zhuān)員負(fù)責(zé)數(shù)據(jù)分析問(wèn)題并提出分析后的解決方案。
2.2.4 數(shù)據(jù)真實(shí)性低
即數(shù)據(jù)的質(zhì)量。數(shù)據(jù)的高質(zhì)量是大數(shù)據(jù)時(shí)代重要的關(guān)注點(diǎn)。但在生活中,“臟數(shù)據(jù)”無(wú)處不在,例如,一些低劣的偽冒產(chǎn)品被推上市場(chǎng),由于營(yíng)銷(xiāo)手段的成功,加之其他因素的影響導(dǎo)致評(píng)分很高。但是這并不是真實(shí)的數(shù)據(jù),如果對(duì)數(shù)據(jù)不加分析和鑒別而直接使用,即使計(jì)算的結(jié)果精度高,結(jié)果都是無(wú)意義的,因?yàn)閿?shù)據(jù)本身就存在問(wèn)題出現(xiàn)。
2.2.5 價(jià)值密度低
指隨著物聯(lián)網(wǎng)的廣泛應(yīng)用,信息巨大,信息感知存在于客觀事物中,有很多不相關(guān)的信息。由于數(shù)據(jù)采集的不及時(shí),數(shù)據(jù)樣本不全面,數(shù)據(jù)可能不連續(xù)等等,數(shù)據(jù)可能會(huì)失真,但當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模,可以通過(guò)更多的數(shù)據(jù)達(dá)到更真實(shí)全面的反饋。
2.3 大數(shù)據(jù)的應(yīng)用
2.3.1 醫(yī)療大數(shù)據(jù)
利用大數(shù)據(jù)平臺(tái)收集患者原先就醫(yī)的病例和治療方案,根據(jù)患者的體征,建立疾病數(shù)據(jù)庫(kù)并對(duì)患者的病例分類(lèi)數(shù)據(jù)庫(kù)。一旦患者在哪個(gè)醫(yī)院就醫(yī),憑著醫(yī)保卡或就診卡,醫(yī)生就可以從疾病數(shù)據(jù)庫(kù)中參考病人的疾病特征、所做的檢查報(bào)告結(jié)果快速幫助患者確診。同時(shí)擁有的數(shù)據(jù)也有利于醫(yī)藥行業(yè)開(kāi)發(fā)出更符合治療疾病的醫(yī)療器械和藥物的研發(fā)。
2.3.2 傳統(tǒng)農(nóng)牧業(yè)大數(shù)據(jù)
因?yàn)閭鹘y(tǒng)農(nóng)牧業(yè)主要依賴(lài)于天氣、土壤、空氣質(zhì)量等客觀因素,因此利用大數(shù)據(jù)可以收集客觀因素的數(shù)據(jù)以及作物成熟度,甚至是設(shè)備和勞動(dòng)力的成本及可用性方面的實(shí)時(shí)數(shù)據(jù),能夠幫助農(nóng)民選擇正確的播種時(shí)間、施肥和收割作物的決策。當(dāng)農(nóng)民遇到技術(shù)市場(chǎng)問(wèn)題可以請(qǐng)教專(zhuān)業(yè)人員,專(zhuān)業(yè)人員根據(jù)實(shí)時(shí)數(shù)據(jù)做出科學(xué)的指導(dǎo),制定合理的優(yōu)化決策,降低農(nóng)民的損失成本,提高產(chǎn)品的產(chǎn)量,從而為轉(zhuǎn)向規(guī)?;?jīng)營(yíng)打下良好基礎(chǔ)。
2.3.3 輿情大數(shù)據(jù)
利用大數(shù)據(jù)技術(shù)收集民眾訴求的數(shù)據(jù),降低社會(huì),有利管理犯罪行為。通過(guò)大數(shù)據(jù)收集在微博的尋找走失的親人或提供可能被拐賣(mài)人口的信息,來(lái)幫助別人。
3 智能交通的需求
隨著城市一體化的快速發(fā)展,新時(shí)代農(nóng)民工涌入大城市,促使城市人口的增大不斷給城市交通帶來(lái)問(wèn)題。究其原因主要有:一是機(jī)動(dòng)車(chē)的迅猛發(fā)展導(dǎo)致城市主次干道的流量趨于飽和,大量機(jī)動(dòng)車(chē)的通行和停放占據(jù)主干道路。二是城市交通的道路基礎(chǔ)設(shè)施供給不平衡導(dǎo)致路網(wǎng)承擔(dān)能力差。三是停車(chē)泊位數(shù)量不足導(dǎo)致機(jī)動(dòng)車(chē)使用者不得不過(guò)多依賴(lài)道路停車(chē)。四是公共設(shè)施的公交車(chē)分擔(dān)率不高導(dǎo)致交通運(yùn)輸效率降低。五是城市的土地開(kāi)發(fā)利用與道路交通發(fā)展不均衡。六是行人和機(jī)動(dòng)車(chē)主素質(zhì)不文明導(dǎo)致道路通行效率降低。為此,智能交通的出現(xiàn)是改善當(dāng)前城市交通的必要需求,能夠在一定程度上有效的解決城市交通問(wèn)題。
大數(shù)據(jù)是如何在智能交通的應(yīng)用呢?可以從兩個(gè)方面說(shuō)明:一是對(duì)交通運(yùn)行數(shù)據(jù)的收集。由于每天道路的通行機(jī)動(dòng)車(chē)較多,能夠產(chǎn)生較大的數(shù)據(jù),數(shù)據(jù)的采集并發(fā)數(shù)高,利用大數(shù)據(jù)使機(jī)動(dòng)車(chē)主更好的了解公路上的通行密度,有效合理對(duì)道路進(jìn)行規(guī)劃,可規(guī)定個(gè)別道路為單行線。其二是可以利用大數(shù)據(jù)來(lái)實(shí)現(xiàn)主干道根據(jù)道路的運(yùn)行狀況即時(shí)調(diào)度信號(hào)燈,提高已有線路運(yùn)行能力,可以保障交通參與者的生命和提高有關(guān)部門(mén)的工作效率,降低成本。對(duì)于機(jī)動(dòng)車(chē)主可以根據(jù)大數(shù)據(jù)隨時(shí)的了解當(dāng)前的交通狀況和停車(chē)位數(shù)量。如果交通擁堵,車(chē)主則可選擇另一路線,節(jié)約了車(chē)主的大量時(shí)間。
4 智能交通體系的建立
4.1 智能交通建立的框架
主要包括感知數(shù)據(jù)層、軟件應(yīng)用平臺(tái)及分析預(yù)測(cè)和優(yōu)化管理的應(yīng)用。物理感知層主要是采集交通的運(yùn)行狀況和對(duì)交通數(shù)據(jù)的及時(shí)感知;軟件應(yīng)用平臺(tái)主要整合每個(gè)感知終端的信息、將信息進(jìn)行轉(zhuǎn)換和處理,達(dá)到支撐分析并做出及時(shí)的預(yù)警措施。比如:對(duì)主要交通干進(jìn)行規(guī)劃,對(duì)頻發(fā)交通事故進(jìn)行監(jiān)控。同時(shí)還應(yīng)進(jìn)行應(yīng)用系統(tǒng)建設(shè)的優(yōu)化管理。比如:對(duì)機(jī)動(dòng)車(chē)進(jìn)行智能誘導(dǎo)、智能停車(chē)。
智能交通系統(tǒng)需要在各道路主干道上安裝高清攝像頭,采用先進(jìn)的視頻監(jiān)控、智能識(shí)別和信息技術(shù)手段,來(lái)增加可管理的維度,從空間的廣度、時(shí)間的深度、范圍的精細(xì)度來(lái)管理。整個(gè)系統(tǒng)的組成包括信息綜合應(yīng)用平臺(tái)、信號(hào)控制系統(tǒng)、視頻監(jiān)控系統(tǒng)、智能卡口系統(tǒng)、電子警察系統(tǒng)、信息采集系統(tǒng)、信息系統(tǒng)。每個(gè)城市建立智能交通并進(jìn)行聯(lián)網(wǎng),則會(huì)產(chǎn)生越來(lái)越多的視頻監(jiān)控?cái)?shù)據(jù)、卡口電警數(shù)據(jù)、路況信息、管控信息、營(yíng)運(yùn)信息、GPS定位信息、射頻識(shí)別信息等數(shù)據(jù),每天產(chǎn)生的數(shù)據(jù)量將可以達(dá)到PB級(jí)別,并且呈現(xiàn)指數(shù)級(jí)的增長(zhǎng)。
4.2 智能交通數(shù)據(jù)處理體系的構(gòu)成
主要包括交通的數(shù)據(jù)輸入、車(chē)輛信息、道路承載能力等的數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)檢索。其中交通數(shù)據(jù)輸入可以是靜態(tài)數(shù)據(jù)或者是動(dòng)態(tài)數(shù)據(jù)。數(shù)據(jù)處理是針對(duì)實(shí)時(shí)數(shù)據(jù)的處理。數(shù)據(jù)主要存儲(chǔ)的是每天采集的巨大數(shù)據(jù)量。為了從中獲取有用的數(shù)據(jù),則需要進(jìn)行數(shù)據(jù)查詢(xún)和檢索,還要對(duì)數(shù)據(jù)進(jìn)行規(guī)劃。
5 大數(shù)據(jù)技術(shù)
5.1 數(shù)據(jù)采集與預(yù)處理
數(shù)據(jù)采集與預(yù)處理主要對(duì)交通領(lǐng)域全業(yè)態(tài)數(shù)據(jù)的立體采集與處理來(lái)支撐交通建設(shè)、管理、運(yùn)行決策。采集的數(shù)據(jù)主要是車(chē)輛的實(shí)時(shí)通行數(shù)據(jù),以實(shí)現(xiàn)實(shí)時(shí)監(jiān)控、事先預(yù)測(cè)、及時(shí)預(yù)警,完成道路網(wǎng)流量的調(diào)配、控。這些數(shù)據(jù)獲取可以采用安裝的傳感器、識(shí)別技術(shù)并完成對(duì)已接收數(shù)據(jù)的辨析、轉(zhuǎn)換、抽取、清洗等操作。
5.2 數(shù)據(jù)存儲(chǔ)與管理
大數(shù)據(jù)的存儲(chǔ)與管理是把采集到的數(shù)據(jù)存放在存儲(chǔ)器,并建立相應(yīng)的數(shù)據(jù)庫(kù),如關(guān)系數(shù)據(jù)庫(kù)、Not Only SQL即對(duì)關(guān)系型SQL數(shù)據(jù)系統(tǒng)的補(bǔ)充。利用數(shù)據(jù)庫(kù)采用更簡(jiǎn)單的數(shù)據(jù)模型,并將元數(shù)據(jù)與應(yīng)用數(shù)據(jù)分離,從而實(shí)現(xiàn)管理和調(diào)用。
5.3 數(shù)據(jù)分析與挖掘
數(shù)據(jù)分析及挖掘技術(shù)是大數(shù)據(jù)的核心技術(shù)。從海量數(shù)據(jù)中,提取隱含在其中,人們事先未知的,但又可能有用的信息和知識(shí)的過(guò)程。從復(fù)雜數(shù)據(jù)類(lèi)型中挖掘,如文本、圖片、視頻、音頻。該技術(shù)主要從數(shù)據(jù)中自動(dòng)地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu),可以預(yù)測(cè)模型、機(jī)器學(xué)習(xí)、建模仿真。從而實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。
5.4 數(shù)據(jù)展現(xiàn)與應(yīng)用
數(shù)據(jù)技術(shù)能夠?qū)⒚刻焖a(chǎn)生的大量數(shù)據(jù)從中挖掘出有用的數(shù)據(jù),應(yīng)用到各個(gè)領(lǐng)域有需要的地方以提高運(yùn)行效率。
6 結(jié)束語(yǔ)
大數(shù)據(jù)時(shí)代,能對(duì)智能交通信息資源進(jìn)行優(yōu)化配置,能夠改善傳統(tǒng)的交通問(wèn)題。對(duì)非機(jī)動(dòng)車(chē)主而言,利用大數(shù)據(jù)可以更好的規(guī)劃線路,更好的了解交通狀況,在一定程度上可以對(duì)問(wèn)題預(yù)先提出解決方案,起到節(jié)省大量時(shí)間、額外的開(kāi)支。同時(shí)對(duì)交管部門(mén)而言,能夠在限的警力情況下合理配置人員資源和交通設(shè)備,主干道路在高峰期出現(xiàn)的問(wèn)題能夠合理利用大數(shù)據(jù)信息配置資源,在刑事案件偵查中也能發(fā)揮更重要的作用。
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2016)05-0000-00
1數(shù)據(jù)挖掘與數(shù)據(jù)挖掘技術(shù)的方法分析
“數(shù)據(jù)海量、信息缺乏”是相當(dāng)多企業(yè)在數(shù)據(jù)大集中之后面臨的尷尬問(wèn)題,由此而誕生的數(shù)據(jù)挖掘技術(shù)其實(shí)就是用以處理這一尷尬問(wèn)題的技術(shù)。數(shù)據(jù)挖掘?qū)嶋H上是相對(duì)比較新型的一門(mén)學(xué)科,在幾十年的發(fā)展過(guò)程中,已經(jīng)不可同日而語(yǔ)。其實(shí)數(shù)據(jù)挖掘技術(shù)的本質(zhì)就是人工智能技術(shù),而數(shù)據(jù)挖掘技術(shù)的利用相對(duì)應(yīng)的就是指人工智能技術(shù)的開(kāi)發(fā)與應(yīng)用,也就是說(shuō)數(shù)據(jù)挖掘其實(shí)是依賴(lài)技術(shù)的提升來(lái)實(shí)現(xiàn)數(shù)據(jù)的整體創(chuàng)新的技術(shù),所以,整個(gè)數(shù)據(jù)挖掘技術(shù)實(shí)際上是非常具有信息價(jià)值的,它能夠幫助決策者更快的得到重要信息并作出決策,提高效率和準(zhǔn)確率,是非常重要的知識(shí)憑證,能夠在一定程度上提高當(dāng)下企業(yè)的整體競(jìng)爭(zhēng)力。
數(shù)據(jù)挖掘技術(shù)的核心就是分析,通過(guò)分析方法的不同來(lái)解決不同類(lèi)別的問(wèn)題,以實(shí)現(xiàn)數(shù)據(jù)挖掘的潛在內(nèi)容。簡(jiǎn)單來(lái)說(shuō)就是對(duì)癥下藥以保證藥到病除。
1.1聚類(lèi)分析法
簡(jiǎn)單來(lái)說(shuō)聚類(lèi)分析就是通過(guò)將數(shù)據(jù)對(duì)象進(jìn)行聚類(lèi)分組,然后形成板塊,將毫無(wú)邏輯的數(shù)據(jù)變成了有聯(lián)系性的分組數(shù)據(jù),然后從其中獲取具有一定價(jià)值的數(shù)據(jù)內(nèi)容進(jìn)行進(jìn)一步的利用。由于這種分析方法不能夠較好的就數(shù)據(jù)類(lèi)別、屬性進(jìn)行分類(lèi),所以聚類(lèi)分析法一般都運(yùn)用在心理學(xué)、統(tǒng)計(jì)學(xué)、數(shù)據(jù)識(shí)別等方面。
1.2人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)是通過(guò)大批量的數(shù)據(jù)進(jìn)行分析,而這種數(shù)據(jù)分析方式本身是建立在一定的數(shù)據(jù)模型基礎(chǔ)上的,因此通常都可以隨時(shí)根據(jù)數(shù)據(jù)需求進(jìn)行分類(lèi),所以人工神經(jīng)網(wǎng)絡(luò)也是當(dāng)下數(shù)據(jù)挖掘技術(shù)中最常用的一種數(shù)據(jù)分析方式之一。
1.3關(guān)聯(lián)性分析法
有時(shí)數(shù)據(jù)本身存在一定的隱蔽性使得很難通過(guò)普通的數(shù)據(jù)分析法進(jìn)行數(shù)據(jù)挖掘和利用,這就需要通過(guò)關(guān)聯(lián)性分析法完成對(duì)于數(shù)據(jù)信息的關(guān)聯(lián)性識(shí)別,來(lái)幫助人力完成對(duì)于數(shù)據(jù)分辨的任務(wù),這種數(shù)據(jù)分析方法通常是帶著某種目的性進(jìn)行的,因此比較適用于對(duì)數(shù)據(jù)精準(zhǔn)度相對(duì)較高的信息管理工作。
1.4特征性數(shù)據(jù)分析法
網(wǎng)絡(luò)數(shù)據(jù)隨著信息時(shí)代的到來(lái)變成了數(shù)據(jù)爆炸式,其數(shù)據(jù)資源十分廣泛并且得到了一定的普及,如何就網(wǎng)絡(luò)爆炸式數(shù)據(jù)進(jìn)行關(guān)于特性的分類(lèi)就成為了當(dāng)下數(shù)據(jù)整理分類(lèi)的主要內(nèi)容。在上文中提到的人工神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)分析也屬于這其中的一種,此外還有很多方法都是通過(guò)計(jì)算機(jī)來(lái)進(jìn)行虛擬數(shù)據(jù)的分類(lèi),尋找數(shù)據(jù)之間存在的普遍規(guī)律性完成數(shù)據(jù)的特性分析從而進(jìn)行進(jìn)一步分類(lèi)。
2大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)的具體應(yīng)用
數(shù)據(jù)挖掘技術(shù)的具體流程就是先通過(guò)對(duì)于海量數(shù)據(jù)的保存,然后就已有數(shù)據(jù)中進(jìn)行分析、整理、選擇、轉(zhuǎn)換等,數(shù)據(jù)的準(zhǔn)備工作是數(shù)據(jù)挖掘技術(shù)的前提,也是決定數(shù)據(jù)挖掘技術(shù)效率及質(zhì)量的主要因素。在完成數(shù)據(jù)準(zhǔn)備工作后進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行挖掘,然后對(duì)數(shù)據(jù)進(jìn)行評(píng)估,最后實(shí)現(xiàn)運(yùn)用。因此,數(shù)據(jù)挖掘能夠運(yùn)用到很多方面。
2.1市場(chǎng)營(yíng)銷(xiāo)領(lǐng)域
市場(chǎng)營(yíng)銷(xiāo)其實(shí)就是數(shù)據(jù)挖掘技術(shù)最早運(yùn)用的領(lǐng)域,通常根據(jù)客戶(hù)的具體需求,進(jìn)行客戶(hù)分析,將不同的消費(fèi)習(xí)慣和消費(fèi)特點(diǎn)的客戶(hù)進(jìn)行簡(jiǎn)單的分類(lèi)管理,以此來(lái)保證商品能夠順利銷(xiāo)售,并提高個(gè)人銷(xiāo)售的成功率和業(yè)績(jī)。而銷(xiāo)售的范圍也從最初的超市購(gòu)物擴(kuò)展到了包括保險(xiǎn)、銀行、電信等各個(gè)方面。
2.2科學(xué)研究領(lǐng)域
科學(xué)研究與實(shí)驗(yàn)測(cè)試等都需要對(duì)數(shù)據(jù)進(jìn)行關(guān)系分析為進(jìn)一步的實(shí)驗(yàn)和總結(jié)失敗做準(zhǔn)備,而實(shí)驗(yàn)測(cè)試和科學(xué)研究產(chǎn)生的數(shù)據(jù)往往是巨大的,因此數(shù)據(jù)挖掘技術(shù)在科學(xué)研究領(lǐng)域也得以廣泛運(yùn)用。通常都是通過(guò)科學(xué)研究?jī)?nèi)容選擇數(shù)據(jù)挖掘技術(shù)分析法進(jìn)行計(jì)算來(lái)找到數(shù)據(jù)中存在的規(guī)律,實(shí)現(xiàn)數(shù)據(jù)挖掘的部分價(jià)值――科學(xué)知識(shí)的分析與運(yùn)用。
2.3電信業(yè)領(lǐng)域
隨著信息化時(shí)代的到來(lái),電信產(chǎn)業(yè)也飛速發(fā)展起來(lái),到目前為止,電信產(chǎn)業(yè)已經(jīng)形成了一個(gè)巨大的網(wǎng)絡(luò)信息載體,如何將其中信息數(shù)據(jù)進(jìn)行整合就成為電信產(chǎn)業(yè)發(fā)展過(guò)程中的重要問(wèn)題。而數(shù)據(jù)挖掘技術(shù)的運(yùn)用則在一定程度上解決了這一問(wèn)題,大量的數(shù)據(jù)通過(guò)數(shù)據(jù)挖掘技術(shù)得到了有效分類(lèi),并在這個(gè)過(guò)程中通過(guò)運(yùn)算得出數(shù)據(jù)之間的關(guān)聯(lián)性,運(yùn)用規(guī)律進(jìn)一步進(jìn)行數(shù)據(jù)分類(lèi)。
2.4教育教學(xué)領(lǐng)域
教學(xué)評(píng)價(jià)、教學(xué)資源、學(xué)生個(gè)人基本信息等組成了教育教學(xué)領(lǐng)域的數(shù)據(jù)庫(kù),利用數(shù)據(jù)挖掘技術(shù)來(lái)實(shí)現(xiàn)教學(xué)資源的優(yōu)化配置,對(duì)學(xué)生的個(gè)人信息整理歸檔,從而保證教育教學(xué)領(lǐng)域中數(shù)據(jù)整理的良好運(yùn)作。
3結(jié)語(yǔ)
綜上所述,數(shù)據(jù)挖掘技術(shù)對(duì)于當(dāng)今社會(huì)的發(fā)展有著不可替代的作用,而如何改善當(dāng)下數(shù)據(jù)挖掘技術(shù)中存在的問(wèn)題,進(jìn)一步提高數(shù)據(jù)挖掘技術(shù)的質(zhì)量和效率就成為了數(shù)據(jù)挖掘技術(shù)進(jìn)步的方向。本文通過(guò)對(duì)于數(shù)據(jù)挖掘與數(shù)據(jù)挖掘技術(shù)的方法分析和大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)的具體應(yīng)用兩個(gè)方面對(duì)于數(shù)據(jù)挖掘技術(shù)進(jìn)行了簡(jiǎn)要的闡述和分析,相信在未來(lái)伴隨著科學(xué)技術(shù)的進(jìn)一步發(fā)展,數(shù)據(jù)挖掘技術(shù)也將更加強(qiáng)大。
參考文獻(xiàn)
TM61;TP311.13
汽數(shù)字化、互聯(lián)網(wǎng)化、大數(shù)據(jù)應(yīng)用、人工智能,將對(duì)汽車(chē)業(yè)及相關(guān)的長(zhǎng)長(zhǎng)的產(chǎn)業(yè)鏈產(chǎn)生難以想象的巨大變化和產(chǎn)業(yè)革命。車(chē)聯(lián)網(wǎng)是由車(chē)輛位置、速度等總線參數(shù)與周邊系統(tǒng)信息互聯(lián)而構(gòu)成的巨大交互網(wǎng)絡(luò)。車(chē)輛完成自身環(huán)境和狀態(tài)信息的采集后,籍由互聯(lián)網(wǎng)技術(shù),將自身的各種信息傳輸匯聚到TSP后臺(tái)。僅依賴(lài)數(shù)目有限的人力與傳統(tǒng)的統(tǒng)計(jì)方式方法難以對(duì)這樣海量、實(shí)時(shí)而價(jià)值密度低的車(chē)輛信息進(jìn)行分析和處理,只有借助大數(shù)據(jù)技術(shù),才能實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的監(jiān)控與挖掘。車(chē)聯(lián)網(wǎng)項(xiàng)目已經(jīng)為我們解決了海量數(shù)據(jù)的產(chǎn)生、收集與發(fā)送的重要問(wèn)題,但我們還需要一個(gè)高效方便的系統(tǒng)解決回傳到后臺(tái)的數(shù)據(jù)解析、重構(gòu)、存儲(chǔ)與計(jì)算等系列問(wèn)題。
一個(gè)兼有柔性化和模塊化的大數(shù)據(jù)平臺(tái)正是在這樣的背景下被設(shè)計(jì)并搭建起來(lái)。基于該平臺(tái)開(kāi)發(fā)的新能源車(chē)數(shù)據(jù)管理系統(tǒng)經(jīng)過(guò)近1年的測(cè)試與使用,已經(jīng)證明能有效處理TSP后臺(tái)的新能源車(chē)數(shù)據(jù),并多次為專(zhuān)業(yè)部門(mén)提供相應(yīng)的離線數(shù)據(jù)挖掘服務(wù)。目前正在開(kāi)發(fā)的XH3項(xiàng)目試制試驗(yàn)車(chē)數(shù)據(jù)監(jiān)控系統(tǒng)亦是在該平臺(tái)上進(jìn)行設(shè)計(jì)。
一、技術(shù)研發(fā)重點(diǎn)問(wèn)題與解決方案
大數(shù)據(jù)技術(shù)平臺(tái)研發(fā)與搭建攻克了以下技術(shù)難題:
1.大數(shù)據(jù)平臺(tái)的技術(shù)框架設(shè)計(jì)
大部分情況下,企業(yè)開(kāi)發(fā)的大型數(shù)據(jù)庫(kù)系統(tǒng)層級(jí)的軟件應(yīng)用均委托供應(yīng)商并購(gòu)買(mǎi)制定的商業(yè)數(shù)據(jù)庫(kù)軟件進(jìn)行。數(shù)據(jù)流動(dòng)的不確定性、系統(tǒng)運(yùn)維的技術(shù)壁壘、機(jī)密數(shù)據(jù)及模型的潛在泄露風(fēng)險(xiǎn),使得運(yùn)用商業(yè)數(shù)據(jù)庫(kù)平臺(tái)存在一定的信息安全與數(shù)據(jù)資產(chǎn)風(fēng)險(xiǎn)。
為此,我們借鑒IT領(lǐng)域大數(shù)據(jù)的應(yīng)用研究成果,使用開(kāi)源的Hadoop生態(tài)圈軟件,根據(jù)專(zhuān)業(yè)部門(mén)的使用需求與數(shù)據(jù)利用習(xí)慣及場(chǎng)景,基于開(kāi)源的Hadoop2.0生態(tài)圈軟件,構(gòu)筑了一個(gè)兼有柔性化和模塊化的大數(shù)據(jù)平臺(tái),并由大數(shù)據(jù)團(tuán)隊(duì)自主源代碼開(kāi)發(fā)實(shí)現(xiàn)了所有數(shù)據(jù)接口。該平臺(tái)可根據(jù)業(yè)務(wù)量的增長(zhǎng)與變更靈活的切換分析工具和底層擴(kuò)容。如下圖1所示:
2.離線地圖與車(chē)聯(lián)網(wǎng)參數(shù)疊加技術(shù)
相比車(chē)聯(lián)網(wǎng)回傳數(shù)據(jù)里面若帶有地理坐標(biāo),則可以與地圖大數(shù)據(jù)技術(shù)結(jié)合起來(lái),通過(guò)把性能參數(shù)或分析結(jié)果在地圖底圖上顯示出來(lái)。實(shí)現(xiàn)車(chē)、人、物等物聯(lián)網(wǎng)參數(shù)在地圖層上的統(tǒng)一。要實(shí)現(xiàn)該功能,我們需要獲得地圖數(shù)據(jù)源、地理數(shù)據(jù)疊加工具和地圖交互功能技術(shù)支持。
針對(duì)地圖數(shù)據(jù)源問(wèn)題,考慮到公司內(nèi)部大部分員工無(wú)法直接使用外網(wǎng),所有簡(jiǎn)易的地圖源如百度、高德等地圖api無(wú)法引入,我們只好使用爬蟲(chóng)技術(shù),在內(nèi)網(wǎng)部署了一臺(tái)地圖服務(wù)器,對(duì)客戶(hù)的地圖數(shù)據(jù)需求進(jìn)行實(shí)時(shí)網(wǎng)絡(luò)抓取。然而,由于地圖源為自定義形式,需要把實(shí)際坐標(biāo)參數(shù)按照國(guó)內(nèi)地理坐標(biāo)偏移標(biāo)準(zhǔn)進(jìn)行一定技術(shù)上的處理。
解決地圖源問(wèn)題后我們引入了openlayers技術(shù)。它是一個(gè)用于開(kāi)發(fā)WebGIS客戶(hù)端的JavaScript包。OpenLayers 支持用戶(hù)自定義地圖作為背景圖,與其他的參數(shù)圖層進(jìn)行疊加,并可以通過(guò)遠(yuǎn)程服務(wù)的方式,將地圖數(shù)據(jù)加載到基于瀏覽器的OpenLayers 客戶(hù)端中進(jìn)行顯示。除可以在瀏覽器中幫助開(kāi)發(fā)者實(shí)現(xiàn)地圖瀏覽的基本效果,比如放大(Zoom In)、縮?。╖oom Out)平移(Pan)等常用操作之外,還可以進(jìn)行選取面、選取線、要素選擇、圖層疊加等不同的交互操作。如下圖2所示:
二、大數(shù)據(jù)技術(shù)平臺(tái)在新能源車(chē)數(shù)據(jù)挖掘上的應(yīng)用
為更好的對(duì)新能源車(chē)回傳數(shù)據(jù)的進(jìn)行分析與挖掘,我們基于大數(shù)據(jù)技術(shù)平臺(tái)開(kāi)發(fā)了某企業(yè)的新能源車(chē)數(shù)據(jù)管理系統(tǒng)。根據(jù)應(yīng)用場(chǎng)景,分為在線分析與離線分析兩大功能。
1.在線分析功能應(yīng)用
在線分析功能主要指系統(tǒng)上通過(guò)瀏覽器直接可以操作的熱數(shù)據(jù)分析功能,新能源車(chē)數(shù)據(jù)管理系統(tǒng)包括信息查詢(xún)、故障查詢(xún)、軌跡回放、油耗統(tǒng)計(jì)、電池系統(tǒng)管理、廣州市充電樁信息集成等六大模塊。在線分析功能主要用于協(xié)助工程師對(duì)指定vin碼車(chē)輛進(jìn)行全方位的歷史參數(shù)檢索、特定參數(shù)功能統(tǒng)計(jì),在故障診斷、系統(tǒng)監(jiān)控、軌跡回顧上發(fā)揮重要作用。如圖3所示:
2.離線數(shù)據(jù)分析功能應(yīng)用
離線分析功能主要指用戶(hù)以分析委托方式對(duì)感興趣的分析方案,在指定數(shù)據(jù)范圍內(nèi),按一定模型需求進(jìn)行分析計(jì)算。截至目前,系統(tǒng)錄入ag新能源車(chē)數(shù)量超過(guò)2500臺(tái),日均在線車(chē)輛超過(guò)1000臺(tái),存儲(chǔ)數(shù)據(jù)量過(guò)1T??梢灾С秩缬脩?hù)習(xí)慣、零部件或整車(chē)工況提取等需要大樣本的分析計(jì)算。已為新能源、NVH、試驗(yàn)等部門(mén)級(jí)或新能源車(chē)主提供過(guò)分析服務(wù)。乘用車(chē)、集團(tuán)也多次利用該系統(tǒng)對(duì)新能源車(chē)的在線管控與跟蹤。如圖4所示:
三、主要科技創(chuàng)新點(diǎn)或改進(jìn)點(diǎn)說(shuō)明
在大數(shù)據(jù)技術(shù)平臺(tái)搭建與某企業(yè)的新能源車(chē)大數(shù)據(jù)管理系統(tǒng)研發(fā)過(guò)程中,通過(guò)解決以下幾個(gè)重要技術(shù)關(guān)口,完成了以下創(chuàng)新性工作:
(1)在系統(tǒng)開(kāi)發(fā)中形成了一個(gè)全自主知識(shí)產(chǎn)權(quán)的大數(shù)據(jù)技術(shù)平臺(tái)架構(gòu),實(shí)現(xiàn)數(shù)據(jù)在該平臺(tái)中的透明流動(dòng)。
(2)摸索了應(yīng)用開(kāi)源IT技術(shù)服務(wù)研發(fā)的方法,為后續(xù)同步引進(jìn)先進(jìn)IT技術(shù)打下堅(jiān)實(shí)基礎(chǔ);
(3)為整車(chē)研發(fā)提供了一個(gè)便利的大數(shù)據(jù)工具,促進(jìn)了大數(shù)據(jù)與整車(chē)研發(fā)相結(jié)合,為后續(xù)大數(shù)據(jù)項(xiàng)目在某企業(yè)的落地起到良好示范作用。
參考文獻(xiàn):
[1]諸彤宇;王家川;陳智宏;車(chē)聯(lián)網(wǎng)技術(shù)初探[J];公路交通科技(應(yīng)用技術(shù)版);2011年05[2]
[2]崔建明;BOA技術(shù)在車(chē)輛感知網(wǎng)絡(luò)中的應(yīng)用研究[J];電子設(shè)計(jì)工程;2012年13期
中圖分類(lèi)號(hào): TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào)1672-3791(2016)07(b)-0000-00
通過(guò)對(duì)電力系統(tǒng)動(dòng)態(tài)性和實(shí)時(shí)性監(jiān)測(cè)可以掌握大量的實(shí)時(shí)數(shù)據(jù),它是電力系統(tǒng)動(dòng)態(tài)運(yùn)行的具體體現(xiàn),但這也嚴(yán)重制約了電力系統(tǒng)的長(zhǎng)期發(fā)展?,F(xiàn)代電力運(yùn)營(yíng)監(jiān)測(cè)員應(yīng)充分利用電力運(yùn)營(yíng)監(jiān)測(cè)平臺(tái),提升系統(tǒng)數(shù)據(jù)利用率,建立以供電部門(mén)基礎(chǔ)數(shù)據(jù)處理,做好各項(xiàng)數(shù)據(jù)的銜接、處理,協(xié)同各部門(mén)協(xié)同問(wèn)題,促進(jìn)國(guó)家電網(wǎng)數(shù)據(jù)系統(tǒng)的高效運(yùn)轉(zhuǎn)。
1大數(shù)據(jù)時(shí)代相關(guān)內(nèi)容概述
1.1大數(shù)據(jù)時(shí)代整體發(fā)展形勢(shì)
從我國(guó)互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,各行業(yè)企業(yè)在大數(shù)據(jù)時(shí)代中均積累了大量的經(jīng)營(yíng)數(shù)據(jù),它決定了企業(yè)的長(zhǎng)期健康發(fā)展。為了更好的完成我國(guó)電力企業(yè)在大數(shù)據(jù)時(shí)代下的發(fā)展任務(wù),本文筆者主要從以下四方面進(jìn)行了大數(shù)據(jù)時(shí)展形勢(shì)加以概括,進(jìn)一步實(shí)現(xiàn)對(duì)電力企業(yè)數(shù)據(jù)共享,實(shí)現(xiàn)多種資源的優(yōu)化整合:
一,促進(jìn)電力各部門(mén)數(shù)據(jù)的優(yōu)化整合與共享,提升企業(yè)各種資源的整體利用率;二,加快電力數(shù)據(jù)資源開(kāi)放力度,擴(kuò)大資源利用面;三,進(jìn)行大數(shù)據(jù)基礎(chǔ)設(shè)施的統(tǒng)籌規(guī)劃,提升數(shù)據(jù)資源利用的合理性;四,構(gòu)建科學(xué)的宏觀調(diào)控?cái)?shù)據(jù)體系,進(jìn)一步實(shí)現(xiàn)電力運(yùn)營(yíng)監(jiān)控的宏觀調(diào)控。
1.2充分發(fā)揮大數(shù)據(jù)平臺(tái)業(yè)務(wù)優(yōu)勢(shì),進(jìn)行管理短板定位
綜合考量電力運(yùn)營(yíng)業(yè)務(wù)流程績(jī)效指標(biāo),對(duì)業(yè)務(wù)流程整體執(zhí)行效率進(jìn)行綜合評(píng)價(jià);進(jìn)行執(zhí)行效率較低業(yè)務(wù)流程環(huán)節(jié)的準(zhǔn)確定位,全面分析業(yè)務(wù)流程設(shè)計(jì)的科學(xué)性與合理性,并提出綜合性流程改進(jìn)建議;我們應(yīng)當(dāng)在整體業(yè)務(wù)流程績(jī)效指標(biāo)和詳細(xì)數(shù)據(jù)的基礎(chǔ)上,作出有關(guān)于業(yè)務(wù)流程制度、崗位績(jī)效、職責(zé)及標(biāo)準(zhǔn)的整體改進(jìn)意見(jiàn)和建議;提升各部門(mén)、不同業(yè)務(wù)之間的協(xié)同性,進(jìn)行管理短板的準(zhǔn)確定位。
1.3加強(qiáng)數(shù)據(jù)資源安全保障
數(shù)據(jù)資源的有效利用離不開(kāi)數(shù)據(jù)體系的健全和完善,它是加強(qiáng)大數(shù)據(jù)環(huán)境網(wǎng)絡(luò)技術(shù)研究和安全的關(guān)鍵,只有構(gòu)建大數(shù)據(jù)時(shí)代下的電力運(yùn)營(yíng)監(jiān)測(cè)安全評(píng)估體系,才能夠使企業(yè)在大數(shù)據(jù)安全基礎(chǔ)上,提升電力運(yùn)營(yíng)監(jiān)測(cè)和預(yù)警工作質(zhì)量,提升電力企業(yè)服務(wù)水平。
2做好大數(shù)據(jù)時(shí)代電力運(yùn)營(yíng)監(jiān)測(cè)系統(tǒng)數(shù)據(jù)處理
2.1監(jiān)測(cè)數(shù)據(jù)類(lèi)型
電力運(yùn)營(yíng)監(jiān)測(cè)數(shù)據(jù)類(lèi)型主要分為基礎(chǔ)型數(shù)據(jù)、電力企業(yè)運(yùn)營(yíng)數(shù)據(jù)以及電力企業(yè)管理數(shù)據(jù)幾種,基礎(chǔ)型數(shù)據(jù)是以電力企業(yè)生產(chǎn)數(shù)據(jù)為主,它包含了電壓穩(wěn)定性、發(fā)電量、電能質(zhì)量等,業(yè)務(wù)部門(mén)和業(yè)務(wù)系統(tǒng)要確?;A(chǔ)數(shù)據(jù)的完整性和準(zhǔn)確性;電力企業(yè)運(yùn)營(yíng)數(shù)據(jù)指的是電力企業(yè)在生產(chǎn)過(guò)程中所產(chǎn)生的數(shù)據(jù),通過(guò)對(duì)上述數(shù)據(jù)進(jìn)行分析、處理,它能夠?yàn)楣菊w運(yùn)營(yíng)決策指明方向。電力企業(yè)管理數(shù)據(jù)僅限于特定環(huán)境下的共享和使用,它主要指協(xié)同辦公、ERP及一體化平臺(tái)等方面數(shù)據(jù),做好該方面數(shù)據(jù)分析、處理有利于推進(jìn)各部門(mén)工作的開(kāi)展。
2.2監(jiān)測(cè)移動(dòng)數(shù)據(jù)處理
針對(duì)運(yùn)營(yíng)監(jiān)測(cè)信息支撐系統(tǒng)來(lái)講,異動(dòng)產(chǎn)生、處理、統(tǒng)計(jì)是異動(dòng)管理的主要內(nèi)容,異動(dòng)類(lèi)型又可分為數(shù)據(jù)質(zhì)量異動(dòng)、接口異動(dòng)和數(shù)據(jù)質(zhì)量異動(dòng)三種,業(yè)務(wù)異動(dòng)就是通過(guò)業(yè)務(wù)數(shù)據(jù)分析出生產(chǎn)運(yùn)營(yíng)情況,業(yè)務(wù)異動(dòng)又可詳細(xì)劃分為指標(biāo)異動(dòng)、流程異動(dòng)和明細(xì)數(shù)據(jù)異動(dòng);而數(shù)據(jù)質(zhì)量異動(dòng)就是要分析出接入數(shù)據(jù)的準(zhǔn)確性、完整性和及時(shí)性,并作出相關(guān)異動(dòng)數(shù)據(jù)信息分析、處理。接口異動(dòng)就是因接口問(wèn)題產(chǎn)生的異動(dòng)情況。
3.大數(shù)據(jù)時(shí)代下電力運(yùn)營(yíng)監(jiān)控?cái)?shù)據(jù)應(yīng)用
3.1電力生產(chǎn)環(huán)節(jié)中大數(shù)據(jù)的具體應(yīng)用
由于電力系統(tǒng)管理項(xiàng)目眾多,想要單純依靠人力來(lái)完成數(shù)據(jù)的分析和整體難度極大,只有充分利用現(xiàn)代化信息技術(shù)手段和多種業(yè)務(wù)模型才能夠不斷提升輸電線路可靠性和在線計(jì)算輸送功率,更好的完成電力生產(chǎn)相關(guān)技術(shù)指標(biāo),促進(jìn)電壓質(zhì)量管理工作的發(fā)展。常態(tài)化低電壓監(jiān)測(cè)有利于實(shí)現(xiàn)用戶(hù)和低電壓電臺(tái)之間的協(xié)同合作,實(shí)現(xiàn)對(duì)低電壓運(yùn)行情況的跟蹤治理。因此,電力系統(tǒng)相關(guān)部門(mén)應(yīng)在大數(shù)據(jù)環(huán)境下,按期做好停復(fù)電監(jiān)測(cè)和電壓質(zhì)量分析報(bào)告。
3.2大數(shù)據(jù)在電力系統(tǒng)營(yíng)銷(xiāo)中的具體應(yīng)用
遠(yuǎn)程視頻技術(shù)應(yīng)用能夠幫助電力運(yùn)營(yíng)工作人員進(jìn)行相關(guān)業(yè)務(wù)的巡查,是運(yùn)營(yíng)監(jiān)測(cè)中心針對(duì)高壓電力作業(yè)實(shí)施的重要舉措。通過(guò)遠(yuǎn)程視頻技術(shù)的幫助能夠極大的縮短營(yíng)業(yè)窗口情況的巡視,進(jìn)一步提升電力營(yíng)業(yè)窗口整體服務(wù)質(zhì)量,降低用戶(hù)投訴率,提升電力用戶(hù)的滿(mǎn)意度。積極開(kāi)展工業(yè)電量預(yù)測(cè),更好的滿(mǎn)足用電需求管理,促進(jìn)用電系統(tǒng)稽查監(jiān)控業(yè)務(wù),更好的挖掘線損治理工作成效挖掘及典型案例提煉。
3.3大數(shù)據(jù)在電力檢修中的具體應(yīng)用
電力系統(tǒng)運(yùn)營(yíng)中心通過(guò)大數(shù)據(jù)運(yùn)營(yíng)監(jiān)控平臺(tái)的利用,充分實(shí)現(xiàn)了對(duì)電網(wǎng)設(shè)備運(yùn)維、資產(chǎn)壽命周期以及資金收支等情況,并將其上報(bào)于上級(jí)在線監(jiān)測(cè)分析系統(tǒng)中,保證電網(wǎng)系統(tǒng)的正常穩(wěn)定運(yùn)行,進(jìn)一步完成電網(wǎng)設(shè)備運(yùn)維績(jī)效分析。我們應(yīng)當(dāng)綜合利用大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘手段,做好電網(wǎng)生產(chǎn)運(yùn)營(yíng)過(guò)程中的操作票、工作票及缺陷記錄等相關(guān)明細(xì)的分析和靜態(tài)數(shù)據(jù)流程匹配工作,做好配電網(wǎng)絡(luò)設(shè)備的日常巡視、檢修處理等工作,促進(jìn)各部門(mén)之間的協(xié)同,提升電網(wǎng)運(yùn)維管理工作發(fā)展,盡早發(fā)現(xiàn)電網(wǎng)運(yùn)營(yíng)過(guò)程中存在的不足,全面掌握巡視、檢修、缺陷發(fā)現(xiàn)等流程績(jī)效分析,做好各環(huán)節(jié)定量診斷調(diào)度和檢修,進(jìn)一步實(shí)現(xiàn)電網(wǎng)系統(tǒng)的縱向貫通和橫向協(xié)同,不斷提升我國(guó)電網(wǎng)運(yùn)維管理水平。據(jù)相關(guān)數(shù)據(jù)統(tǒng)計(jì),我國(guó)大數(shù)據(jù)時(shí)代下電力運(yùn)營(yíng)監(jiān)控線路消缺原因、消缺時(shí)長(zhǎng)如下圖1所示:
4結(jié)束語(yǔ)
經(jīng)上述分析,我們可以了解到數(shù)據(jù)信息維護(hù)、處理對(duì)于電力自動(dòng)化系統(tǒng)運(yùn)用意義重大,只有充分利用大數(shù)據(jù)時(shí)代所帶來(lái)的數(shù)據(jù)分析、處理、應(yīng)用方面的優(yōu)勢(shì),做好不同數(shù)據(jù)類(lèi)型的準(zhǔn)備工作,進(jìn)行電力自動(dòng)化系統(tǒng)數(shù)據(jù)準(zhǔn)確性、快速性整合,采用科學(xué)合理的策略指導(dǎo),促進(jìn)大數(shù)據(jù)時(shí)代電力系統(tǒng)數(shù)據(jù)的長(zhǎng)期可持續(xù)發(fā)展。
參考文獻(xiàn)