首頁(yè) > 優(yōu)秀范文 > 數(shù)據(jù)挖掘技術(shù)論文
時(shí)間:2023-03-22 17:47:33
序論:速發(fā)表網(wǎng)結(jié)合其深厚的文秘經(jīng)驗(yàn),特別為您篩選了11篇數(shù)據(jù)挖掘技術(shù)論文范文。如果您需要更多原創(chuàng)資料,歡迎隨時(shí)與我們的客服老師聯(lián)系,希望您能從中汲取靈感和知識(shí)!
隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫(kù)的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無(wú)法辨別隱藏在其中的能對(duì)決策提供支持的信息,而傳統(tǒng)的查詢、報(bào)表工具無(wú)法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價(jià)值的潛在知識(shí),數(shù)據(jù)挖掘(DataMining)技術(shù)由此應(yīng)運(yùn)而生。
一、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過(guò)程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來(lái)可能發(fā)生的行為。數(shù)據(jù)挖掘的過(guò)程也叫知識(shí)發(fā)現(xiàn)的過(guò)程。
二、數(shù)據(jù)挖掘的方法
1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問(wèn)題,回歸分析用來(lái)找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來(lái)描述一個(gè)變量的變化趨勢(shì)和別的變量值的關(guān)系的線性回歸,還有用來(lái)為某些事件發(fā)生的概率建模為預(yù)測(cè)變量集的對(duì)數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線的性能和自變量對(duì)最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。
2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡(jiǎn)單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無(wú)遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過(guò)關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對(duì)這些規(guī)則要進(jìn)行有效的評(píng)價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。
3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià),此外,聚類分析還用于對(duì)孤立點(diǎn)的檢測(cè)。并非由聚類分析算法得到的類對(duì)決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對(duì)數(shù)據(jù)的聚類趨勢(shì)進(jìn)行檢驗(yàn)。
4.決策樹方法。決策樹學(xué)習(xí)是一種通過(guò)逼近離散值目標(biāo)函數(shù)的方法,通過(guò)把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來(lái)分類實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類。樹上的每個(gè)結(jié)點(diǎn)說(shuō)明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試,該結(jié)點(diǎn)的每一個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值,分類實(shí)例的方法是從這棵樹的根結(jié)點(diǎn)開始,測(cè)試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹枝向下移動(dòng)。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。
5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對(duì)人腦或其他計(jì)算機(jī)來(lái)說(shuō)極為復(fù)雜的模式抽取及趨勢(shì)分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無(wú)指導(dǎo)聚類,無(wú)論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。
6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過(guò)變異和重組當(dāng)前己知的最好假設(shè)來(lái)生成后續(xù)的假設(shè)。每一步,通過(guò)使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分,來(lái)更新當(dāng)前群體的一組假設(shè),來(lái)實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過(guò)程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過(guò)程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過(guò)程;變異(突變)是對(duì)某些個(gè)體的某些基因進(jìn)行變異的過(guò)程。在數(shù)據(jù)挖掘中,可以被用作評(píng)估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問(wèn)題。粗糙集用于從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫(kù)中的屬性分為條件屬性和結(jié)論屬性,對(duì)數(shù)據(jù)庫(kù)中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對(duì)條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對(duì)象的集合稱為初等集合,形成知識(shí)的基本成分。任何初等集合的并集稱為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。
8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來(lái)的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過(guò)學(xué)習(xí)問(wèn)題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個(gè)凸優(yōu)化問(wèn)題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對(duì)未知事物的探索等方面。
事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問(wèn)題來(lái)選擇合適挖掘方法,很難說(shuō)哪種方法好,那種方法劣,而是視具體問(wèn)題而定。
三、結(jié)束語(yǔ)
根據(jù)波特的影響企業(yè)的利益相關(guān)者理論,企業(yè)有五個(gè)利益相關(guān)者,分別是客戶、競(jìng)爭(zhēng)對(duì)手、供應(yīng)商、分銷商和政府等其他利益相關(guān)者。其中,最重要的利益相關(guān)者就是客戶?,F(xiàn)代企業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)不僅體現(xiàn)在產(chǎn)品上,還體現(xiàn)在市場(chǎng)上,誰(shuí)能獲得更大的市場(chǎng)份額,誰(shuí)就能在競(jìng)爭(zhēng)中占據(jù)優(yōu)勢(shì)和主動(dòng)。而對(duì)市場(chǎng)份額的爭(zhēng)奪實(shí)質(zhì)上是對(duì)客戶的爭(zhēng)奪,因此,企業(yè)必須完成從“產(chǎn)品”導(dǎo)向向“客戶”導(dǎo)向的轉(zhuǎn)變,對(duì)企業(yè)與客戶發(fā)生的各種關(guān)系進(jìn)行管理。進(jìn)行有效的客戶關(guān)系管理,就要通過(guò)有效的途徑,從儲(chǔ)存大量客戶信息的數(shù)據(jù)倉(cāng)庫(kù)中經(jīng)過(guò)深層分析,獲得有利于商業(yè)運(yùn)作,提高企業(yè)市場(chǎng)競(jìng)爭(zhēng)力的有效信息。而實(shí)現(xiàn)這些有效性的關(guān)鍵技術(shù)支持就是數(shù)據(jù)挖掘,即從海量數(shù)據(jù)中挖掘出更有價(jià)值的潛在信息。正是有了數(shù)據(jù)挖掘技術(shù)的支持,才使得客戶關(guān)系管理的理念和目標(biāo)得以實(shí)現(xiàn),滿足現(xiàn)代電子商務(wù)時(shí)代的需求和挑戰(zhàn)。
一、客戶關(guān)系管理(CRM)
CRM是一種旨在改善企業(yè)與客戶之間關(guān)系的新型管理方法。它是企業(yè)通過(guò)富有意義的交流和溝通,理解并影響客戶行為,最終實(shí)現(xiàn)提高客戶獲取、客戶保留、客戶忠誠(chéng)和客戶創(chuàng)利的目的。它包括的主要內(nèi)容有客戶識(shí)別、客戶關(guān)系的建立、客戶保持、客戶流失控制和客戶挽留。通過(guò)客戶關(guān)系管理能夠提高企業(yè)銷售收入,改善企業(yè)的服務(wù),提高客戶滿意度,同時(shí)能提高員工的生產(chǎn)能力。
二、數(shù)據(jù)挖掘(DM)
數(shù)據(jù)挖掘(DataMining,簡(jiǎn)稱DM),簡(jiǎn)單的講就是從大量數(shù)據(jù)中挖掘或抽取出知識(shí)。數(shù)據(jù)挖掘概念的定義描述有若干版本。一個(gè)通用的定義是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取人們感興趣的知識(shí),這些知識(shí)是隱諱的、事先未知的、潛在有用的信息。
常用的數(shù)據(jù)挖掘方法有:(1)關(guān)聯(lián)分析。即從給定的數(shù)據(jù)集中發(fā)現(xiàn)頻繁出現(xiàn)的項(xiàng)集模式知識(shí)。例如,某商場(chǎng)通過(guò)關(guān)聯(lián)分析,可以找出若干個(gè)客戶在本商場(chǎng)購(gòu)買商品時(shí),哪些商品被購(gòu)置率較高,進(jìn)而可以發(fā)現(xiàn)數(shù)據(jù)庫(kù)中不同商品的聯(lián)系,進(jìn)而反映客戶的購(gòu)買習(xí)慣。(2)序列模式分析。它與關(guān)聯(lián)分析相似,其目的也是為了控制挖掘出的數(shù)據(jù)間的聯(lián)系。但序列模式分析的側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后(因果)關(guān)系。例如,可以通過(guò)分析客戶在購(gòu)買A商品后,必定(或大部分情況下)隨著購(gòu)買B商品,來(lái)發(fā)現(xiàn)客戶潛在的購(gòu)買模式。(3)分類分析。是找出一組能夠描述數(shù)據(jù)集合典型特征的模型,以便能夠分類識(shí)別未知數(shù)據(jù)的歸屬或類別。例如,銀行可以根據(jù)客戶的債務(wù)水平、收入水平和工作情況,可對(duì)給定用戶進(jìn)行信用風(fēng)險(xiǎn)分析。(4)聚類分析。是從給定的數(shù)據(jù)集中搜索數(shù)據(jù)對(duì)象之間所存在的有價(jià)值聯(lián)系。在商業(yè)上,聚類可以通過(guò)顧客數(shù)據(jù)將顧客信息分組,并對(duì)顧客的購(gòu)買模式進(jìn)行描述,找出他們的特征,制定針對(duì)性的營(yíng)銷方案。(5)孤立點(diǎn)分析。孤立點(diǎn)是數(shù)據(jù)庫(kù)中與數(shù)據(jù)的一般模式不一致的數(shù)據(jù)對(duì)象,它可能是收集數(shù)據(jù)的設(shè)備出現(xiàn)故障、人為輸入時(shí)的輸入錯(cuò)誤等。孤立點(diǎn)分析就是專門挖掘這些特殊信息的方法。例如,銀行可以利用孤立點(diǎn)分析發(fā)現(xiàn)信用卡詐騙,電信部門可以利用孤立點(diǎn)分析發(fā)現(xiàn)電話盜用等。
三、數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用
1.進(jìn)行客戶分類
客戶分類是將大量的客戶分成不同的類別,在每一類別里的客戶具有相似的屬性,而不同類別里的客戶的屬性不同。數(shù)據(jù)挖掘可以幫助企業(yè)進(jìn)行客戶分類,針對(duì)不同類別的客戶,提供個(gè)性化的服務(wù)來(lái)提高客戶的滿意度,提高現(xiàn)有客戶的價(jià)值。細(xì)致而可行的客戶分類對(duì)企業(yè)的經(jīng)營(yíng)策略有很大益處。例如,保險(xiǎn)公司在長(zhǎng)期的保險(xiǎn)服務(wù)中,積累了很多的數(shù)據(jù)信息,包括對(duì)客戶的服務(wù)歷史、對(duì)客戶的銷售歷史和收入,以及客戶的人口統(tǒng)計(jì)學(xué)資料和生活方式等。保險(xiǎn)公司必須將這些眾多的信息資源綜合起來(lái),以便在數(shù)據(jù)庫(kù)里建立起一個(gè)完整的客戶背景。在客戶背景信息中,大批客戶可能在保險(xiǎn)種類、保險(xiǎn)年份和保險(xiǎn)金額上具有極高的相似性,因而形成了具有共性的客戶群體。經(jīng)過(guò)數(shù)據(jù)挖掘的聚類分析,可以發(fā)現(xiàn)他們的共性,掌握他們的保險(xiǎn)理念,提供有針對(duì)性的服務(wù),提高保險(xiǎn)公司的綜合服務(wù)水平,并可以降低業(yè)務(wù)服務(wù)成本,取得更高的收益。
2.進(jìn)行客戶識(shí)別和保留
(1)在CRM中,首先應(yīng)識(shí)別潛在客戶,然后將他們轉(zhuǎn)化為客戶
這時(shí)可以采用DM中的分類方法。首先是通過(guò)對(duì)數(shù)據(jù)庫(kù)中各數(shù)據(jù)進(jìn)行分析,從而建立一個(gè)描述已知數(shù)據(jù)集類別或概念的模型,然后對(duì)每一個(gè)測(cè)試樣本,用其已知的類別與學(xué)習(xí)所獲模型的預(yù)測(cè)類別做比較,如果一個(gè)學(xué)習(xí)所獲模型的準(zhǔn)確率經(jīng)測(cè)試被認(rèn)可,就可以用這個(gè)模型對(duì)未來(lái)對(duì)象進(jìn)行分類。例如,圖書發(fā)行公司利用顧客郵件地址數(shù)據(jù)庫(kù),給潛在顧客發(fā)送用于促銷的新書宣傳冊(cè)。該數(shù)據(jù)庫(kù)內(nèi)容有客戶情況的描述,包括年齡、收入、職業(yè)、閱讀偏好、訂購(gòu)習(xí)慣、購(gòu)書資金、計(jì)劃等屬性的描述,顧客被分類為“是”或“否”會(huì)成為購(gòu)買書籍的顧客。當(dāng)新顧客的信息被輸入到數(shù)據(jù)庫(kù)中時(shí),就對(duì)該新顧客的購(gòu)買傾向進(jìn)行分類,以決定是否給該顧客發(fā)送相應(yīng)書籍的宣傳手冊(cè)。
(2)在客戶保留中的應(yīng)用
客戶識(shí)別是獲取新客戶的過(guò)程,而客戶保留則是留住老顧客、防止客戶流失的過(guò)程。對(duì)企業(yè)來(lái)說(shuō),獲取一個(gè)新顧客的成本要比保留一個(gè)老顧客的成本高。在保留客戶的過(guò)程中,非常重要的一個(gè)工作就是要找出顧客流失的原因。例如,某專科學(xué)校的招生人數(shù)在逐漸減少,那么就要找出減少的原因,經(jīng)過(guò)廣泛的搜集信息,發(fā)現(xiàn)原因在于本學(xué)校對(duì)技能培訓(xùn)不夠重視,學(xué)生只能學(xué)到書本知識(shí),沒有實(shí)際的技能,在就業(yè)市場(chǎng)上找工作很難。針對(duì)這種情況,學(xué)校應(yīng)果斷的抽取資金,購(gòu)買先進(jìn)的、有針對(duì)性的實(shí)驗(yàn)實(shí)訓(xùn)設(shè)備,同時(shí)修改教學(xué)計(jì)劃,加大實(shí)驗(yàn)實(shí)訓(xùn)課時(shí)和考核力度,培訓(xùn)相關(guān)專業(yè)的教師。
(3)對(duì)客戶忠誠(chéng)度進(jìn)行分析
客戶的忠誠(chéng)意味著客戶不斷地購(gòu)買公司的產(chǎn)品或服務(wù)。數(shù)據(jù)挖掘在客戶忠誠(chéng)度分析中主要是對(duì)客戶持久性、牢固性和穩(wěn)定性進(jìn)行分析。比如大型超市通過(guò)會(huì)員的消費(fèi)信息,如最近一次消費(fèi)、消費(fèi)頻率、消費(fèi)金額三個(gè)指標(biāo)對(duì)數(shù)據(jù)進(jìn)行分析,可以預(yù)測(cè)出顧客忠誠(chéng)度的變化,據(jù)此對(duì)價(jià)格、商品的種類以及銷售策略加以調(diào)整和更新,以便留住老顧客,吸引新顧客。
(4)對(duì)客戶盈利能力分析和預(yù)測(cè)
對(duì)于一個(gè)企業(yè)而言,如果不知道客戶的價(jià)值,就很難做出合適的市場(chǎng)策略。不同的客戶對(duì)于企業(yè)而言,其價(jià)值是不同的。研究表明,一個(gè)企業(yè)的80%的利潤(rùn)是由只占客戶總數(shù)的20%的客戶創(chuàng)造的,這部分客戶就是有價(jià)值的優(yōu)質(zhì)客戶。為了弄清誰(shuí)才是有價(jià)值的客戶,就需要按照客戶的創(chuàng)利能力來(lái)劃分客戶,進(jìn)而改進(jìn)客戶關(guān)系管理。數(shù)據(jù)挖掘技術(shù)可以用來(lái)分析和預(yù)測(cè)不同市場(chǎng)活動(dòng)情況下客戶盈利能力的變化,幫助企業(yè)制定合適的市場(chǎng)策略。商業(yè)銀行一般會(huì)利用數(shù)據(jù)挖掘技術(shù)對(duì)客戶的資料進(jìn)行分析,找出對(duì)提高企業(yè)盈利能力最重要的客戶,進(jìn)而進(jìn)行針對(duì)性的服務(wù)和營(yíng)銷。
(5)交叉銷售和增量銷售
交叉銷售是促使客戶購(gòu)買尚未使用的產(chǎn)品和服務(wù)的營(yíng)銷手段,目的是可以拓寬企業(yè)和客戶間的關(guān)系。增量銷售是促使客戶將現(xiàn)有產(chǎn)品和服務(wù)升級(jí)的銷售活動(dòng),目的在于增強(qiáng)企業(yè)和客戶的關(guān)系。這兩種銷售都是建立在雙贏的基礎(chǔ)上的,客戶因得到更多更好符合其需求的服務(wù)而獲益,公司也因銷售增長(zhǎng)而獲益。數(shù)據(jù)挖掘可以采用關(guān)聯(lián)性模型或預(yù)測(cè)性模型來(lái)預(yù)測(cè)什么時(shí)間會(huì)發(fā)生什么事件,判斷哪些客戶對(duì)交叉銷售和增量銷售很有意向,以達(dá)到交叉銷售和增量銷售的目的。例如,保險(xiǎn)公司的交叉營(yíng)銷策略:保險(xiǎn)公司對(duì)已經(jīng)購(gòu)買某險(xiǎn)種的客戶推薦其它保險(xiǎn)產(chǎn)品和服務(wù)。這種策略成功的關(guān)鍵是要確保推銷的保險(xiǎn)險(xiǎn)種是用戶所感興趣的,否則會(huì)造成用戶的反感。
四、客戶關(guān)系管理應(yīng)用數(shù)據(jù)挖掘的步驟
1.需求分析
只有確定需求,才有分析和預(yù)測(cè)的目標(biāo),然后才能提取數(shù)據(jù)、選擇方法,因此,需求分析是數(shù)據(jù)挖掘的基礎(chǔ)條件。數(shù)據(jù)挖掘的實(shí)施過(guò)程也是圍繞著這個(gè)目標(biāo)進(jìn)行的。在確定用戶的需求后,應(yīng)該明確所要解決的問(wèn)題屬于哪種應(yīng)用類型,是屬于關(guān)聯(lián)分析、分類、聚類及預(yù)測(cè),還是其他應(yīng)用。應(yīng)對(duì)現(xiàn)有資源如已有的歷史數(shù)據(jù)進(jìn)行評(píng)估,確定是否能夠通過(guò)數(shù)據(jù)挖掘技術(shù)來(lái)解決用戶的需求,然后將進(jìn)一步確定數(shù)據(jù)挖掘的目標(biāo)和制定數(shù)據(jù)挖掘的計(jì)劃。
2.建立數(shù)據(jù)庫(kù)
這是數(shù)據(jù)挖掘中非常重要也非常復(fù)雜的一步。首先,要進(jìn)行數(shù)據(jù)收集和集成,其次,要對(duì)數(shù)據(jù)進(jìn)行描述和整合。數(shù)據(jù)主要有四個(gè)方面的來(lái)源:客戶信息、客戶行為、生產(chǎn)系統(tǒng)和其他相關(guān)數(shù)據(jù)。這些數(shù)據(jù)通過(guò)抽取、轉(zhuǎn)換和裝載,形成數(shù)據(jù)倉(cāng)庫(kù),并通過(guò)OLAP和報(bào)表,將客戶的整體行為結(jié)果分析等數(shù)據(jù)傳遞給數(shù)據(jù)庫(kù)用戶。
3.選擇合適的數(shù)據(jù)挖掘工具
如果從上一步的分析中發(fā)現(xiàn),所要解決的問(wèn)題能用數(shù)據(jù)挖掘比較好地完成,那么需要做的第三步就是選擇合適的數(shù)據(jù)挖掘技術(shù)與方法。將所要解決的問(wèn)題轉(zhuǎn)化成一系列數(shù)據(jù)挖掘的任務(wù)。數(shù)據(jù)挖掘主要有五種任務(wù):分類,估值預(yù)測(cè),關(guān)聯(lián)規(guī)則,聚集,描述。前三種屬于直接的數(shù)據(jù)挖掘。在直接數(shù)據(jù)挖掘中,目標(biāo)是應(yīng)用可得到的數(shù)據(jù)建立模型,用其它可得到的數(shù)據(jù)來(lái)描述感興趣的變量。后兩種屬于間接數(shù)據(jù)挖掘。在間接數(shù)據(jù)挖掘中,沒有單一的目標(biāo)變量,目標(biāo)是在所有變量中發(fā)現(xiàn)某些聯(lián)系。
4.建立模型
建立模型是選擇合適的方法和算法對(duì)數(shù)據(jù)進(jìn)行分析,得到一個(gè)數(shù)據(jù)挖掘模型的過(guò)程。一個(gè)好的模型沒必要與已有數(shù)據(jù)完全相符,但模型對(duì)未來(lái)的數(shù)據(jù)應(yīng)有較好的預(yù)測(cè)。需要仔細(xì)考察不同的模型以判斷哪個(gè)模型對(duì)所需解決的問(wèn)題最有用。如決策樹模型、聚類模型都是分類模型,它們將一個(gè)事件或?qū)ο髿w類?;貧w是通過(guò)具有已知值的變量來(lái)預(yù)測(cè)其它變量的值。時(shí)間序列是用變量過(guò)去的值來(lái)預(yù)測(cè)未來(lái)的值。這一步是數(shù)據(jù)挖掘的核心環(huán)節(jié)。建立模型是一個(gè)反復(fù)進(jìn)行的過(guò)程,它需要不斷地改進(jìn)或更換算法以尋找對(duì)目標(biāo)分析作用最明顯的模型,最后得到一個(gè)最合理、最適用的模型。
5.模型評(píng)估
為了驗(yàn)證模型的有效性、可信性和可用性,從而選擇最優(yōu)的模型,需要對(duì)模型進(jìn)行評(píng)估。我們可以將數(shù)據(jù)中的一部分用于模型評(píng)估,來(lái)測(cè)試模型的準(zhǔn)確性,模型是否容易被理解模型的運(yùn)行速度、輸入結(jié)果的速度、實(shí)現(xiàn)代價(jià)、復(fù)雜度等。模型的建立和檢驗(yàn)是一個(gè)反復(fù)的過(guò)程,通過(guò)這個(gè)階段階段的工作,能使數(shù)據(jù)以用戶能理解的方式出現(xiàn),直至找到最優(yōu)或較優(yōu)的模型。
6.部署和應(yīng)用
將數(shù)據(jù)挖掘的知識(shí)歸檔和報(bào)告給需要的群體,根據(jù)數(shù)據(jù)挖掘發(fā)現(xiàn)的知識(shí)采取必要的行動(dòng),以及消除與先前知識(shí)可能存在的沖突,并將挖掘的知識(shí)應(yīng)用于應(yīng)用系統(tǒng)。在模型的應(yīng)用過(guò)程中,也需要不斷地對(duì)模型進(jìn)行評(píng)估和檢驗(yàn),并做出適當(dāng)?shù)恼{(diào)整,以使模型適應(yīng)不斷變化的環(huán)境。
參考文獻(xiàn):
[1]羅納德.S.史威福特.客戶關(guān)系管理[M].楊東龍譯.北京:中國(guó)經(jīng)濟(jì)出版社,2002
[2]馬剛:客戶關(guān)系管理[M]大連:東北財(cái)經(jīng)大學(xué)出版社,2008
[3]朱美珍:以數(shù)據(jù)挖掘提升客戶關(guān)系管理[J].高科技產(chǎn)業(yè)技術(shù)與創(chuàng)新管理,2006,(27)
當(dāng)今,國(guó)內(nèi)外電子商務(wù)類網(wǎng)站日益興起。許多電子商務(wù)類網(wǎng)站都提供了一定程度的個(gè)性化服務(wù),比如提供商品推薦服務(wù)。而構(gòu)成這些個(gè)性化服務(wù)的基礎(chǔ)就是數(shù)據(jù)挖掘技術(shù)。
一、數(shù)據(jù)挖掘分析
1.數(shù)據(jù)挖掘的定義。數(shù)據(jù)挖掘(datamining,DM)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識(shí)的過(guò)程。包括存儲(chǔ)和處理數(shù)據(jù),選擇處理大數(shù)據(jù)集的算法、解釋結(jié)果、使結(jié)果可視化。
2.數(shù)據(jù)挖掘的方法。從商業(yè)的角度來(lái)看,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘的方法大致可以分成4類:關(guān)聯(lián)分析、概括分析、分類分析、聚類分析。(1)關(guān)聯(lián)分析:分析表面上不相關(guān)數(shù)據(jù)之間的內(nèi)在聯(lián)系,揭示各事之間的依賴性和相關(guān)性,分析范圍包括簡(jiǎn)單關(guān)聯(lián)、因果關(guān)聯(lián)等。在電子商務(wù)中,用數(shù)據(jù)挖掘找到隱藏的關(guān)聯(lián)規(guī)則,當(dāng)客戶瀏覽、搜索關(guān)聯(lián)規(guī)則中的某種商品時(shí),就可以在頁(yè)面中以推薦商品的形式顯示關(guān)聯(lián)規(guī)則中的其它商品。在進(jìn)貨計(jì)劃和促銷計(jì)劃中,也可以將這個(gè)因素考慮進(jìn)去。(2)概括分析:即提取數(shù)據(jù)庫(kù)中指定的數(shù)據(jù)集合的一般特性,找出遍性規(guī)律。(3)分類分析:設(shè)置分類規(guī)則,把各個(gè)事務(wù)或?qū)嶓w按照性質(zhì)和特征不同進(jìn)行歸類,把數(shù)據(jù)層次化和規(guī)整化,從而建立數(shù)據(jù)的分類模型。(4)聚類分析:通過(guò)分析和歸納實(shí)體之間的特征差異,選出具相識(shí)特征的實(shí)體聚合成為一個(gè)類,并用某種規(guī)則來(lái)描述該類的相同屬性,形成一種聚類規(guī)則,實(shí)際上,它是與分類分析法互逆的過(guò)程。
3.數(shù)據(jù)挖掘的過(guò)程。該過(guò)程從大型數(shù)據(jù)庫(kù)中挖掘先前未知的、有效的、可實(shí)用的信息,并使用這些信息做出決策或豐富知識(shí)。(1)確定業(yè)務(wù)對(duì)象:清晰地定義出業(yè)務(wù)問(wèn)題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)是不可預(yù)測(cè)的,但要探索的問(wèn)題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的。(2)數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)的選擇:搜索所有與業(yè)務(wù)對(duì)象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù)。(3)數(shù)據(jù)挖掘:對(duì)所得到的經(jīng)過(guò)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘。除了完善從選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成。(4)結(jié)果分析:解釋并評(píng)估結(jié)果。其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù)。(5)知識(shí)的同化:將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。
二、數(shù)據(jù)挖掘與電子商務(wù)的關(guān)系
在電子商務(wù)企業(yè)中,數(shù)據(jù)挖掘運(yùn)用于客戶行為分析,企業(yè)從中受益體現(xiàn)在以下四個(gè)方面:(1)可以發(fā)現(xiàn)客戶和訪問(wèn)者的愛好、生活模式。(2)可以爭(zhēng)取新顧客,怎樣使產(chǎn)品適銷對(duì)路、怎樣給產(chǎn)品定價(jià)、怎樣吸引單個(gè)客戶、怎樣優(yōu)化Web網(wǎng)站。(3)可以用相應(yīng)的信息確定顧客的消費(fèi)周期,針對(duì)不同的產(chǎn)品制定相應(yīng)的營(yíng)銷策略。(4)可以確定客戶細(xì)分,為每一個(gè)客戶的獨(dú)特需求設(shè)計(jì)“量身定制”的產(chǎn)品。三、數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用
1.面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)。本系統(tǒng)電子商務(wù)平臺(tái)采用基于三層體系結(jié)構(gòu)構(gòu)建,服務(wù)器端采用先進(jìn)的J2EE平臺(tái)構(gòu)架,有完整的體系框架組成,具有很好的可擴(kuò)展性、互聯(lián)性和可維護(hù)性。因此面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)由數(shù)據(jù)庫(kù)服務(wù)器、應(yīng)用服務(wù)器和客戶端三層組成,整個(gè)體系結(jié)構(gòu)是以J2EE企業(yè)級(jí)的構(gòu)建技術(shù)為基礎(chǔ)。對(duì)數(shù)據(jù)挖掘過(guò)程中產(chǎn)生的數(shù)據(jù),采用獨(dú)立的數(shù)據(jù)挖掘庫(kù)表存放,這樣既不影響也不依賴數(shù)據(jù)挖掘的數(shù)據(jù)源。應(yīng)用服務(wù)器完成所有的數(shù)據(jù)挖掘運(yùn)算,通過(guò)接受客戶端的設(shè)置,完成所有對(duì)數(shù)據(jù)進(jìn)行探索、轉(zhuǎn)換、挖掘的工作。數(shù)據(jù)挖掘系統(tǒng)的每個(gè)功能模塊都以EJB的形式進(jìn)行封裝,以實(shí)現(xiàn)分布式計(jì)算和負(fù)載平衡等分布式計(jì)算的要求,把具有繁重計(jì)算任務(wù)的模塊和用戶交互模塊分開??蛻舳艘?fù)責(zé)數(shù)據(jù)挖掘流程的創(chuàng)建工作、所有功能模塊參數(shù)的設(shè)定以及各種可視化結(jié)果的顯示。用戶可以根據(jù)自己的要求任意創(chuàng)建各種形式的挖掘流程,同時(shí)按照需要執(zhí)行某部分流程,獲取相應(yīng)的可視化分析結(jié)果,其系統(tǒng)體系結(jié)構(gòu)如圖所示。
面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)體系結(jié)構(gòu)圖
2.面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)功能設(shè)計(jì)。面向電子商務(wù)的數(shù)據(jù)挖掘系統(tǒng)主要以下幾大功能模塊:(1)用戶信息分析。運(yùn)用分類和聚類挖掘方法對(duì)用戶的信息分析,可以得到用戶的些特征。對(duì)用戶分類相當(dāng)于對(duì)具有某些公共屬性的用戶群體建立了概要特征描述,這些特征可以用來(lái)對(duì)新增的用戶進(jìn)行分類,可以發(fā)現(xiàn)未來(lái)的潛在用戶并開展有針對(duì)性的商務(wù)活動(dòng),如自動(dòng)給一類特定的用戶發(fā)送銷售郵件,當(dāng)屬于同一類的用戶再次訪問(wèn)站點(diǎn)時(shí)為其動(dòng)態(tài)地改變站點(diǎn)的內(nèi)容等。通過(guò)這些舉措使商務(wù)活動(dòng)能夠在一定程度上滿足用戶的要求,實(shí)現(xiàn)目標(biāo)營(yíng)銷。(2)商品信息分析。運(yùn)用關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)商品訪問(wèn)中所有關(guān)聯(lián)和相聯(lián)系的規(guī)則,可以從交易事務(wù)數(shù)據(jù)庫(kù)中發(fā)現(xiàn)商品間的相互聯(lián)系。這對(duì)電子商務(wù)公司組織站點(diǎn)網(wǎng)頁(yè)結(jié)構(gòu)、開展有效的營(yíng)銷策略非常有幫助。(3)物流信息分析。采用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)技術(shù),根據(jù)各物流配送點(diǎn)接到的網(wǎng)站用戶訂單來(lái)預(yù)測(cè)其庫(kù)存數(shù)量。預(yù)測(cè)信息可以給物流配送中心以參考,用來(lái)合理地確定各配送點(diǎn)倉(cāng)庫(kù)的庫(kù)存量,使各配送點(diǎn)的補(bǔ)貨能更加合理有序,降低物流成本,節(jié)約庫(kù)存費(fèi)用。
四、結(jié)束語(yǔ)
數(shù)據(jù)挖掘是一個(gè)新興的領(lǐng)域,具有廣闊應(yīng)用前景,目前,電子商務(wù)在我國(guó)正處于快速發(fā)展和應(yīng)用階段,利用數(shù)據(jù)挖掘技術(shù),能夠強(qiáng)化對(duì)客戶的服務(wù)、促進(jìn)市場(chǎng)最優(yōu)化、加速資金周轉(zhuǎn)、實(shí)現(xiàn)企業(yè)的創(chuàng)新發(fā)展。電子商務(wù)平臺(tái)上的數(shù)據(jù)挖掘技術(shù)有待人們?nèi)ミM(jìn)行更深入的研究工作,這將不斷的推動(dòng)數(shù)據(jù)挖掘技術(shù)的深入發(fā)展和廣泛應(yīng)用,創(chuàng)造出更多的社會(huì)和經(jīng)濟(jì)價(jià)值。
參考文獻(xiàn):
[1]張?jiān)茲忊?數(shù)據(jù)挖掘原理與技術(shù).北京,電子工業(yè)出版社,2004年1月
煤炭的持續(xù)開采會(huì)受到地質(zhì)條件的直接影響,過(guò)去國(guó)家投入眾多的設(shè)施,使用至今均已出現(xiàn)老化,并且維修量非常大。隨著礦井的不斷延深,礦壓極度強(qiáng)化,巷道的維修任務(wù)更是不斷的增加,礦井的供電以及通風(fēng)、提升與排水等都不能適應(yīng)生產(chǎn)的需要。
1.2安全管理模式傳統(tǒng)
與西方發(fā)達(dá)產(chǎn)煤國(guó)家相比較,我國(guó)的煤礦使用技術(shù)研究起步很晚。并且人力、財(cái)力非常缺乏,某些重大的安全技術(shù)問(wèn)題,比如沖擊地壓以及煤和瓦斯的突出、地?zé)嵋约巴凰葹?zāi)害不能進(jìn)行有效的預(yù)測(cè)和控制。且受到以往傳統(tǒng)運(yùn)營(yíng)思想的直接作用與影響以及各個(gè)企業(yè)的經(jīng)濟(jì)實(shí)力的約束,我國(guó)的煤礦生產(chǎn)裝備和安全監(jiān)控設(shè)施相對(duì)落后。井巷的斷面設(shè)計(jì)以及支護(hù)強(qiáng)度的確定、支護(hù)材料的型號(hào)選擇較小。生產(chǎn)設(shè)施功率以及礦井的供風(fēng)量等富余參數(shù)非常低,極易出現(xiàn)事故。絕大多數(shù)的煤炭企業(yè)還是利用以往傳統(tǒng)的安全管理模式,各種報(bào)表計(jì)算仍是靠人工勞動(dòng)并且精確度很低。信息傳送的時(shí)間較長(zhǎng),且速度較慢,管理者的工作重復(fù)性很大,資料查詢十分困難,并且工作效率很低。安全檢查以及等級(jí)鑒定等總是憑借主觀意念以及相關(guān)的經(jīng)驗(yàn)。
1.3安全信息管理體制不健全
安全信息可以說(shuō)是安全管理工作的重要依據(jù),它主要包括事故和職業(yè)傷害的有效記錄與分析統(tǒng)計(jì),職業(yè)的安全衛(wèi)生設(shè)施的相關(guān)研究與設(shè)計(jì)、生產(chǎn)以及檢驗(yàn)技術(shù),法律法規(guī)以及相應(yīng)技術(shù)標(biāo)準(zhǔn)和其變化的動(dòng)態(tài),教育培訓(xùn)以及宣傳和社會(huì)活動(dòng),國(guó)內(nèi)的新型技術(shù)動(dòng)態(tài)以及隱患評(píng)估與技術(shù)經(jīng)濟(jì)類分析和咨詢、決策的體系。信息體制的健全是安全體制工程以及計(jì)算機(jī)技術(shù)的有效結(jié)合,可促使安全工作轉(zhuǎn)型為定性和定量的超前預(yù)測(cè),不過(guò)大多數(shù)礦井還是處于起步與摸索階段,并未呈現(xiàn)出健全的體制,真正的使用還有待進(jìn)一步的發(fā)展。
2空間數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘研究行業(yè)的持續(xù)進(jìn)展,開始由起初的關(guān)系數(shù)據(jù)以及事務(wù)數(shù)據(jù)挖掘,發(fā)展至對(duì)空間數(shù)據(jù)庫(kù)的不斷挖掘??臻g的信息還在逐漸地呈現(xiàn)各類信息體制的主體與基礎(chǔ)??臻g數(shù)據(jù)挖掘技術(shù)是一項(xiàng)非常關(guān)鍵的數(shù)據(jù),具有比普通關(guān)系數(shù)據(jù)庫(kù)和事務(wù)數(shù)據(jù)庫(kù)更豐富、復(fù)雜的相關(guān)語(yǔ)義信息,且蘊(yùn)含了更豐富的知識(shí)。所以,雖說(shuō)數(shù)據(jù)的挖掘最初是出現(xiàn)在關(guān)系數(shù)據(jù)挖掘以及事務(wù)的數(shù)據(jù)庫(kù),不過(guò)因?yàn)榭臻g數(shù)據(jù)庫(kù)中的發(fā)掘知識(shí),這就很快引起了各個(gè)研究者的關(guān)注與重視。很多的數(shù)據(jù)挖掘類研究工作都是從關(guān)系型以及事務(wù)型數(shù)據(jù)庫(kù)拓展至空間數(shù)據(jù)庫(kù)的。在地學(xué)領(lǐng)域中,隨著衛(wèi)星以及遙感技術(shù)的不斷使用,逐漸豐富的空間以及非空間的數(shù)據(jù)采集與儲(chǔ)存在較大空間數(shù)據(jù)庫(kù)中,大量的地理數(shù)據(jù)已經(jīng)算是超過(guò)了人們的處理能力,并且傳統(tǒng)的地學(xué)分析很難在這些數(shù)據(jù)中萃取并發(fā)現(xiàn)地學(xué)知識(shí),這也就給現(xiàn)階段的GIS帶來(lái)了很大的挑戰(zhàn),急切的需要強(qiáng)化GIS相應(yīng)的分析功能,提升GIS處理地學(xué)實(shí)際狀況的能力。數(shù)據(jù)挖掘以及知識(shí)發(fā)現(xiàn)的產(chǎn)生能滿足地球空間的數(shù)據(jù)處理要求,并推進(jìn)了傳統(tǒng)地學(xué)空間分析的不斷發(fā)展。依據(jù)地學(xué)空間數(shù)據(jù)挖掘技術(shù)的特性,把數(shù)據(jù)挖掘的方式融進(jìn)GIS技術(shù)中,呈現(xiàn)地學(xué)空間數(shù)據(jù)挖掘技術(shù)和知識(shí)發(fā)展的新地學(xué)數(shù)據(jù)分析理念與依據(jù)。
3煤礦安全管理水平的提升
3.1建設(shè)評(píng)價(jià)指標(biāo)體制庫(kù)
評(píng)價(jià)指標(biāo)體制庫(kù)是礦井的自然災(zāi)害危害存在的具體參數(shù)式的知識(shí)庫(kù)。模型的組建務(wù)必要根據(jù)礦井的瓦斯以及水害等自然災(zāi)害危害呈現(xiàn)的不同指標(biāo)體制和其臨界值構(gòu)建一定的指標(biāo)體制庫(kù),危害的警報(bào)識(shí)別參數(shù)關(guān)鍵是采掘工程的平面圖動(dòng)態(tài)開采面以及相應(yīng)的巷道。各種瓦斯的危害以及水害隱患和通風(fēng)隱患均呈現(xiàn)一定的評(píng)價(jià)指標(biāo)庫(kù)。
3.2構(gòu)建專業(yè)的分析模型庫(kù)
依據(jù)瓦斯以及水害等諸多不同的礦井自然災(zāi)害類別構(gòu)建相關(guān)的專業(yè)性模型庫(kù),比如瓦斯的災(zāi)害預(yù)測(cè),應(yīng)根據(jù)礦井的地質(zhì)條件以及煤層所賦存的狀況構(gòu)建瓦斯的地質(zhì)區(qū)分圖,再根據(jù)采掘工程的平面圖動(dòng)態(tài)呈現(xiàn)的采掘信息以及相應(yīng)的瓦斯分區(qū)構(gòu)建關(guān)聯(lián)并實(shí)行相應(yīng)的比較分析,確定可以采集區(qū)域未來(lái)的可采區(qū)域是不是高瓦斯區(qū)域。
3.3構(gòu)建以GIS空間分析為基礎(chǔ)的方法庫(kù)
GIS空間分析可以說(shuō)是礦井自然災(zāi)害的隱患高度識(shí)別的關(guān)鍵性方式,并且還是安全故障警報(bào)的主要路徑。比如斷層的防水層的有效劃分,關(guān)鍵是根據(jù)斷層的保安煤柱來(lái)實(shí)行可靠的確定。斷層的保安煤柱確定可以利用GIS緩沖區(qū)域的分析得到??臻g的統(tǒng)計(jì)分析以及多源信息有效擬合和數(shù)據(jù)挖掘亦是瓦斯和水害等安全隱患監(jiān)測(cè)經(jīng)常使用GIS空間分析方式,如物探水文的異常區(qū)域確定以及瓦斯突出相應(yīng)的危險(xiǎn)區(qū)域確定。
3.4決策支持體制與煤礦管理水平評(píng)價(jià)指標(biāo)
體制庫(kù)以及模型庫(kù)、方式庫(kù)與圖形庫(kù)均是礦井的自然災(zāi)害隱患識(shí)別和決策的最基礎(chǔ)。利用礦井的自然災(zāi)害隱患識(shí)別決策來(lái)支持體系具體的功能呈現(xiàn)礦井的自然災(zāi)害隱患識(shí)別以及決策分析,在根源處提高煤礦的安全管理水平。分類構(gòu)建礦井的自然災(zāi)害實(shí)時(shí)監(jiān)控體系,進(jìn)行動(dòng)態(tài)跟蹤相應(yīng)的災(zāi)害實(shí)時(shí)數(shù)據(jù),并事實(shí)呈現(xiàn)礦井的自然災(zāi)害數(shù)據(jù)或是信息和自然災(zāi)害的指標(biāo)體系庫(kù)以及模型庫(kù)與知識(shí)庫(kù)、空間數(shù)據(jù)庫(kù)的合理化比較,并運(yùn)用圖形庫(kù)的數(shù)據(jù)再通過(guò)GIS空間分析方式來(lái)確定安全隱患的,礦井自然災(zāi)害的隱患實(shí)時(shí)警報(bào)并進(jìn)行決策分析,以提交空間數(shù)據(jù)的自然災(zāi)害隱患識(shí)別以及分析處理的決策性報(bào)告。
Web使用的挖掘一般情況下指的是對(duì)web日志的挖掘。其挖掘的對(duì)象是用戶與互聯(lián)網(wǎng)交互過(guò)程中所抽取出來(lái)的各種信息,例如訪問(wèn)記錄、用戶名、用戶注冊(cè)信息以及用戶所進(jìn)行的操作等。在這一方面的研究已經(jīng)比較成熟,同時(shí)也有很多較為成熟的產(chǎn)品例如NETPERCERPION公司的Netpercerptions,Accrue公司的AccrueInsight和AccrueHitList等都是技術(shù)較為成熟的產(chǎn)品。
二、Web數(shù)據(jù)挖掘技術(shù)的工作流程
Web數(shù)據(jù)挖掘技術(shù)的主要工作流程可以分為以下幾個(gè)步驟:第一步,確立目標(biāo)樣本,這一步是用戶選取目標(biāo)文本,以此來(lái)作為提取用戶的特征信息;第二步,提取特征信息,這一步就是根據(jù)第一步得到的目標(biāo)樣本的詞頻分布,從現(xiàn)有的統(tǒng)計(jì)詞典中獲取所要挖掘的目標(biāo)的特征向量,并計(jì)算出其相應(yīng)的權(quán)值;第三步,從網(wǎng)絡(luò)上獲取信息,這一步是利用通過(guò)搜索引擎站點(diǎn)選擇采集站點(diǎn),然后通過(guò)Robot程序采集靜態(tài)的web頁(yè)面,最后再獲取這些被訪問(wèn)站點(diǎn)的網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中的動(dòng)態(tài)信息,然后生成www資源庫(kù)索引;第四步,進(jìn)行信息特征匹配,通過(guò)提取源信息的特征向量,去和目標(biāo)樣本的特征向量進(jìn)行匹配,最后將符合閾值條件的信息返回個(gè)用戶。
三、Web數(shù)據(jù)挖掘技術(shù)在高校數(shù)字圖書館中的應(yīng)用
1、為開發(fā)網(wǎng)絡(luò)信息資源提供了工具
數(shù)字圖書館需要的是一種可以有效的將信息進(jìn)行組織管理,同時(shí)還能夠?qū)π畔⑦M(jìn)行深層的加工管理,提供多層次的、智能化的信息服務(wù)和全方位的知識(shí)服務(wù),提供經(jīng)過(guò)加工、分析綜合等處理的高附加值的信息產(chǎn)品和知識(shí)產(chǎn)品的工具。目前許多高校數(shù)字圖書館的查詢手段還只局限于一些基本的數(shù)據(jù)操作,對(duì)數(shù)據(jù)只能進(jìn)行初步的加工,不具有從這些數(shù)據(jù)中歸納出所隱含的有用信息的功能,也使得這些信息不為人知,從而得不到更好的使用,這些都是對(duì)網(wǎng)絡(luò)信息資源的一種浪費(fèi)。而通過(guò)web數(shù)據(jù)挖掘技術(shù)科研有效的解決這一問(wèn)題。這種技術(shù)可以用于挖掘文檔的隱含的有用的內(nèi)容,或者可以在其他工具搜索的基礎(chǔ)上進(jìn)一步進(jìn)行處理,得到更為有用和精確的信息。通過(guò)web數(shù)據(jù)挖掘技術(shù)科研對(duì)數(shù)字圖書關(guān)注中的信息進(jìn)行更加有效地整合。
2、為以用戶為中心的服務(wù)提供幫助
通過(guò)瀏覽器訪問(wèn)數(shù)字圖書館后,可被記載下來(lái)的數(shù)據(jù)有兩類,一類是用戶信息,另一類是用戶訪問(wèn)記錄。其中用戶信息包括了用戶名,用戶訪問(wèn)IP地址,用戶的職業(yè)、年齡、愛好等。用戶名師用戶登錄圖書館時(shí)輸入,用戶訪問(wèn)IP地址通過(guò)程序獲得,其他的信息都是用戶在注冊(cè)時(shí)所填寫的,訪問(wèn)記錄則是在用戶登錄時(shí)所記錄的,也是由程序獲得。對(duì)這些用戶信息進(jìn)行分析可以更加有效的了解用戶的需求通過(guò)分析服務(wù)器中用戶請(qǐng)求失敗的數(shù)據(jù),結(jié)合聚集算法,可以發(fā)現(xiàn)信息資源的缺漏,從而指導(dǎo)對(duì)信息資源采集的改進(jìn),讓高校數(shù)字圖書館的信息資源體系建設(shè)的更加合理。對(duì)數(shù)字圖書館系統(tǒng)的在線調(diào)查、留言簿、薦書條等的數(shù)據(jù)進(jìn)行收集整理,并使之轉(zhuǎn)化為標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù)庫(kù),然后在通過(guò)數(shù)據(jù)挖掘,皆可以發(fā)現(xiàn)用戶所感興趣的模式,同時(shí)還可以預(yù)先發(fā)現(xiàn)用戶群體興趣的變遷,調(diào)整館藏方向,提前做好信息資源的采集計(jì)劃。通過(guò)web數(shù)據(jù)挖掘,可以對(duì)用戶的信息需求和行為規(guī)律進(jìn)行總結(jié),從而為優(yōu)化網(wǎng)絡(luò)站點(diǎn)的結(jié)構(gòu)提供參考,還可以適當(dāng)各種資源的配置更加的合理,讓用戶可以用更少的時(shí)間找到自己所需要的資源。例如可以通過(guò)路徑分析模式采掘捕捉確定用戶頻繁瀏覽訪問(wèn)的路徑,調(diào)整站點(diǎn)結(jié)構(gòu),并在適當(dāng)處加上廣告或薦書條。
3、web數(shù)據(jù)挖掘技術(shù)在圖書館采訪工作中的應(yīng)用
在圖書館的工作中有一步十分的重要,這就是采訪工作,采訪工作的做的好壞程度會(huì)直接的對(duì)圖書館的服務(wù)質(zhì)量產(chǎn)生影響。通常情況圖書館的工作人員會(huì)根據(jù)圖書館的性質(zhì)、服務(wù)對(duì)象及其任務(wù)來(lái)決定采訪的內(nèi)容。但是這種采訪局限性很大,很多時(shí)候會(huì)受采訪人員的主觀意識(shí)的影響,同時(shí)這種方式也會(huì)顯得死板不靈活。很多時(shí)候會(huì)出現(xiàn)應(yīng)該購(gòu)進(jìn)的文獻(xiàn)沒有買,不應(yīng)該買的文獻(xiàn)卻買了很多等與讀者的需求不符的現(xiàn)象。這些現(xiàn)象的產(chǎn)生都是因?yàn)槿狈?duì)讀者需求的了解和分析。要解決這些問(wèn)題就必須對(duì)讀者的需求進(jìn)行全面的了解和分析,而web數(shù)據(jù)挖掘則為解決該問(wèn)題提供了一種較好的方法。通過(guò)對(duì)各種日志文件和采訪時(shí)獲得的數(shù)據(jù)進(jìn)行分析,可以很清楚的得到讀者需要的是什么樣的書籍、不需要的又是什么樣的書籍,從而為采購(gòu)提供各種科學(xué)合理的分析報(bào)告和預(yù)測(cè)報(bào)告。根據(jù)對(duì)分析還能幫組圖書館管理人員確定各種所需書籍的比例,從而確定哪些文獻(xiàn)應(yīng)該及時(shí)的進(jìn)行補(bǔ)充,哪些文獻(xiàn)應(yīng)該進(jìn)行剔除,對(duì)館藏機(jī)構(gòu)進(jìn)行優(yōu)化,真正的為高校里的師生提供所需要的文獻(xiàn)和資料。
4、使用web數(shù)據(jù)挖掘技術(shù)提供個(gè)性化服務(wù)
2、基于模塊化方法的課程內(nèi)容分析
模塊化教學(xué)模式是按照程序模塊化的構(gòu)想和原則來(lái)設(shè)計(jì)教學(xué)內(nèi)容的一整套教學(xué)體系,它是在既定的培養(yǎng)目標(biāo)指導(dǎo)下,將全部教學(xué)內(nèi)容按照一定標(biāo)準(zhǔn)或規(guī)則進(jìn)行分解,使其成為多個(gè)相對(duì)獨(dú)立的教學(xué)模塊,且各教學(xué)模塊之間可以按照一定的規(guī)則有選擇性的重新組合。該方法在20世紀(jì)70年代,由國(guó)際勞工組織引入教學(xué)之中,開發(fā)出以現(xiàn)場(chǎng)教學(xué)為主,以技能培訓(xùn)為核心的模塊化教學(xué)模式,在很多國(guó)家得到廣泛應(yīng)用。由于該教學(xué)法具有針對(duì)性、靈活性、現(xiàn)實(shí)性等特點(diǎn),越來(lái)越受到教育界的關(guān)注。模塊化教學(xué)本質(zhì)上是以知識(shí)點(diǎn)與實(shí)踐的細(xì)化為出發(fā)點(diǎn)研究,本課程的知識(shí)點(diǎn)細(xì)化分為兩個(gè)層次:一是從宏觀角度,參考ACM的SIGKDD的數(shù)據(jù)挖掘課程建設(shè)建議,設(shè)計(jì)課程的基礎(chǔ)內(nèi)容模塊和高級(jí)主題模塊;二是從微觀角度,針對(duì)較為復(fù)雜的算法進(jìn)行的知識(shí)點(diǎn)劃分。課程內(nèi)容的一至五章屬于基礎(chǔ)內(nèi)容模塊,介紹本課程的基礎(chǔ)理論和入門的數(shù)據(jù)挖掘技術(shù);六至第八章介于基礎(chǔ)內(nèi)容與高級(jí)主題之間,介紹數(shù)據(jù)挖掘的核心算法,可以根據(jù)學(xué)生情況進(jìn)行靈活處理,可強(qiáng)調(diào)應(yīng)用,也可深化算法介紹;第九、十章為高級(jí)主題模塊,可以作為擴(kuò)展材料介紹應(yīng)用,或?yàn)楦信d趣同學(xué)提供算法介紹;課程實(shí)踐模塊包含數(shù)據(jù)倉(cāng)庫(kù)建設(shè)與數(shù)據(jù)挖掘算法的應(yīng)用,難度居中,可以在引導(dǎo)學(xué)生思考的前提下給出實(shí)驗(yàn)步驟,并引導(dǎo)學(xué)生使用類似的方法處理不同的數(shù)據(jù)。
3、基于模塊化方法進(jìn)行重要知識(shí)點(diǎn)的模塊化分析
重要知識(shí)點(diǎn)內(nèi)涵較為豐富,一般體現(xiàn)在經(jīng)典數(shù)據(jù)挖掘算法上,通常一大類算法下還分有多個(gè)算法,不同算法的在難度上有漸進(jìn)層次,同一種算法也有很大改進(jìn)研究空間,講授彈性比較大。因此,適合使用模塊化方法進(jìn)行處理,并且需要在課程設(shè)計(jì)中明確一定課時(shí)量所要達(dá)到的內(nèi)容和難度?;A(chǔ)部分為必選內(nèi)容,介紹基本概念和基本原理;決策樹作為數(shù)據(jù)挖掘分類算法的最基礎(chǔ)算法也是必選內(nèi)容,決策樹算法有多種分類,需要進(jìn)行按照難易程度進(jìn)行選擇;最后要根據(jù)難度選擇其他分類算法進(jìn)行介紹。
1)網(wǎng)絡(luò)教學(xué):包含異步學(xué)習(xí)模式與同步學(xué)習(xí)模式,泛指教師與學(xué)生都不用到傳統(tǒng)的教室去上課,只要上網(wǎng)到網(wǎng)絡(luò)教室中就可以進(jìn)行許多教與學(xué)的活動(dòng)。
2)遠(yuǎn)程教室:在各大專院校設(shè)立有許多遠(yuǎn)程教學(xué)同步視頻教室。在該教室中建置了許多視頻影音的設(shè)備,用來(lái)進(jìn)行課程的實(shí)時(shí)轉(zhuǎn)播工作。
3)網(wǎng)絡(luò)同步教室:網(wǎng)絡(luò)教學(xué)活動(dòng)可以區(qū)分為異步與同步的教學(xué)活動(dòng),其區(qū)別在于是否實(shí)時(shí)。教師和同學(xué)在約定的同一時(shí)間,通過(guò)Inter-net網(wǎng)絡(luò)進(jìn)行在線實(shí)時(shí)的課程教授的教學(xué)環(huán)境,就可稱之為網(wǎng)絡(luò)同步教室。在網(wǎng)絡(luò)同步教室中提供許多教學(xué)相關(guān)的輔助工具及互動(dòng)相關(guān)的功能,以協(xié)助課程的進(jìn)行。研究者希望通過(guò)數(shù)據(jù)挖掘的方法,來(lái)分析教師對(duì)于網(wǎng)絡(luò)教學(xué)環(huán)境的觀念,并提供教師在網(wǎng)絡(luò)同步教室中類似傳統(tǒng)教學(xué)環(huán)境的教學(xué)模式,以增加教師采用網(wǎng)絡(luò)教學(xué)的意愿。本研究將先就“傳統(tǒng)教學(xué)”、“遠(yuǎn)程教學(xué)”及“網(wǎng)絡(luò)同步教學(xué)”的環(huán)境因素、教學(xué)方式、師生互動(dòng)、學(xué)習(xí)成效等構(gòu)面進(jìn)行分析比較,來(lái)區(qū)分出這三種教學(xué)環(huán)境的優(yōu)缺點(diǎn)及差異,并將依據(jù)目前教師在傳統(tǒng)教學(xué)中的教學(xué)模式,實(shí)際應(yīng)用在網(wǎng)絡(luò)同步教室中來(lái)施行,讓參與網(wǎng)絡(luò)教學(xué)的教師可以了解如何運(yùn)用網(wǎng)絡(luò)同步教室來(lái)經(jīng)營(yíng)一門高質(zhì)量的課程。首先將推行計(jì)算機(jī)網(wǎng)絡(luò)教學(xué)遇到的問(wèn)題,大致上區(qū)分成以下幾個(gè)主要因素:
1)數(shù)字教材的制作或取得不易:學(xué)校對(duì)于數(shù)字教材的取得感到憂心,大多要求學(xué)校教師自行制作,對(duì)教師而言會(huì)增加額外的負(fù)擔(dān),導(dǎo)致教師對(duì)網(wǎng)絡(luò)教學(xué)產(chǎn)生抗拒的心理。
2)教師對(duì)網(wǎng)絡(luò)教學(xué)的成效產(chǎn)生質(zhì)疑:教師普遍認(rèn)為網(wǎng)絡(luò)教學(xué)環(huán)境的教學(xué)效果沒有辦法像傳統(tǒng)教學(xué)環(huán)境一樣,可以和學(xué)生有高度的互動(dòng),不認(rèn)為網(wǎng)絡(luò)學(xué)習(xí)會(huì)比較有教學(xué)成效。
3)教師對(duì)參與網(wǎng)絡(luò)教學(xué)的意愿低落:教師必須花費(fèi)許多時(shí)間和學(xué)生互動(dòng),比往常還需要花費(fèi)更多的時(shí)間去回答學(xué)生的問(wèn)題、關(guān)心學(xué)生的學(xué)習(xí)狀況,教師普遍認(rèn)為網(wǎng)絡(luò)學(xué)習(xí)對(duì)教師來(lái)說(shuō)不會(huì)比較輕松。將此主要因素做成調(diào)查問(wèn)卷,對(duì)數(shù)據(jù)進(jìn)行聚類分析,則可以找到主要的影響因素,獲得教師對(duì)于網(wǎng)絡(luò)教學(xué)環(huán)境的態(tài)度,進(jìn)而選擇更加有效的授課形式,以此提供類似傳統(tǒng)教學(xué)環(huán)境的教學(xué)模式,以提高教師采用網(wǎng)絡(luò)教學(xué)的意愿。
2計(jì)算機(jī)動(dòng)態(tài)取證技術(shù)
2.1采集有效數(shù)據(jù)
數(shù)據(jù)采集是動(dòng)態(tài)取證重要的環(huán)節(jié)之一,只有做好數(shù)據(jù)采集工作,才能保證取證的質(zhì)量以及完整性,在當(dāng)前網(wǎng)絡(luò)患者下,為了保證數(shù)據(jù)庫(kù)中數(shù)據(jù)的充足性,需要提高數(shù)據(jù)采集的效率。在網(wǎng)絡(luò)數(shù)據(jù)獲取時(shí),需要注意三點(diǎn)內(nèi)容,首先,要保證數(shù)據(jù)的完整性,在采集的過(guò)程中,不能對(duì)數(shù)據(jù)進(jìn)行修改或者破壞;其次,數(shù)據(jù)采集系統(tǒng)不能受到網(wǎng)絡(luò)流量的影響;最后,數(shù)據(jù)采集獲取的過(guò)程中,要具有較高的透明度,要保證被檢測(cè)的網(wǎng)絡(luò)不會(huì)受到外界因素的影響。
2.2數(shù)據(jù)存儲(chǔ)
動(dòng)態(tài)取證技術(shù)是公安部門應(yīng)用比較多的技術(shù),與NIDS技術(shù)相比,其不但可以對(duì)特殊文字以及詞匯進(jìn)行摘錄,還可以對(duì)數(shù)據(jù)進(jìn)行完整性記錄,通過(guò)對(duì)數(shù)據(jù)模塊的分析,可以追查到相關(guān)內(nèi)容。利用動(dòng)態(tài)取證技術(shù),可以將需要的報(bào)文完整的保存起來(lái),還可以對(duì)網(wǎng)絡(luò)流量進(jìn)行詳細(xì)的記錄,可以確保系統(tǒng)不會(huì)丟失文件,另外,當(dāng)系統(tǒng)遭到黑客的入侵或者破壞后,動(dòng)態(tài)取證技術(shù)還可以進(jìn)行實(shí)時(shí)恢復(fù),所以,這項(xiàng)技術(shù)具有一定防御以及反擊作用。在應(yīng)用動(dòng)態(tài)取證技術(shù)時(shí),需要保證系統(tǒng)存儲(chǔ)空間的容量。
2.3數(shù)據(jù)分析
數(shù)據(jù)分析是動(dòng)態(tài)取證中一項(xiàng)關(guān)鍵的環(huán)節(jié),通過(guò)分析可以辨識(shí)不良入侵,是保證數(shù)據(jù)庫(kù)安全的有效措施。在網(wǎng)絡(luò)還原或者重建的過(guò)程中,利用數(shù)據(jù)分析技術(shù)還可以將損失降到最低。網(wǎng)絡(luò)數(shù)據(jù)分析有兩種方式,一種是基本分析,另一種是深入分析,如果取證問(wèn)題比較簡(jiǎn)單,則利用基本分析方法就可以解決,但是如果取證比較復(fù)雜,并且要求比較高,則必須進(jìn)行深入數(shù)據(jù)分析。深入分析需要對(duì)重組網(wǎng)絡(luò)數(shù)據(jù)以及來(lái)源進(jìn)行分析,還需要對(duì)數(shù)據(jù)間的關(guān)聯(lián)性進(jìn)行分析,通過(guò)數(shù)據(jù)分析還可以還原與模擬網(wǎng)絡(luò)事件現(xiàn)場(chǎng)。動(dòng)態(tài)取證技術(shù)也具有一定缺點(diǎn),在取證的過(guò)程中存在漏報(bào)或者誤報(bào)的情況。
3數(shù)據(jù)挖掘技術(shù)在動(dòng)態(tài)取證系統(tǒng)中的應(yīng)用
基于數(shù)據(jù)挖掘的計(jì)算機(jī)動(dòng)態(tài)取證技術(shù),與傳統(tǒng)的動(dòng)態(tài)取證技術(shù)相比,有著較大的優(yōu)勢(shì),其可以對(duì)海量收集的數(shù)據(jù)進(jìn)行實(shí)時(shí)取證分析,而且準(zhǔn)確性比較高,其具有關(guān)聯(lián)分析的特點(diǎn),可以對(duì)與案件有關(guān)的信息或者電子證據(jù)進(jìn)行快速的查找。這一過(guò)程需要利用數(shù)據(jù)分析模塊,在對(duì)數(shù)據(jù)進(jìn)行分析時(shí),需要對(duì)犯罪證據(jù)進(jìn)行篩選,動(dòng)態(tài)分析最大的優(yōu)點(diǎn)是可以對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行獲取,在黑客對(duì)原始數(shù)據(jù)進(jìn)行篡改或者刪除時(shí),這項(xiàng)技術(shù)可以對(duì)這些犯罪過(guò)程詳細(xì)的記錄下來(lái)。基于數(shù)據(jù)挖掘的動(dòng)態(tài)取證技術(shù)具有高效性以及可擴(kuò)展性,利用數(shù)據(jù)挖掘技術(shù),可以對(duì)海量的、不完全或者模糊的數(shù)據(jù)進(jìn)行潛在價(jià)值的分析?;跀?shù)據(jù)挖掘的計(jì)算機(jī)動(dòng)態(tài)取證技術(shù)主要有:
3.1關(guān)聯(lián)分析
關(guān)聯(lián)分析是基于數(shù)據(jù)挖掘的計(jì)算機(jī)動(dòng)態(tài)取證技術(shù)一大特征,利用關(guān)聯(lián)規(guī)則,可以對(duì)相關(guān)數(shù)據(jù)進(jìn)行深層挖掘,通過(guò)關(guān)聯(lián)分析可以掌握犯罪行為的關(guān)聯(lián)性特征,這些特征有些已經(jīng)經(jīng)過(guò)了預(yù)處理,所以,相關(guān)工作這需要做好審查以及審計(jì)工作,要通過(guò)相關(guān)規(guī)則對(duì)用戶犯罪特征以及規(guī)律進(jìn)行總結(jié)。為了保證數(shù)據(jù)動(dòng)態(tài)取證的安全性,需要在系統(tǒng)中設(shè)置加密軟件,還要將入侵信息反饋到檢測(cè)系統(tǒng)中,這樣可以提高數(shù)據(jù)分析的效率,還可以實(shí)現(xiàn)實(shí)時(shí)動(dòng)態(tài)取證。
3.2分類分析
分類分析就是通過(guò)對(duì)分析示例數(shù)據(jù)庫(kù)中的相關(guān)數(shù)據(jù)進(jìn)行分析,準(zhǔn)確描述出每個(gè)類別的特征,建立分析模型,挖掘出分類的規(guī)則,將其它數(shù)據(jù)庫(kù)中的記錄傳送到分類規(guī)則中,在動(dòng)態(tài)取證系統(tǒng)的數(shù)據(jù)采集模塊收集了用戶或程序足夠數(shù)據(jù)后,在取證的數(shù)據(jù)分析階段,應(yīng)用分類的相關(guān)規(guī)則來(lái)判斷用戶或程序是否非法。應(yīng)用分類樣品數(shù)據(jù)來(lái)訓(xùn)練數(shù)據(jù)分析器的學(xué)習(xí),還預(yù)測(cè)一些未知的數(shù)據(jù)是否具有犯罪證據(jù)。
隨著現(xiàn)代商業(yè)經(jīng)濟(jì)和信息技術(shù)的發(fā)展,商業(yè)信息的增長(zhǎng)速度呈現(xiàn)指數(shù)上升,積累了海量的、以不同形式存儲(chǔ)的商業(yè)數(shù)據(jù)資料,原有的決策支持系統(tǒng)(DSS)和領(lǐng)導(dǎo)執(zhí)行系統(tǒng)(EIS)已不能滿足需要,這時(shí)出現(xiàn)數(shù)據(jù)挖掘技術(shù),它能夠去粗存精、去偽存真,從海量的商業(yè)信息中提取知識(shí)和有用信息的技術(shù)?,F(xiàn)代信息技術(shù)處理商業(yè)信息經(jīng)過(guò)一定的發(fā)展,逐步形成現(xiàn)在的商業(yè)數(shù)據(jù)挖掘技術(shù)。
1.?dāng)?shù)據(jù)挖掘方法在商業(yè)信息中應(yīng)用的規(guī)則
數(shù)據(jù)挖掘技術(shù)在商業(yè)中的應(yīng)用主要基于AI、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化地分析商業(yè)原始數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,預(yù)測(cè)客戶的行為,幫助商業(yè)決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的決策,體現(xiàn)一種決策支持過(guò)程。
1.1商業(yè)信息泛化、簡(jiǎn)約和特征提取規(guī)則。商業(yè)信息泛化是為了商業(yè)數(shù)據(jù)更好的理解和掌握,將其具體一般的數(shù)據(jù)信息抽象到較高層次的過(guò)程;商業(yè)信息簡(jiǎn)約是為了采用一定的手段對(duì)信息進(jìn)行描述;商業(yè)信息特征是找出這些信息的共同特征,尋找信息的通用性特征式。
1.2商業(yè)信息分類技術(shù)規(guī)則。商業(yè)信息分類是按照一組商業(yè)信息對(duì)象的特征給出信息對(duì)象劃分的過(guò)程。其目的是學(xué)會(huì)一個(gè)分類函數(shù)或分類模型,該模型能把數(shù)據(jù)庫(kù)的數(shù)據(jù)信息項(xiàng)映射到給定類別中的某一個(gè)。
1.3商業(yè)信息的聚類規(guī)則。聚類規(guī)則是識(shí)別一組信息對(duì)象的內(nèi)在規(guī)則,從而將對(duì)象分組,構(gòu)成相似的對(duì)象類,從而找出數(shù)據(jù)信息的分布規(guī)律,并進(jìn)一步去發(fā)現(xiàn)隱含在一組混雜的數(shù)據(jù)信息集里的分類規(guī)則。聚類是把一組個(gè)體按照相似性歸類,即"物以類聚"。使屬于同一類別的個(gè)體之間的距離盡可能小,而不同類別的個(gè)體間的距離盡可能大。
1.4商業(yè)信息的關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則的商業(yè)數(shù)據(jù)挖掘已經(jīng)從單一概念層次的關(guān)聯(lián)規(guī)則發(fā)展到多概念層次的關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)。關(guān)聯(lián)規(guī)則是如下的一種規(guī)則:"我們?cè)谘芯看笮蜕虉?chǎng)的顧客在購(gòu)買上衣和褲子的時(shí)候,發(fā)現(xiàn)其中在這些顧客中有10%的顧客同時(shí)買了帽子(上衣+褲子+帽子),這就形成簡(jiǎn)單的關(guān)聯(lián)規(guī)則。除了具有上述關(guān)聯(lián)規(guī)律,還有時(shí)間或序列上的規(guī)律,在不同的時(shí)間(春夏秋冬)所購(gòu)的衣服、褲子以及帽子是不相同的,并且不同層次或者不同年齡的人所購(gòu)商品又有一定的規(guī)律性。
2.?dāng)?shù)據(jù)挖掘技術(shù)在商業(yè)信息中的應(yīng)用
數(shù)據(jù)挖掘技術(shù)是目前在商業(yè)信息處理中應(yīng)用的比較多的一項(xiàng)技術(shù),為了在商業(yè)領(lǐng)域中對(duì)海量數(shù)據(jù)庫(kù)和大量復(fù)雜信息中提取有價(jià)值的知識(shí),進(jìn)一步提高信息的利用率,對(duì)公司及時(shí)制定相應(yīng)的對(duì)策有非常重要的意義,在這里,討論幾個(gè)主要商業(yè)行業(yè)中的商業(yè)信息處理。
2.1數(shù)據(jù)挖掘技術(shù)在電子商務(wù)網(wǎng)站數(shù)據(jù)中的應(yīng)用
隨著Web技術(shù)的發(fā)展,電子商務(wù)網(wǎng)站正在成為現(xiàn)在商家的必爭(zhēng)之地。如何讓電子商務(wù)網(wǎng)站有效益要想有效益就必須吸引客戶,增加能帶來(lái)效益的客戶忠誠(chéng)度。電子商務(wù)網(wǎng)站每天都可能有上百萬(wàn)次的在線交易,生成大量的記錄文件和登記表,如何對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘,充分了解客戶的喜好、購(gòu)買模式,甚至是客戶一時(shí)的沖動(dòng),設(shè)計(jì)出滿足于不同客戶群體需要的個(gè)性化網(wǎng)站,進(jìn)而增加其競(jìng)爭(zhēng)力,幾乎變得勢(shì)在必行。若想在競(jìng)爭(zhēng)中生存進(jìn)而獲勝,就要比您的競(jìng)爭(zhēng)對(duì)手更了解客戶。
在對(duì)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘時(shí),所需要的數(shù)據(jù)主要來(lái)自于兩個(gè)方面:一方面是客戶的背景信息,此部分信息主要來(lái)自于客戶的登記表;而另外一部分?jǐn)?shù)據(jù)主要來(lái)自瀏覽者的點(diǎn)擊流,此部分?jǐn)?shù)據(jù)主要用于考察客戶的行為表現(xiàn)。但有的時(shí)候,客戶對(duì)自己的背景信息十分珍重,不肯把這部分信息填寫在登記表上,這就會(huì)給數(shù)據(jù)分析和挖掘帶來(lái)不便。在這種情況之下,就不得不從瀏覽者的表現(xiàn)數(shù)據(jù)中來(lái)推測(cè)客戶的背景信息,進(jìn)而再加以利用。就分析和建立模型的技術(shù)和算法而言,網(wǎng)站的數(shù)據(jù)挖掘和原來(lái)的數(shù)據(jù)挖掘差別并不是特別大,很多方法和分析思想都可以運(yùn)用。所不同的是網(wǎng)站的數(shù)據(jù)格式有很大一部分來(lái)自于點(diǎn)擊流,和傳統(tǒng)的數(shù)據(jù)庫(kù)格式有區(qū)別。因而對(duì)電子商務(wù)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘所做的主要工作是數(shù)據(jù)準(zhǔn)備。
2.2數(shù)據(jù)挖掘技術(shù)可以用在金融領(lǐng)域的應(yīng)用
金融事務(wù)需要搜集和處理大量數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其數(shù)據(jù)模式及特征,然后可能發(fā)現(xiàn)某個(gè)客戶、消費(fèi)群體或組織的金融和商業(yè)興趣,并可觀察金融市場(chǎng)的變化趨勢(shì)。
數(shù)據(jù)挖掘在銀行信息中的應(yīng)用。商業(yè)銀行業(yè)務(wù)的利潤(rùn)和風(fēng)險(xiǎn)是共存的。為了保證最大的利潤(rùn)和最小的風(fēng)險(xiǎn),必須對(duì)賬戶進(jìn)行科學(xué)的分析和歸類,并進(jìn)行信用評(píng)估,利用數(shù)據(jù)挖掘工具,可以根據(jù)客戶的消費(fèi)模式預(yù)測(cè)何時(shí)為客戶提供何種產(chǎn)品。銀行如何讓一家新開的銀行網(wǎng)點(diǎn)實(shí)現(xiàn)快速贏利呢?銀行結(jié)合了GPS推理信息系統(tǒng)和商業(yè)智能應(yīng)用系統(tǒng),在銀行的客戶信息中,詳細(xì)記錄有客戶的常駐地,并且,當(dāng)銀行客戶到該銀行網(wǎng)點(diǎn)辦理業(yè)務(wù)時(shí),銀行商業(yè)智能系統(tǒng)將自動(dòng)記錄客戶的操作信息,以及銀行網(wǎng)點(diǎn)地址信息。經(jīng)過(guò)大量的記錄,客戶的常駐地到銀行網(wǎng)點(diǎn)的行動(dòng)路線,將被通過(guò)數(shù)據(jù)分析而得出。大量的客戶路線得出后,我們可能會(huì)發(fā)現(xiàn),某個(gè)地區(qū)進(jìn)行銀行業(yè)務(wù)操作的客戶特別多,但他們附近沒有銀行網(wǎng)點(diǎn),而是要到離他們較遠(yuǎn)的地方去辦理,于是銀行就決定在這個(gè)地區(qū)開辦一個(gè)銀行網(wǎng)點(diǎn)。
數(shù)據(jù)挖掘在證券信息中的應(yīng)用。上市公司定期公布的財(cái)務(wù)報(bào)告具有很強(qiáng)的信息含量,但是當(dāng)期會(huì)計(jì)盈余數(shù)據(jù)的信息會(huì)在披露前后在股票市價(jià)中迅速得以體現(xiàn)。因此對(duì)于中長(zhǎng)期投資者來(lái)說(shuō),重要的是預(yù)見未來(lái)。質(zhì)地優(yōu)良且未來(lái)具有較高盈利增長(zhǎng)能力的公司是中長(zhǎng)期投資者(包括普通投資者,證券投資基金和券商)普遍關(guān)注的對(duì)象,因?yàn)橹挥羞@類公司才能給投資者帶來(lái)持續(xù)的回報(bào)。而財(cái)務(wù)報(bào)告包含了大量描述公司經(jīng)營(yíng)狀況的數(shù)據(jù)。這些數(shù)據(jù)應(yīng)能為投資者提供關(guān)于公司未來(lái)盈利能力的信息。對(duì)于中長(zhǎng)期投資者而言,需要做的就是利用這些信息挖掘出未來(lái)能夠具有較高盈利水平同時(shí)又具有較好的成長(zhǎng)性公司。采用數(shù)據(jù)挖掘技術(shù)來(lái)發(fā)掘這些財(cái)務(wù)報(bào)告中是否包含關(guān)于公司未來(lái)盈利情況的信息,獲得較精確的預(yù)測(cè)效果,選出的投資組合能否獲得超額收益,這對(duì)于投資者來(lái)說(shuō)是非常重要的。
2.3數(shù)據(jù)挖掘技術(shù)在企業(yè)市場(chǎng)營(yíng)銷中的應(yīng)用
數(shù)據(jù)挖掘技術(shù)在企業(yè)市場(chǎng)營(yíng)銷中得到了比較普遍的應(yīng)用,它是以市場(chǎng)營(yíng)銷學(xué)的市場(chǎng)細(xì)分原理為基礎(chǔ),其基本假定是"消費(fèi)者過(guò)去的行為是其今后消費(fèi)傾向的最好說(shuō)明"。通過(guò)收集、加工和處理涉及消費(fèi)者消費(fèi)行為的大量信息,確定特定消費(fèi)群體或個(gè)體的興趣、消費(fèi)習(xí)慣、消費(fèi)傾向和消費(fèi)需求,進(jìn)而推斷出相應(yīng)消費(fèi)群體或個(gè)體下一步的消費(fèi)行為,然后以此為基礎(chǔ),對(duì)所識(shí)別出來(lái)的消費(fèi)群體進(jìn)行特定內(nèi)容的定向營(yíng)銷,這與傳統(tǒng)的不區(qū)分消費(fèi)者對(duì)象特征的大規(guī)模營(yíng)銷手段相比,大大節(jié)省了營(yíng)銷成本,提高了營(yíng)銷效果,從而為企業(yè)帶來(lái)更多的利潤(rùn)。這些來(lái)自各種渠道的數(shù)據(jù)信息被組合,應(yīng)用超級(jí)計(jì)算機(jī)、并行處理、神經(jīng)元網(wǎng)絡(luò)、模型化算法和其他信息處理技術(shù)手段進(jìn)行處理,從中得到商家用于向特定消費(fèi)群體或個(gè)體進(jìn)行定向營(yíng)銷的決策信息。4數(shù)據(jù)挖掘技術(shù)在民用通信部門中的應(yīng)用
引言
現(xiàn)代化的企業(yè)搜集了大量時(shí)態(tài)文本數(shù)據(jù),但信息超載和無(wú)結(jié)構(gòu)化,使得企業(yè)決策部門無(wú)法有效利用現(xiàn)存的信息,時(shí)態(tài)數(shù)據(jù)挖掘技術(shù)便應(yīng)運(yùn)而生。目前有關(guān)時(shí)態(tài)關(guān)聯(lián)規(guī)則算法已較多,但是如果運(yùn)用到時(shí)態(tài)文本關(guān)聯(lián)規(guī)則的挖掘中則時(shí)間復(fù)雜度都太高。所以本文將對(duì)時(shí)態(tài)文本關(guān)聯(lián)規(guī)則挖掘進(jìn)行研究。
1.時(shí)態(tài)文本預(yù)處理
1.1時(shí)態(tài)文本處理
在挖掘時(shí)態(tài)文本關(guān)聯(lián)規(guī)則之前,需要先對(duì)文本進(jìn)行預(yù)處理,對(duì)英文而言需進(jìn)行Stemming處理[5],中文的情況則不同,因?yàn)橹形脑~和詞之間沒有固定的間隔,需進(jìn)行分詞處理。
對(duì)于本文研究的是醫(yī)學(xué)病毒論文數(shù)據(jù)庫(kù),是一個(gè)英文數(shù)據(jù)庫(kù),文本預(yù)處理的具體內(nèi)容如下:
①英文大寫換小寫(都以小寫字母表示,方便文本識(shí)別);②刪除空白記錄;③將論文信息中的標(biāo)題和摘要進(jìn)行(可以提高關(guān)鍵詞的比重,增加提取文本向量的精度);④處理時(shí)間DP列,只保留年份數(shù)字,方便提取有效時(shí)間;⑤對(duì)于記錄太多的庫(kù),適當(dāng)拆分表格(否則在程序處理時(shí)會(huì)內(nèi)存溢出);⑥根據(jù)文本內(nèi)容提取合適的停用詞表,對(duì)文本內(nèi)容進(jìn)行去停用詞處理。
1.2 時(shí)態(tài)文本表示
在對(duì)時(shí)態(tài)文本進(jìn)行清理后,需將其進(jìn)行表示。在文本處理時(shí)我們已提取論文的發(fā)表時(shí)間,所以將時(shí)間和文本分列處理,然后將文本單獨(dú)表示。本文采用向量空間模型(VSM,Vector Space Model)進(jìn)行表示[6]。
2.時(shí)態(tài)關(guān)聯(lián)規(guī)則算法概述
以前的算法不能有效應(yīng)用到時(shí)態(tài)文本數(shù)據(jù)庫(kù)中,主要原因有:1)這些算法計(jì)算時(shí)時(shí)間復(fù)雜度仍太高。2)沒有考慮每個(gè)獨(dú)立文本項(xiàng)各自存在的有效時(shí)間;3)每個(gè)項(xiàng)目缺少一個(gè)合理的可以浮動(dòng)的支持度數(shù)。所以本文根據(jù)時(shí)態(tài)事件模型及Apriori原則,本文在快速更新算法思想上產(chǎn)生新的算法:SPFM(Segment-Progressive-Filter-Miner)
該算法主要包括三步:1.數(shù)據(jù)庫(kù)不斷更新;2.對(duì)數(shù)據(jù)庫(kù)按不同時(shí)間段進(jìn)行劃分;3.對(duì)每個(gè)時(shí)間段的事務(wù)集挖掘頻繁項(xiàng)集。拆分后的數(shù)據(jù)庫(kù),每個(gè)階段部分有不同的支持度閾值,我們按不同的支持度閾值進(jìn)行計(jì)算來(lái)產(chǎn)生候選項(xiàng)集。
SPFM算法主要有三個(gè)特點(diǎn):1)算法預(yù)處理時(shí)將文本數(shù)據(jù)轉(zhuǎn)換成垂直數(shù)據(jù)格式,可大大提高程序效率;2)在挖掘時(shí)態(tài)數(shù)據(jù)庫(kù)的頻繁項(xiàng)集時(shí),通過(guò)更新不同時(shí)間粒度的支持度數(shù)來(lái)確定頻繁項(xiàng)集,并判斷頻繁項(xiàng)集在時(shí)間粒度上的連續(xù)性;3)如2)所述,時(shí)態(tài)數(shù)據(jù)庫(kù)是和時(shí)間粒度有關(guān)的,那么從時(shí)態(tài)數(shù)據(jù)庫(kù)挖掘出的關(guān)聯(lián)規(guī)則也應(yīng)該是和時(shí)間粒度有關(guān)的,即存在“有效時(shí)間”,本算法引入一種判斷機(jī)制,使得發(fā)現(xiàn)的有效時(shí)間是由頻繁項(xiàng)集本身決定的,最終我們獲得的是一組浮動(dòng)的“有效時(shí)間”。
3.實(shí)驗(yàn)測(cè)試
為了測(cè)試SPFM的算法性能,用Visual C++進(jìn)行編程。對(duì)象為醫(yī)學(xué)病毒論文數(shù)據(jù)庫(kù)中1970~2010年間約50萬(wàn)條的記錄,每條記錄的屬性包括fileno(論文標(biāo)號(hào))、TI(標(biāo)題)、AB(摘要)、DP(發(fā)表時(shí)間)等。以“年”作為時(shí)間粒度,將數(shù)據(jù)庫(kù)劃分為40個(gè)階段部分。minsup為0.5‰,minconf為35%,然后進(jìn)行頻繁項(xiàng)集的挖掘,并確定每個(gè)頻繁項(xiàng)集的有效時(shí)間,依次循環(huán)直至2010年為止。
比如rous(含鐵血黃素)和sarcoma(1979年、1981年、1983年),都是強(qiáng)關(guān)聯(lián)規(guī)則,且COS判斷值為0.8165>0.5,說(shuō)明該規(guī)則有意義,這兩者在1979~1983年是一個(gè)共同研究熱點(diǎn),它們之間有可能存在一些密切的聯(lián)系,在醫(yī)學(xué)上也可以深入研究。
通過(guò)對(duì)醫(yī)學(xué)文本數(shù)據(jù)庫(kù)的挖掘,我們挖掘出上百條時(shí)態(tài)文本關(guān)聯(lián)規(guī)則,從這些規(guī)則當(dāng)中我們能得到近40年學(xué)者們對(duì)病毒研究的規(guī)律以及病毒的發(fā)展規(guī)律,這些規(guī)律會(huì)是對(duì)以往病毒研究的較好總結(jié),也會(huì)有助于更有效地治療已產(chǎn)生的病毒。
在文本數(shù)據(jù)挖掘技術(shù)已經(jīng)日漸成熟的背景下,把時(shí)態(tài)數(shù)據(jù)與文本挖掘聯(lián)合起來(lái),可將時(shí)態(tài)文本數(shù)據(jù)挖掘應(yīng)用于醫(yī)學(xué)、經(jīng)營(yíng)、管理等各個(gè)方面,通過(guò)對(duì)海量的時(shí)態(tài)文本數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,為管理者做決策提供參考數(shù)據(jù);還能為新的經(jīng)營(yíng)模式提供目標(biāo)和思路,減少盲目性,以獲得更大利益。
4.結(jié)束語(yǔ)
本文提出了對(duì)醫(yī)學(xué)病毒論文數(shù)據(jù)庫(kù)中的時(shí)態(tài)文本如何進(jìn)行預(yù)處理,需先將時(shí)間和文本分為不同的列,將文本表示為向量空間模型。然后確實(shí)頻繁項(xiàng)集的有效時(shí)間,將文本數(shù)據(jù)轉(zhuǎn)換成垂直數(shù)據(jù)格式,再通過(guò)新的算法挖掘頻繁項(xiàng)集,最后對(duì)時(shí)態(tài)文進(jìn)行強(qiáng)關(guān)聯(lián)規(guī)則的挖掘。該實(shí)驗(yàn)是對(duì)時(shí)態(tài)文本進(jìn)行預(yù)處理后再進(jìn)行關(guān)聯(lián)規(guī)則挖掘的,最后驗(yàn)證了該算法的有效性。
參考文獻(xiàn):
[1] 潘定.持續(xù)時(shí)態(tài)數(shù)據(jù)挖掘及其實(shí)現(xiàn)機(jī)制[M].北京:經(jīng)濟(jì)科學(xué)出版社,2008:36
作者簡(jiǎn)介:
企業(yè)管理中客戶關(guān)系的管理必不可少,并且良好的管理有利于企業(yè)發(fā)展,有利于企業(yè)獲取更大的財(cái)富,有利于企業(yè)實(shí)現(xiàn)自己的價(jià)值,所以保障對(duì)企業(yè)客戶關(guān)系的管理。數(shù)據(jù)挖掘技術(shù)就是一個(gè)可以幫助企業(yè)對(duì)客戶關(guān)系進(jìn)行有效的管理的工具。
一、數(shù)據(jù)挖掘和客戶關(guān)系管理含義
數(shù)據(jù)挖掘技術(shù)(Data Mining可以簡(jiǎn)稱為DM),簡(jiǎn)單來(lái)說(shuō),就是一種把隱藏在大型數(shù)據(jù)庫(kù)或者數(shù)據(jù)倉(cāng)庫(kù)中所需要的有用信息提取出來(lái)的新技術(shù),這是一個(gè)對(duì)數(shù)據(jù)庫(kù)進(jìn)行研究的非常有價(jià)值的領(lǐng)域。數(shù)據(jù)挖掘技術(shù)可以幫助用戶從數(shù)據(jù)庫(kù)中準(zhǔn)確的提取出有用的商業(yè)信息,為用戶在進(jìn)行決策時(shí)提供重要的支持。
客戶關(guān)系管理(Customer Relationship Management可以簡(jiǎn)稱為CRM),也有人稱之為“顧客關(guān)系管理”,關(guān)于客戶關(guān)系管理的定義,目前有兩種說(shuō)法:一,最早的Gartner Group定義為一種商業(yè)策略,就是把客戶進(jìn)行分類,并依據(jù)分類情況來(lái)對(duì)企業(yè)的資源進(jìn)行有效的組織,進(jìn)而企業(yè)的業(yè)務(wù)流程實(shí)施以及經(jīng)營(yíng)活動(dòng)都要以客戶為核心來(lái)進(jìn)行,以此來(lái)提高企業(yè)的盈利能力以及客戶滿意度,取得最大利潤(rùn);二、是由CRMguru.com給出的定義,客戶關(guān)系管理就是一個(gè)在企業(yè)的營(yíng)銷、銷售以及服務(wù)的業(yè)務(wù)范圍內(nèi),把企業(yè)現(xiàn)有的客戶以及潛在客戶,還有業(yè)務(wù)伙伴多渠道進(jìn)行管理的過(guò)程,或者說(shuō)技術(shù)。
二、數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用
隨著社會(huì)經(jīng)濟(jì)的不斷發(fā)展,市場(chǎng)競(jìng)爭(zhēng)力也在逐步的增大,商家想要獲得最好的利益,就必須對(duì)市場(chǎng)的變化迅速的做出反應(yīng),能夠引起市場(chǎng)變化的重要因素就是客戶需求的變化,也就是說(shuō),企業(yè)必須集中注意力,觀察客戶需求的每一變化,并把這些資料收集在一起,作為企業(yè)發(fā)展的寶貴資源進(jìn)行管理。在企業(yè)管理客戶信息的過(guò)程中,就需要應(yīng)用到了數(shù)據(jù)挖掘技術(shù)。
數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理中的應(yīng)用過(guò)程中,主要方法有:神經(jīng)網(wǎng)絡(luò)法、遺傳算法、決策樹法、粗糙決算法以及可視化技術(shù)、K—最近鄰技術(shù)等,每個(gè)公司的客戶關(guān)系不同、需求也不同,所以要用到的方法也不同。
數(shù)據(jù)挖掘技術(shù)主要應(yīng)用于客戶關(guān)系管理中的這幾個(gè)方面:(1)挖掘新客戶,數(shù)據(jù)挖掘技術(shù)可以對(duì)現(xiàn)有的客戶信息和市場(chǎng)環(huán)境進(jìn)行統(tǒng)計(jì)總結(jié)以及歸納,準(zhǔn)確的確定潛在客戶以及市場(chǎng)目標(biāo)。因?yàn)閿?shù)據(jù)挖掘技術(shù)具有統(tǒng)計(jì)、聚類和關(guān)聯(lián)的作用,比如說(shuō),數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)庫(kù)中發(fā)現(xiàn)了這樣一個(gè)信息“某客戶在購(gòu)買A商品之后,過(guò)了一段時(shí)間又購(gòu)買了B商品,最后還購(gòu)買了C商品”那么數(shù)據(jù)挖掘技術(shù)就會(huì)通過(guò)次序關(guān)聯(lián),把這個(gè)信息形成“A—B—C”的行為模式。(2)可以保持優(yōu)質(zhì)客戶。現(xiàn)在社會(huì)競(jìng)爭(zhēng)相當(dāng)激烈,企業(yè)客戶更是企業(yè)發(fā)展的重要因素,優(yōu)質(zhì)客戶對(duì)每個(gè)企業(yè)來(lái)說(shuō)就更加的重要。數(shù)據(jù)挖掘技術(shù)可以對(duì)數(shù)據(jù)庫(kù)中的流失客戶信息進(jìn)行分析,并且對(duì)流失客戶的特征進(jìn)行準(zhǔn)確的描述,然后利用關(guān)聯(lián)、近鄰的方式對(duì)整個(gè)數(shù)據(jù)庫(kù)中的消費(fèi)客戶信息進(jìn)行分析,分析出容易流失的客戶,隨后就需要采取相應(yīng)的措施來(lái)減少這些客戶的流失,尤其是那些可能流失的優(yōu)質(zhì)客戶,更要采取有力的措施來(lái)進(jìn)行挽留。(3)可以提升客戶價(jià)值。目前提升現(xiàn)有客戶的價(jià)值的方式有兩個(gè):一是提供特色服務(wù)或者產(chǎn)品;二是銷售新產(chǎn)品或者服務(wù)。想要準(zhǔn)確的提升客戶價(jià)值,就需要數(shù)據(jù)挖掘技術(shù)的幫助了,他可以把之前的客戶信息研究分析,并依據(jù)新產(chǎn)品或者服務(wù)的特征,發(fā)現(xiàn)和客戶的已購(gòu)買產(chǎn)品之間的關(guān)聯(lián),因而準(zhǔn)確的找到具有最大購(gòu)買趨勢(shì)的客戶。
三、加強(qiáng)客戶關(guān)系管理中數(shù)據(jù)挖掘的意義
應(yīng)用數(shù)據(jù)挖掘技術(shù)對(duì)客戶關(guān)系進(jìn)行管理,可以有效的提高企業(yè)的核心競(jìng)爭(zhēng)力,現(xiàn)代社會(huì)的激烈競(jìng)爭(zhēng),也就是對(duì)客戶的競(jìng)爭(zhēng),數(shù)據(jù)挖掘技術(shù)對(duì)企業(yè)的客戶關(guān)系進(jìn)行詳細(xì)的分析,并為企業(yè)提供有價(jià)值的商業(yè)信息,為企業(yè)的重大決策提供了重要的參考依據(jù),進(jìn)而有力的提高了企業(yè)的核心競(jìng)爭(zhēng)力;可以有力的增強(qiáng)企業(yè)的執(zhí)行力,利用信息技術(shù)對(duì)客戶關(guān)系進(jìn)行管理,降低成本,并簡(jiǎn)化執(zhí)行任務(wù),有效的實(shí)現(xiàn)了資源共享,大力的提高了企業(yè)的自動(dòng)化水平,企業(yè)職工的執(zhí)行能力也進(jìn)一步得到了提高,也就是增強(qiáng)了企業(yè)的執(zhí)行力[3];可以為企業(yè)的下一步戰(zhàn)略發(fā)展提供幫助,數(shù)據(jù)挖掘技術(shù)對(duì)現(xiàn)今的市場(chǎng)環(huán)境進(jìn)行分析,可以預(yù)測(cè)到每個(gè)業(yè)務(wù)的發(fā)展?fàn)顟B(tài),以及每個(gè)業(yè)務(wù)與發(fā)生過(guò)的商業(yè)行為之間的關(guān)系,有了這些信息,可以準(zhǔn)確的制定企業(yè)未來(lái)的發(fā)展戰(zhàn)略,并且可以制定與市場(chǎng)環(huán)境相適應(yīng)的營(yíng)銷策略。
綜上所述,目前數(shù)據(jù)挖掘技術(shù)是企業(yè)進(jìn)行客戶關(guān)系管理的最有效的工具,準(zhǔn)確的掌握了客戶信息,就是準(zhǔn)確的把握了市場(chǎng)需求,可以為企業(yè)制定完全適應(yīng)于市場(chǎng)的發(fā)展方向。數(shù)據(jù)挖掘技術(shù)的關(guān)鍵作用就是找出潛在客戶,保留忠誠(chéng)客戶,并利用企業(yè)有限的資源,對(duì)這些客戶提供最好的服務(wù),促進(jìn)企業(yè)的不斷發(fā)展。
參考文獻(xiàn):