中文字幕一二三区,亚洲国产片在线观看,国产网站午夜性色,亚洲国产综合精品2022

<menuitem id="ct2o2"><var id="ct2o2"></var></menuitem>
      1. <noscript id="ct2o2"><progress id="ct2o2"><i id="ct2o2"></i></progress></noscript>
        1. 期刊 科普 SCI期刊 投稿技巧 學(xué)術(shù) 出書

          首頁 > 優(yōu)秀范文 > 數(shù)據(jù)挖掘總結(jié)

          數(shù)據(jù)挖掘總結(jié)樣例十一篇

          時(shí)間:2023-03-14 15:21:21

          序論:速發(fā)表網(wǎng)結(jié)合其深厚的文秘經(jīng)驗(yàn),特別為您篩選了11篇數(shù)據(jù)挖掘總結(jié)范文。如果您需要更多原創(chuàng)資料,歡迎隨時(shí)與我們的客服老師聯(lián)系,希望您能從中汲取靈感和知識!

          數(shù)據(jù)挖掘總結(jié)

          篇1

          一 、數(shù)據(jù)挖掘

          隨著數(shù)據(jù)庫技術(shù)的廣泛使用,以及計(jì)算技術(shù)和計(jì)算機(jī)性能與網(wǎng)絡(luò)的迅速發(fā)展,人們面臨著一個(gè)困難的問題,即如何從海量的數(shù)據(jù)中提取出有價(jià)值的信息。查詢功能遠(yuǎn)不能滿足人們的需要,數(shù)據(jù)挖掘應(yīng)運(yùn)而生。有人將數(shù)據(jù)挖掘定義為一個(gè)從數(shù)據(jù)及數(shù)據(jù)庫中抽取隱含的,先前未知的并有潛在價(jià)值的信息的過程。但有人認(rèn)為數(shù)據(jù)挖掘,即數(shù)據(jù)庫中的知識發(fā)現(xiàn),是從大數(shù)據(jù)集中快速高效地發(fā)現(xiàn)令人感興趣的規(guī)則,數(shù)據(jù)挖掘是數(shù)據(jù)庫研究的新領(lǐng)域,所挖掘的知識能夠用于信息、管理、查詢處理、決策支持和過程控制等等。

          數(shù)據(jù)挖掘(DataMining)是通過分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示三個(gè)步驟。隨著計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展和普遍使用,數(shù)據(jù)挖掘成為迫切需要研究的重要

          課題。

          數(shù)據(jù)挖掘涉及多個(gè)學(xué)科方向,主要包括:數(shù)據(jù)庫、統(tǒng)計(jì)學(xué)和人工智能等。數(shù)據(jù)挖掘可按數(shù)據(jù)庫類型、挖掘?qū)ο蟆⑼诰蛉蝿?wù)、挖掘方法與技術(shù)以及應(yīng)用等幾方面進(jìn)行分類。按數(shù)據(jù)庫類型分類:關(guān)系數(shù)據(jù)挖掘、模糊數(shù)據(jù)挖掘、歷史數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘等多種不同數(shù)據(jù)庫的數(shù)據(jù)挖掘類型。按數(shù)據(jù)挖掘?qū)ο蠓诸悾何谋緮?shù)據(jù)挖掘、多媒體數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘。按數(shù)據(jù)挖掘的任務(wù)有:關(guān)聯(lián)分析、時(shí)序模式、聚類、分類、偏差檢測、預(yù)測等。按數(shù)據(jù)挖掘方法和技術(shù)分類:歸納學(xué)習(xí)類、仿生物技術(shù)類、公式發(fā)現(xiàn)類、統(tǒng)計(jì)分析類、模糊數(shù)學(xué)類、可視化技術(shù)類。

          二、數(shù)據(jù)挖掘的主要任務(wù)

          (一)數(shù)據(jù)總結(jié)

          數(shù)據(jù)總結(jié)目的是對數(shù)據(jù)進(jìn)行濃縮,給出它的總體綜合描述。通過對數(shù)據(jù)的總結(jié),數(shù)據(jù)挖掘能夠?qū)?shù)據(jù)庫中的有關(guān)數(shù)據(jù)從較低的個(gè)體層次抽象總結(jié)到較高的總體層次上,從而實(shí)現(xiàn)對原始基本數(shù)據(jù)的總體把握。

          (二)分類

          分類的主要功能是學(xué)會(huì)一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能夠根據(jù)數(shù)據(jù)的屬性將數(shù)據(jù)分派到不同的組中。即:分析數(shù)據(jù)的各種屬性,并找出數(shù)據(jù)的屬性模型,確定哪些數(shù)據(jù)屬于哪些組。這樣我們就可以利用該模型來分析已有數(shù)據(jù),并預(yù)測新數(shù)據(jù)將屬于哪一個(gè)組。

          (三)關(guān)聯(lián)分析

          數(shù)據(jù)庫中的數(shù)據(jù)一般都存在著關(guān)聯(lián)關(guān)系,也就是說,兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性。這種關(guān)聯(lián)關(guān)系有簡單關(guān)聯(lián)和時(shí)序關(guān)聯(lián)兩種。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng),描述一組數(shù)據(jù)項(xiàng)目的密切度或關(guān)系。有時(shí)并不知道數(shù)據(jù)庫中數(shù)據(jù)的關(guān)聯(lián)是否存在精確的關(guān)聯(lián)函數(shù),,即使知道也是不確定的,因此關(guān)聯(lián)分析生成的規(guī)則帶有置信度,置信度級別度量了關(guān)聯(lián)規(guī)則的強(qiáng)度。

          (四)聚類

          當(dāng)要分析的數(shù)據(jù)缺乏描述信息,或者是無法組織成任何分類模式時(shí),可以采用聚類分析。聚類分析是按照某種相近程度度量方法,將用戶數(shù)據(jù)分成一系列有意義的子集合。每一個(gè)集合中的數(shù)據(jù)性質(zhì)相近,不同集合之間的數(shù)據(jù)性質(zhì)相差較大。

          統(tǒng)計(jì)方法中的聚類分析是實(shí)現(xiàn)聚類的一種手段,它主要研究基于幾何距離的聚類。人工智能中的聚類是基于概念描述的。概念描述就是對某類對象的內(nèi)涵進(jìn)行描述,并概括這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。

          三、數(shù)據(jù)挖據(jù)的應(yīng)用

          數(shù)據(jù)挖掘技術(shù)源于商業(yè)的直接需求,因此它在各種商業(yè)領(lǐng)域都存在廣泛的使用價(jià)值?,F(xiàn)在已經(jīng)應(yīng)用數(shù)據(jù)挖掘技術(shù)的領(lǐng)域都是信息量大、環(huán)境復(fù)雜、需要知識幫助進(jìn)行管理和決策的領(lǐng)域。下面介紹一些目前比較活躍的應(yīng)用方向:

          (一)在金融數(shù)據(jù)分析中的應(yīng)用

          多數(shù)銀行和金融機(jī)構(gòu)都提供了豐富多樣的儲蓄,信用,投資,保險(xiǎn)等服務(wù)。他們產(chǎn)生的金融數(shù)據(jù)通常比較完整、可靠,這對系統(tǒng)化的數(shù)據(jù)分析和數(shù)據(jù)挖掘相當(dāng)有利。在具體的應(yīng)用中,采用多維數(shù)據(jù)分析來分析這些數(shù)據(jù)的一般特性,觀察金融市場的變化趨勢;通過特征選擇和屬性相關(guān)性計(jì)算,識別關(guān)鍵因素,進(jìn)行貸款償付預(yù)測和客戶信用分析;利用分類和聚集的方法對用戶群體進(jìn)行識別和目標(biāo)市場分析;使用數(shù)據(jù)可視化、鏈接分析、分類、聚類分析、孤立點(diǎn)分析、序列模式分析等工具偵破洗黑錢和其他金融犯罪行為。

          (二)在電力業(yè)的應(yīng)用

          在電力行業(yè)中,數(shù)據(jù)挖掘技術(shù)主要用于指導(dǎo)設(shè)備更新、業(yè)績評估、指導(dǎo)電力企業(yè)的建設(shè)規(guī)劃、指導(dǎo)電力的生產(chǎn)和購買、指導(dǎo)電力的調(diào)度等。數(shù)據(jù)挖掘在電力企業(yè)的其它方面也有巨大的用處,比如說指導(dǎo)項(xiàng)目管理、安全管理、資源管理、投資組合管理、活動(dòng)分析、銷售預(yù)測、收入預(yù)測、需求預(yù)測、理賠分析等。

          (三)在零售業(yè)中的應(yīng)用

          零售業(yè)是數(shù)據(jù)挖掘的主要應(yīng)用領(lǐng)域,這是因?yàn)榱闶蹣I(yè)積累了大量的銷售數(shù)據(jù),如顧客購買史記錄、貨物進(jìn)出、消費(fèi)與服務(wù)記錄以及流行的電子商務(wù)等等都為數(shù)據(jù)挖掘提供了豐富的數(shù)據(jù)資源。零售數(shù)據(jù)挖掘有助于劃分顧客群體,使用交互式詢問技術(shù)、分類技術(shù)和預(yù)測技術(shù),更精確地挑選潛在的顧客;識別顧客購買行為,發(fā)現(xiàn)顧客購買模式和趨勢,進(jìn)行關(guān)聯(lián)分析,以便更好地進(jìn)行貨架擺設(shè);改進(jìn)服務(wù)質(zhì)量,獲得更好的顧客忠誠度和滿意程度;提高貨品的銷量比率,設(shè)計(jì)更好的貨品運(yùn)輸與分銷策略,減少商業(yè)成本;尋找描述性的模式,以便更好地進(jìn)行市場分析等等。

          (四)在醫(yī)學(xué)上的應(yīng)用

          近年來,生物醫(yī)學(xué)研究有了迅猛地發(fā)展,從新藥的開發(fā)到癌癥治療的突破,到通過大規(guī)模序列模式和基因功能的發(fā)現(xiàn),進(jìn)行人類基因的識別與研究。在人類基因研究領(lǐng)域具有挑戰(zhàn)性的問題是從中找出導(dǎo)致各種疾病的特定基因序列模式。由于數(shù)據(jù)挖掘中已經(jīng)有許多有意義的序列模式分析和相似檢索技術(shù),因此數(shù)據(jù)挖掘成為DNA分析中的強(qiáng)有力工具。基因序列的相關(guān)分析,遺傳研究中的路徑分析等。近期DNA分析的研究成果已經(jīng)促成了對許多疾病和殘疾基因成因的發(fā)現(xiàn),以及對疾病診斷、預(yù)防和治療的新藥物、新方法的發(fā)現(xiàn)。

          (五)在高校和科研單位以及其他領(lǐng)域的應(yīng)用

          主要是用于海量信息數(shù)據(jù)的抽取,提供給教研和科研人員有價(jià)值的數(shù)據(jù)。比如在數(shù)字圖書館方面可以引入數(shù)據(jù)挖掘技術(shù)。同時(shí)還可以應(yīng)用的電子商務(wù)等等眾多領(lǐng)域。

          參考文獻(xiàn)

          篇2

          一、旅游業(yè)數(shù)據(jù)挖掘國內(nèi)外研究現(xiàn)狀

          隨著我國的旅游業(yè)的迅猛發(fā)展,旅游產(chǎn)業(yè)正邁向國際化的軌道,傳統(tǒng)旅游業(yè)積累的海量數(shù)據(jù),沒有被有效利用,資源被極大浪費(fèi)。將數(shù)據(jù)挖掘引入到旅游產(chǎn)業(yè)是大勢所趨。

          當(dāng)前數(shù)據(jù)挖掘在旅游信息化建設(shè)中的應(yīng)用與研究情況主要集中在高校理論界的研究, 大多數(shù)研究僅僅是學(xué)術(shù)研究,真正運(yùn)用到旅游行業(yè)的文章多是從某個(gè)具體的方面出發(fā),針對個(gè)別應(yīng)用進(jìn)行數(shù)據(jù)挖掘的融合。筆者主要研究決策樹方法在旅游信息化建設(shè)中的應(yīng)用。目前,決策樹算法有CLS算法、ID3算法、C4.5算法、CART算法、SLIQ算法、Z統(tǒng)計(jì)算法、并行決策樹算法和SPRINT算法等。不同算法在執(zhí)行效率、輸出結(jié)果、可擴(kuò)容性、可理解性、預(yù)測的準(zhǔn)確性等方面各不相同??偟膩碚f,這么多決策樹算法各有優(yōu)缺點(diǎn),真正將數(shù)據(jù)挖掘運(yùn)用到整個(gè)旅游信息化建設(shè)中還有很多問題需要解決。

          二、旅游業(yè)數(shù)據(jù)挖掘算法選擇

          數(shù)據(jù)挖掘中常用的基本分類算法有決策樹、貝葉斯、基于規(guī)則的算法等等。

          其中,決策樹是目前主流的分類技術(shù),己經(jīng)成功的應(yīng)用于更多行業(yè)的數(shù)據(jù)分析。在關(guān)聯(lián)規(guī)則挖掘研究中,最重要的是Apriori算法,這個(gè)算法后來成為絕大多數(shù)關(guān)聯(lián)規(guī)則分類的基礎(chǔ)。聚類算法也是數(shù)據(jù)挖掘技術(shù)中極為重要的組成部分。與分類技術(shù)不同的是,聚類不要求對數(shù)據(jù)進(jìn)行事先標(biāo)定,就數(shù)據(jù)挖掘功能而言,聚類能夠可以針對數(shù)據(jù)的相異度來分析評估數(shù)據(jù),可以作為其他對發(fā)現(xiàn)的簇運(yùn)行的數(shù)據(jù)挖掘算法的預(yù)處理步驟。

          各種算法分類模型建立有所不同,但原理是大致相同的。筆者考慮決策樹算法結(jié)構(gòu)簡單,便于理解,且很擅長處理非數(shù)值型數(shù)據(jù),建模效率高,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理的優(yōu)點(diǎn),結(jié)合旅游產(chǎn)業(yè)數(shù)據(jù)特點(diǎn),故作重點(diǎn)分析。

          三、旅游業(yè)數(shù)據(jù)挖掘系統(tǒng)需求分析

          旅游業(yè)數(shù)據(jù)挖掘系統(tǒng)的基本特點(diǎn)如下:統(tǒng)計(jì)旅游興趣;購物消費(fèi)趨向;推薦其感興趣的旅游景點(diǎn);在后臺管理中,通過決策樹算法對游客數(shù)量、平均年齡、景點(diǎn)收費(fèi)、游客來自地區(qū)等進(jìn)行分析總結(jié),為旅游消費(fèi)者和旅游管理者提供服務(wù):為消費(fèi)者提供吃住行購?qiáng)蕵诽鞖飧鞣矫嫘畔⒉樵?、機(jī)票、車船票、酒店、景區(qū)門票、餐飲等方面的預(yù)定與現(xiàn)金支付、第三方支付、消費(fèi)者評價(jià)、在線咨詢等方面的便利、快捷服務(wù)。為管理者提供推薦、游客管理、線路管理、景點(diǎn)管理、特色服務(wù)管理、機(jī)票管理、在線咨詢管理、旅游客戶關(guān)系管理等服務(wù),提高整體服務(wù)效率和水平。

          四、旅游業(yè)數(shù)據(jù)挖掘系統(tǒng)的實(shí)現(xiàn)

          旅游業(yè)信息管理系統(tǒng)包括游客信息管理與游客信息分析兩個(gè)子模塊。根據(jù)系統(tǒng)日常運(yùn)行出現(xiàn)的問題及時(shí)對系統(tǒng)進(jìn)行維護(hù),如添加或者刪除某個(gè)模塊功能,系統(tǒng)整體運(yùn)行速度的更近等。系統(tǒng)運(yùn)用數(shù)據(jù)庫層、持久化層、業(yè)務(wù)邏輯層、表示層四層體系結(jié)構(gòu), 主要利用ID3算法達(dá)到旅游數(shù)據(jù)信息的快速、準(zhǔn)確分類。考慮了游客與酒店之間的關(guān)系、游客與旅游路線之間的關(guān)系、游客與旅游景點(diǎn)之間的關(guān)系、游客與機(jī)票、車票之間的關(guān)系、管理員與游客之間的關(guān)系、邏輯結(jié)構(gòu)設(shè)計(jì)。程序之間的獨(dú)立性增加,易于擴(kuò)展, 規(guī)范化得到保證的同時(shí)提高了系統(tǒng)的安全性。

          詳細(xì)功能設(shè)計(jì)包括:用戶登錄、用戶查詢、預(yù)定及支付、后臺管理、旅游客戶管理和數(shù)據(jù)分析等方面。本系統(tǒng)中主要運(yùn)用Java語言就行邏輯上的處理。系統(tǒng)主要使用 Struts2和Hibernate這兩個(gè)框架來進(jìn)行整個(gè)系統(tǒng)的搭建。其中Struts2主要處理業(yè)務(wù)邏輯,而Hibernate主要是處理數(shù)據(jù)存儲、查詢等操作。系統(tǒng)采用Tomcat服務(wù)器。系統(tǒng)模塊需要實(shí)現(xiàn)酒店推薦實(shí)現(xiàn)、景點(diǎn)推薦實(shí)現(xiàn)、天氣預(yù)報(bào)實(shí)現(xiàn)、旅游線路實(shí)現(xiàn)、特產(chǎn)推薦、數(shù)據(jù)分析展現(xiàn)功能、報(bào)表數(shù)據(jù)獲取、景區(qū)客流量變化分析實(shí)現(xiàn)等。需要進(jìn)行后臺信息管理等功能測試以及時(shí)間測試、數(shù)據(jù)測試等性能測試。

          篇3

          中圖分類號:TP399 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9599?。?012) 19-0000-02

          數(shù)據(jù)挖掘技術(shù)是計(jì)算機(jī)領(lǐng)域和人工智能領(lǐng)域的關(guān)鍵技術(shù)。數(shù)據(jù)挖掘技術(shù)可以將大量的數(shù)據(jù)轉(zhuǎn)換為有用的知識和信息,因此引起了信息產(chǎn)業(yè)界的廣泛關(guān)注。近年來,在作為信息和知識的集散地和發(fā)源地的高校圖書館,數(shù)據(jù)挖掘技術(shù)的應(yīng)用更為廣泛。

          1 數(shù)據(jù)挖掘概述

          數(shù)據(jù)挖掘(Data Mining),就是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的過程。在人工智能領(lǐng)域,習(xí)慣上又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),也有人把數(shù)據(jù)挖掘視為數(shù)據(jù)庫中知識發(fā)現(xiàn)過程的一個(gè)基本步驟[1]。作為數(shù)據(jù)庫中的知識發(fā)現(xiàn)的一種先進(jìn)技術(shù),數(shù)據(jù)挖掘通過總結(jié)要查詢的內(nèi)容的模式,對其間存在的規(guī)律進(jìn)行搜索,輔助決策者對當(dāng)前數(shù)據(jù)及歷史數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其中隱藏的模式和關(guān)系,進(jìn)而對未來可能發(fā)生的事情進(jìn)行預(yù)測。因此,數(shù)據(jù)挖掘技術(shù)在高校圖書館中有著廣泛的應(yīng)用。

          2 數(shù)據(jù)挖掘技術(shù)在高校圖書館的應(yīng)用

          2.1 提高圖書館的決策能力

          由于數(shù)據(jù)挖掘技術(shù)能夠從眾多的數(shù)據(jù)中發(fā)現(xiàn)有用的知識和信息,因此被廣泛應(yīng)用在圖書館的管理中,領(lǐng)導(dǎo)通過對挖掘出的有用信息進(jìn)行分析,可以提高決策的準(zhǔn)確性和可行性。比如,通過數(shù)據(jù)挖掘技術(shù)可以對圖書館的圖書借閱情況進(jìn)行挖掘和分析,分析每類讀者的借閱行為特征,發(fā)現(xiàn)借閱規(guī)律,為圖書館的管理提供可行的合理的建議[2]。數(shù)據(jù)挖掘技術(shù)可以將圖書館管理系統(tǒng)中的內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)結(jié)合起來進(jìn)行分析,為領(lǐng)導(dǎo)提供靈活的、隨時(shí)可用的決策信息。數(shù)據(jù)挖掘技術(shù)可以從歷史數(shù)據(jù)中找出某種規(guī)律,發(fā)現(xiàn)某種潛在的模式,以此預(yù)測未來,提供決策信息[3]。

          2.2 輔助圖書館的圖書采購

          此外,通過對數(shù)據(jù)挖掘技術(shù)的結(jié)果進(jìn)行分析和總結(jié),可以提供各種預(yù)測性信息和分析報(bào)告,可以科學(xué)合理的指導(dǎo)圖書館采購圖書,從而降低圖書采購人員的主觀因素帶來的影響,可以科學(xué)的、準(zhǔn)確的和全面的提高決策的能力,提升決策的水平。數(shù)據(jù)挖掘技術(shù)應(yīng)用于圖書采購的過程包括原始數(shù)據(jù)的收集、預(yù)處理、數(shù)據(jù)變換、數(shù)據(jù)挖掘、結(jié)果分析和采購計(jì)劃的制訂五個(gè)步驟[4]。

          1.原始數(shù)據(jù)的收集。這一過程是基礎(chǔ),可以為下面幾個(gè)環(huán)節(jié)提供一定的數(shù)據(jù)源,提供的數(shù)據(jù)源可以用在后期的數(shù)據(jù)挖掘中。在實(shí)踐應(yīng)用中,這一環(huán)節(jié)主要收集圖書館辦公自動(dòng)化系統(tǒng)數(shù)據(jù)庫里的相關(guān)業(yè)務(wù)數(shù)據(jù),主要包括以下內(nèi)容:①讀者基本信息數(shù)據(jù)。比如讀者的姓名、性別、所在院系、借閱證號等。②流通借閱數(shù)據(jù)。利用數(shù)據(jù)挖掘技術(shù)獲得的這部分信息,可以反映圖書館的文獻(xiàn)利用情況,通過分析、統(tǒng)計(jì)和總結(jié)這些數(shù)據(jù),有助于掌握讀者的需求和書刊的使用情況,進(jìn)行提供一定的預(yù)測信息。③文獻(xiàn)信息檢索數(shù)據(jù),這些數(shù)據(jù)的主要功能在于如實(shí)地向數(shù)據(jù)挖掘人員反饋用戶的實(shí)際需求和借閱傾向,并挖掘讀者需求數(shù)據(jù)。④圖書館所藏的圖書數(shù)據(jù):主要包括書的題名、作者、出版社、出版日期、索書號、館藏位置、購入日期等數(shù)據(jù)。

          2.原始數(shù)據(jù)的預(yù)處理。這一環(huán)節(jié)就是在數(shù)據(jù)挖掘前對一些有問題的數(shù)據(jù)進(jìn)行處理,這些數(shù)據(jù)大多數(shù)是不完整的、不一致的或有噪聲的,這些數(shù)據(jù)是圖書館自動(dòng)化系統(tǒng)數(shù)據(jù)庫數(shù)據(jù)中的一部分。在數(shù)據(jù)挖掘前處理這些問題數(shù)據(jù)是非常有必要的,可以從根本上提高數(shù)據(jù)挖掘的效率和所獲知識的質(zhì)量。

          3.數(shù)據(jù)變換。這一過程就是對前面兩個(gè)環(huán)節(jié)所獲得的有效數(shù)據(jù)進(jìn)行總結(jié)、分析、聚集和歸納,使數(shù)據(jù)更適合于挖掘,滿足不同的數(shù)據(jù)挖掘的需求。

          4.數(shù)據(jù)挖掘。數(shù)據(jù)挖掘過程的主要工作就是設(shè)計(jì)選擇一種合理的算法,使當(dāng)前的數(shù)據(jù)情況和挖掘的目標(biāo)相匹配,使其一致,比如遺傳算法等。通過分析讀者基本信息數(shù)據(jù)和流通借閱數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,某類讀者和某類圖書之間的關(guān)聯(lián)度會(huì)更加清晰的被數(shù)據(jù)挖掘人員所理解。

          5.結(jié)果分析和采購計(jì)劃制訂。一般情況下,數(shù)據(jù)挖掘所獲得的結(jié)果并不是可視化的,需要通過一些工具比如可視化工具和知識表示技術(shù)對其評估和解釋。通過數(shù)據(jù)挖掘,可以獲得檢索頻率和借閱頻次較高的圖書信息。借助這些信息,可以對各類文獻(xiàn)的利用率和需求狀況進(jìn)行科學(xué)合理的分析,從而輔助采購人員科學(xué)地篩選文獻(xiàn)種類。

          2.3 提升圖書館的信息服務(wù)水平

          圖書館的信息服務(wù)一般是被動(dòng)服務(wù),也就是圖書館員定期向用戶提供一些資料,比如課題資料、項(xiàng)目資料等;除此之外,圖書館員還要逐一解答用戶的信息請求。由于當(dāng)前的科技發(fā)展日新月異,知識更新速度快,而這種被動(dòng)服務(wù)模式反應(yīng)較慢, 不能滿足現(xiàn)實(shí)發(fā)展的需要。數(shù)據(jù)挖掘技術(shù)的廣泛應(yīng)用,使圖書館由被動(dòng)服務(wù)轉(zhuǎn)為主動(dòng)服務(wù),使傳統(tǒng)圖書館轉(zhuǎn)變?yōu)橹鲃?dòng)性、智能型的信息服務(wù)機(jī)構(gòu)。

          3 數(shù)據(jù)挖掘技術(shù)對高校圖書館帶來的挑戰(zhàn)

          (1)從異構(gòu)數(shù)據(jù)源中挖掘信息。筆者認(rèn)為,從異構(gòu)數(shù)據(jù)源中挖掘信息也就是從多個(gè)不同的相關(guān)的數(shù)據(jù)源系統(tǒng)的集合中挖掘相關(guān)的信息并對其分析綜合,從而產(chǎn)生有用的信息和知識。在當(dāng)今的網(wǎng)絡(luò)時(shí)代,信息技術(shù)日新月異,新技術(shù)層出不窮,這就要求圖書館的專業(yè)技術(shù)人員能夠駕馭新興技術(shù),能夠從被各種網(wǎng)絡(luò)連接起來的具有不同語義的多種數(shù)據(jù)源構(gòu)成的分布式異構(gòu)數(shù)據(jù)庫中挖掘相關(guān)信息。

          (2)數(shù)據(jù)挖掘結(jié)果的不同形式表示。由于當(dāng)前圖書館通過數(shù)據(jù)挖掘技術(shù)獲得的數(shù)據(jù)具有不確定性,所以數(shù)據(jù)挖掘的結(jié)果會(huì)有多種類型,其表示形式也不同。圖書館的用戶也許會(huì)要求挖掘出不同知識,這就需要圖書館工作人員從一個(gè)大規(guī)模的數(shù)據(jù)集中挖掘出不同的知識,并從不同的角度來審視,并以不同的形式表示挖掘的結(jié)果[5]。

          (3)在不同的抽象層次上進(jìn)行交互式挖掘。在數(shù)據(jù)挖掘之前,很難從一個(gè)大規(guī)模的數(shù)據(jù)庫中預(yù)測出能挖掘出什么信息,因此,應(yīng)該以一個(gè)搜索過程來處理復(fù)雜的數(shù)據(jù)挖掘查詢,對于必要的中間結(jié)果務(wù)必保留,以供進(jìn)一步挖掘使用。在挖掘過程中,用戶通過不斷地修改其查詢請求,對挖掘目標(biāo)進(jìn)行動(dòng)態(tài)調(diào)整,能使挖掘過程得到有效地推進(jìn)。因此,系統(tǒng)需要對挖掘的中間結(jié)果以不同的角度進(jìn)行觀察,并提供用戶觀察數(shù)據(jù)的靈活性。

          4 結(jié)語

          數(shù)據(jù)挖掘技術(shù)在高校圖書館的應(yīng)用范圍很廣,除了上述應(yīng)用外,在學(xué)科管理、館藏資源建設(shè)、信息咨詢、圖書館的現(xiàn)代化建設(shè)與管理等方面都有廣泛的應(yīng)用。通過對高校圖書館各種數(shù)據(jù)、信息的挖掘,可以揭示隱藏在期間的各種重要關(guān)系,圖書館員應(yīng)該學(xué)習(xí)這方面的新技術(shù)、新發(fā)展,為圖書館的發(fā)展做出更大的貢獻(xiàn)。

          參考文獻(xiàn):

          [1]邱曉輝.知識發(fā)現(xiàn)與數(shù)據(jù)挖掘分析[J].情報(bào)探索,2011,(1).

          [2]張煒,洪霞.基于讀者利用挖掘的圖書館決策與應(yīng)用分析[J].現(xiàn)代情報(bào),2009,29(7).

          篇4

          0引言

          近幾年,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和對人們工作生活的不斷滲透,隨著移動(dòng)互聯(lián)、物聯(lián)網(wǎng)、云計(jì)算、智慧工程等新興信息技術(shù)的出現(xiàn)和普及,數(shù)據(jù)在人們的生活中呈爆炸式增長,人們開始進(jìn)入大數(shù)據(jù)時(shí)代。由于海量數(shù)據(jù)中記錄了企業(yè)的發(fā)展、運(yùn)營以及人們生活和行為的點(diǎn)點(diǎn)滴滴,所以,挖掘海量數(shù)據(jù)背后存在的模式、規(guī)律和趨勢,并結(jié)合各行各業(yè)進(jìn)行創(chuàng)新應(yīng)用,已經(jīng)成為這個(gè)時(shí)代的重要課題。我國電子商務(wù)經(jīng)過近20年的發(fā)展和數(shù)據(jù)累積,已經(jīng)從用戶為王、銷售為王進(jìn)入到數(shù)據(jù)為王的階段,如何針對用戶消費(fèi)行為的分析,提升電子商務(wù)的運(yùn)營效率,促進(jìn)精準(zhǔn)營銷的開展,增加客戶黏性,從而實(shí)現(xiàn)電子商務(wù)的智能化發(fā)展,是當(dāng)前電子商務(wù)發(fā)展的重中之重。因此,在大數(shù)據(jù)背景下,為適應(yīng)行業(yè)發(fā)展需求,國內(nèi)外很多高校,尤其是應(yīng)用型本科院校,在電子商務(wù)專業(yè)本科生中陸續(xù)開設(shè)大數(shù)據(jù)分析與挖掘系列的課程,其中作為大數(shù)據(jù)研究與應(yīng)用的重要支撐技術(shù)的數(shù)據(jù)挖掘,是其中一門重要課程。

          1電子商務(wù)專業(yè)開設(shè)數(shù)據(jù)挖掘課程的必要性

          1.1行業(yè)發(fā)展的必然要求

          進(jìn)入大數(shù)據(jù)時(shí)代,“互聯(lián)網(wǎng)+”技術(shù)與傳統(tǒng)行業(yè)深度融合,電子商務(wù)數(shù)據(jù)已覆蓋了從用戶、商家、第三方、物流等一系列商務(wù)環(huán)節(jié)。因此,充分利用大數(shù)據(jù),有效分析和挖掘大數(shù)據(jù)的價(jià)值和規(guī)律,已成為推動(dòng)電子商務(wù)深化發(fā)展的重要引擎。首先,數(shù)據(jù)挖掘技術(shù)是電子商務(wù)智能化的基礎(chǔ)。由于電子商務(wù)的活動(dòng)從開始就具備了信息電子化的先天優(yōu)勢,所以,用戶在電子商務(wù)網(wǎng)站上發(fā)生的所有行為信息都被日志記錄,包括用戶對產(chǎn)品的搜索、瀏覽、在購物車加入或取出商品、收藏產(chǎn)品、對商品的討論、評價(jià)、分享等。對這些用戶行為信息進(jìn)行收集和分析,可以挖掘用戶的興趣特征和潛在需求,實(shí)現(xiàn)對用戶的個(gè)性化推薦。其次,數(shù)據(jù)挖掘技術(shù)支撐電子商務(wù)的精細(xì)化營銷的實(shí)現(xiàn)。通過網(wǎng)絡(luò)爬蟲收集用戶在消費(fèi)過程種對商品的興趣、偏好、評價(jià)等數(shù)據(jù),并進(jìn)行分析挖掘,可以更好地對用戶進(jìn)行細(xì)分,針對性地制定營銷策略,更準(zhǔn)確地把握用戶態(tài)度和對產(chǎn)品的情感傾向,及時(shí)控制營銷中的不良影響,從而提升用戶體驗(yàn)和用戶黏性。第三,數(shù)據(jù)挖掘技術(shù)推動(dòng)電商物流的優(yōu)化。通過對電商物流數(shù)據(jù)的分析和挖掘,可以預(yù)測市場需求變化的規(guī)律,幫助企業(yè)合理地進(jìn)行庫存管理和控制,優(yōu)化配送路線,進(jìn)行物流中心選址策略分析等。可見,對于電子商務(wù)專業(yè)大學(xué)生開設(shè)數(shù)據(jù)挖掘課程是行業(yè)發(fā)展的必然需求。

          1.2專業(yè)人才培養(yǎng)的迫切需求

          電子商務(wù)是利用信息和通信技術(shù),通過Internet在個(gè)人、組織和企業(yè)之間進(jìn)行商務(wù)活動(dòng)和處理商務(wù)關(guān)系的一種活動(dòng)。隨著云計(jì)算、物聯(lián)網(wǎng)及移動(dòng)互聯(lián)等新興信息技術(shù)的迅速發(fā)展,大量傳感器和監(jiān)控設(shè)備不間斷的數(shù)據(jù)采集和行業(yè)數(shù)據(jù)的持續(xù)積累,使大數(shù)據(jù)成為時(shí)代的鮮明特點(diǎn)。教育部電子商務(wù)專業(yè)教學(xué)指導(dǎo)委員會(huì)王偉軍教授等人對138個(gè)電子商務(wù)專業(yè)本科人才的市場招聘需求進(jìn)行研究發(fā)現(xiàn),網(wǎng)絡(luò)營銷與數(shù)據(jù)分析是當(dāng)前電子商務(wù)專業(yè)的主要能力需求,而目前我國開設(shè)電子商務(wù)專業(yè)的高校中開設(shè)數(shù)據(jù)挖掘及其相關(guān)課程的只有14所。因此,該類別人才缺口目前較為嚴(yán)重,市場需求量較大。為了適應(yīng)時(shí)展需求,高校在人才培養(yǎng)時(shí)既要注重電子商務(wù)運(yùn)營管理能力的培養(yǎng),同時(shí)更要注意商務(wù)數(shù)據(jù)分析與挖掘能力培養(yǎng)。培養(yǎng)同時(shí)具備這兩種能力,并且可以將兩種能力有效結(jié)合起來的應(yīng)用型人才,是當(dāng)前高校電子商務(wù)專業(yè)發(fā)展的趨勢和方向??傊?,在當(dāng)前的電子商務(wù)活動(dòng)中,商務(wù)管理是核心,數(shù)據(jù)分析與挖掘是手段。在大數(shù)據(jù)背景下,要提升電子商務(wù)的管理效率,實(shí)現(xiàn)電子商務(wù)的智能化發(fā)展,必須應(yīng)用好數(shù)據(jù)挖掘這把利器。因此,在電子商務(wù)專業(yè)開設(shè)數(shù)據(jù)挖掘課程,是行業(yè)發(fā)展的必然要求,也是專業(yè)發(fā)展的迫切要求。

          2電子商務(wù)專業(yè)數(shù)據(jù)挖掘課程教學(xué)思路設(shè)計(jì)

          數(shù)據(jù)挖掘是一門交叉學(xué)科,涉及統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫、機(jī)器學(xué)習(xí)、高性能計(jì)算等多門學(xué)科相關(guān)內(nèi)容,要求學(xué)生具有較為扎實(shí)的基礎(chǔ)知識。由于課程難度較大,早期高校都把該課程作為研究生的專業(yè)課程。為適應(yīng)市場需求和行業(yè)發(fā)展,近年來,也有些高校將此課作為本科生高年級選修課開設(shè)。從該課程的傳統(tǒng)教學(xué)上來看,由于學(xué)生理論基礎(chǔ)不夠扎實(shí),課程教學(xué)又多側(cè)重算法的分析與實(shí)現(xiàn),導(dǎo)致該課程存在教學(xué)難度大、理論教學(xué)過多、學(xué)習(xí)興趣難以提高等問題??紤]到傳統(tǒng)教學(xué)的問題以及電子商務(wù)專業(yè)培養(yǎng)應(yīng)用型本科人才的實(shí)際情況,筆者認(rèn)為該課程在教學(xué)過程中應(yīng)“輕算法,重應(yīng)用”,以啟發(fā)學(xué)生數(shù)據(jù)思維為主,以理解算法思路為主(忽略細(xì)節(jié)實(shí)現(xiàn)),以合理構(gòu)建數(shù)據(jù)挖掘模型、正確解讀數(shù)據(jù)挖掘結(jié)果為主。在組織教學(xué)時(shí),采用基于場景的啟發(fā)式教學(xué)方式。該課程在講授每個(gè)數(shù)據(jù)挖掘方法時(shí),都通過一個(gè)電子商務(wù)問題進(jìn)行導(dǎo)入;通過本節(jié)所授方法,形成解決問題的思路;最后通過專門數(shù)據(jù)挖掘軟件進(jìn)行方法的應(yīng)用,通過對挖掘結(jié)果的解讀分析,為導(dǎo)入問題的決策分析提供依據(jù)。通過這種由淺入深,由易到難的方式,引起學(xué)生學(xué)習(xí)興趣,激發(fā)學(xué)生主動(dòng)思考,真正成為課堂的主體。實(shí)踐環(huán)節(jié)是學(xué)生理論聯(lián)系實(shí)際的關(guān)鍵步驟,選用合適的數(shù)據(jù)挖掘軟件工具非常重要,對于電子商務(wù)專業(yè)的學(xué)生,數(shù)據(jù)挖掘重在問題的建模和方法的應(yīng)用,所以,該課程選擇的數(shù)據(jù)挖掘工具是IBM公司的SPSSModeler。SPSSModeler擁有豐富的數(shù)據(jù)挖掘算法,本課程涉及到的分類、聚類、關(guān)聯(lián)分析、時(shí)序分析、社會(huì)網(wǎng)絡(luò)分析挖掘等主要數(shù)據(jù)挖掘功能均可實(shí)現(xiàn),而且其操作簡單易用,分析結(jié)果直觀易懂,可以使用戶方便快捷地實(shí)現(xiàn)數(shù)據(jù)挖掘。學(xué)生通過對算法基本思路的了解,針對實(shí)驗(yàn)問題設(shè)計(jì)數(shù)據(jù)挖掘方案,并通過數(shù)據(jù)挖掘軟件進(jìn)行算法的應(yīng)用和結(jié)果的分析,理論和時(shí)間的順利銜接,進(jìn)一步加深學(xué)生對數(shù)據(jù)挖掘方法的認(rèn)識和理解。

          3電子商務(wù)專業(yè)數(shù)據(jù)挖掘課程教學(xué)內(nèi)容設(shè)計(jì)

          數(shù)據(jù)挖掘課程主要講解數(shù)據(jù)挖掘的基本概念、主要方法和技術(shù)、應(yīng)用情況及發(fā)展趨勢,目的在于啟發(fā)學(xué)生的數(shù)據(jù)思維,提升學(xué)生數(shù)據(jù)分析與挖掘的能力,深入理解電子商務(wù)數(shù)據(jù)在電子商務(wù)中的重要地位和作用,實(shí)現(xiàn)商務(wù)管理和數(shù)據(jù)挖掘的有機(jī)結(jié)合。由于數(shù)據(jù)挖掘課程理論性和應(yīng)用性均較強(qiáng),反映在教學(xué)要求上,既要重視理論學(xué)習(xí),又要重視實(shí)踐環(huán)節(jié)。具體來說,就是一方面通過理論教學(xué)使學(xué)生對理論內(nèi)容有較深入的理解和領(lǐng)悟;另一方面結(jié)合實(shí)踐教學(xué),鼓勵(lì)學(xué)生多動(dòng)手,多思考,綜合運(yùn)用所學(xué)知識分析和解決實(shí)際問題。

          3.1理論教學(xué)設(shè)計(jì)

          針對大數(shù)據(jù)時(shí)代的數(shù)據(jù)特點(diǎn)和應(yīng)用特點(diǎn),在數(shù)據(jù)挖掘課程的理論教學(xué)設(shè)計(jì)時(shí),其內(nèi)容不僅包括傳統(tǒng)的基礎(chǔ)性的分類、聚類、關(guān)聯(lián)分析、時(shí)序分析等數(shù)據(jù)挖掘方法,還注重根據(jù)電子商務(wù)行業(yè)特點(diǎn)進(jìn)行知識的拓展介紹,比如在將關(guān)聯(lián)分析的時(shí)候,除了傳統(tǒng)的購物籃分析,還增加了序列模式分析內(nèi)容;比如在結(jié)合社會(huì)化電子商務(wù)的發(fā)展,對社會(huì)網(wǎng)絡(luò)分析、文本挖掘等前沿?cái)?shù)據(jù)挖掘知識也進(jìn)行了一定的拓展介紹。這些拓展內(nèi)容,不但豐富了學(xué)生的知識體系,也為部分學(xué)生的課下深度擴(kuò)展指明了方向。我校電子商務(wù)專業(yè)的數(shù)據(jù)挖掘課程總學(xué)時(shí)為48學(xué)時(shí),其中理論教學(xué)32學(xué)時(shí),主要內(nèi)容及其學(xué)時(shí)分配如表1所示。表1數(shù)據(jù)挖掘課程理論教學(xué)安排序號章節(jié)標(biāo)題內(nèi)容提要學(xué)時(shí)1數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘基本概念與功能;基本流程與步驟;基本方法與應(yīng)用;拓展:數(shù)據(jù)庫,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系22數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗;數(shù)據(jù)的集成與轉(zhuǎn)換23分類分析決策樹分類;貝葉斯分類;分類特點(diǎn)及結(jié)果分析64聚類分析K-means聚類;兩步聚類;聚類特點(diǎn)與結(jié)果分析65關(guān)聯(lián)分析頻繁項(xiàng)集;關(guān)聯(lián)規(guī)則挖掘;關(guān)聯(lián)分析效果評價(jià);拓展:序列模式分析86時(shí)序分析移動(dòng)平均模型;指數(shù)平滑模型;拓展:ARIMA模型67數(shù)據(jù)挖掘發(fā)展趨勢社會(huì)網(wǎng)絡(luò)分析;文本挖掘;Web挖掘2理論教學(xué)在組織時(shí),基本上以“課堂引例-問題分析-算法思路講解-課后練習(xí)”的方式展開。通過實(shí)例分析,給學(xué)生介紹各種算法的基本思想和相關(guān)概念,引起學(xué)生學(xué)習(xí)興趣。在講授算法時(shí),通過具體的簡單數(shù)據(jù)演算實(shí)例來分析數(shù)據(jù)挖掘的過程和結(jié)果,使學(xué)生在實(shí)際案例中明白數(shù)據(jù)挖掘算法在處理數(shù)據(jù)過程中的作用和意義。雖然該課程開設(shè)在電子商務(wù)專業(yè)的第六學(xué)期,但是,由于數(shù)據(jù)挖掘課程本身需要多個(gè)學(xué)科的基礎(chǔ)知識,在目前的大學(xué)課程體系內(nèi),難以在有限的時(shí)間內(nèi)開設(shè)全部先修課程。因此,在理論講解時(shí),對涉及到學(xué)生比較生疏的知識點(diǎn),應(yīng)根據(jù)學(xué)生的知識水平,予以補(bǔ)充說明。例如,在講決策樹分類時(shí),對于信息論中信息熵基本概念和計(jì)算方法,可以結(jié)合實(shí)際數(shù)據(jù)集合,進(jìn)行講解和計(jì)算。

          3.2實(shí)驗(yàn)教學(xué)設(shè)計(jì)

          數(shù)據(jù)挖掘是一門緊密結(jié)合實(shí)際應(yīng)用的課程,具有較強(qiáng)的實(shí)踐性。實(shí)踐教學(xué)環(huán)節(jié)中,首先教師講解實(shí)驗(yàn)步驟,然后安排學(xué)生進(jìn)行實(shí)驗(yàn),并對實(shí)驗(yàn)結(jié)果做詳細(xì)分析與評價(jià)。每個(gè)實(shí)驗(yàn)要求學(xué)生完成以下幾方面的內(nèi)容:(1)根據(jù)實(shí)驗(yàn)問題設(shè)計(jì)數(shù)據(jù)挖掘方案和實(shí)施流程;(2)進(jìn)行數(shù)據(jù)預(yù)處理,并構(gòu)建數(shù)據(jù)挖掘模型;(3)解讀數(shù)據(jù)挖掘結(jié)果,并聯(lián)系實(shí)驗(yàn)問題進(jìn)行具體分析;(4)實(shí)驗(yàn)拓展與總結(jié)。在實(shí)驗(yàn)拓展和總結(jié)部分,可以設(shè)計(jì)一些開放性的題目,比如在進(jìn)行關(guān)聯(lián)分析時(shí),可以設(shè)計(jì)這樣的問題“如果支持度閾值設(shè)置時(shí)降低十個(gè)百分點(diǎn),頻繁項(xiàng)集會(huì)有哪些變化?關(guān)聯(lián)規(guī)則的準(zhǔn)確性和適用性會(huì)有哪些方面的變化?”。在實(shí)驗(yàn)環(huán)境下,學(xué)生可以通過對比實(shí)驗(yàn),比較容易得到結(jié)果,而在總結(jié)這些變化規(guī)律時(shí),又可以強(qiáng)化和鞏固對關(guān)聯(lián)規(guī)則、頻繁項(xiàng)集、支持度、置信度等這些概念和指標(biāo)意義的理解,從而更好的應(yīng)用在以后的工作實(shí)踐中。結(jié)合電子商務(wù)活動(dòng)特點(diǎn)以及數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用,該課程的實(shí)驗(yàn)是16學(xué)時(shí)。在實(shí)驗(yàn)設(shè)計(jì)時(shí),共設(shè)計(jì)了五個(gè)單人實(shí)驗(yàn)和一個(gè)綜合性多人實(shí)驗(yàn).由于使用數(shù)據(jù)挖掘技術(shù)處理實(shí)際問題時(shí),很多時(shí)候需要綜合運(yùn)用一些數(shù)據(jù)挖掘方法,其設(shè)計(jì)方案不止一種,分析結(jié)果也不一定完全一致。為激發(fā)學(xué)生的主觀能動(dòng)性,本課程在最后需要每個(gè)小組共同完成一個(gè)綜合性的數(shù)據(jù)挖掘作業(yè)。研究表明,對于本科生來說,指導(dǎo)教師給出一些具體的題目,如大學(xué)生消費(fèi)狀況預(yù)測、校園共享單車滿意度分析等,這些熱點(diǎn)問題更容易激發(fā)學(xué)生的學(xué)習(xí)興趣。綜合作業(yè)從數(shù)據(jù)挖掘方案的設(shè)計(jì)、數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)建模、結(jié)果分析以及報(bào)告撰寫全部由小組成員協(xié)作完成,通過這樣一個(gè)完整的分析問題、解決問題的過程,不但可以鍛煉學(xué)生綜合應(yīng)用知識的能力,也可以鍛煉學(xué)生的溝通寫作能力。在綜合性作業(yè)完成的過程中,教師需要給予一定的指導(dǎo),例如教師可以介紹問卷星等網(wǎng)絡(luò)調(diào)查平臺或網(wǎng)絡(luò)爬蟲等工具幫助學(xué)生進(jìn)行原始數(shù)據(jù)的采集;通過對數(shù)據(jù)挖掘方案的點(diǎn)評,幫助學(xué)生更合理的選取數(shù)據(jù)分析指標(biāo),設(shè)計(jì)數(shù)據(jù)挖掘方案;通過報(bào)告撰寫指導(dǎo),幫助學(xué)生規(guī)范化的總結(jié)實(shí)驗(yàn)分析結(jié)果。

          4結(jié)論

          大數(shù)據(jù)時(shí)代的電子商務(wù)活動(dòng)中,對電子商務(wù)人才的數(shù)據(jù)挖掘和分析能力非常迫切,在電子商務(wù)專業(yè)中開設(shè)數(shù)據(jù)挖掘課程是行業(yè)發(fā)展和專業(yè)發(fā)展的必然要求。在電子商務(wù)專業(yè)開設(shè)數(shù)據(jù)挖掘課程既有別于研究生也有別于計(jì)算機(jī)等理工科專業(yè),“輕算法,重應(yīng)用”,以提升學(xué)生主動(dòng)學(xué)習(xí)興趣為導(dǎo)向,采用基于場景的啟發(fā)式教學(xué)方法更合適。本文從教學(xué)思路、教學(xué)方法、教學(xué)內(nèi)容等方面進(jìn)行了思考和探索,經(jīng)課程開設(shè)兩年來的教學(xué)實(shí)踐證明,學(xué)生在學(xué)習(xí)上的主觀能動(dòng)性得到了一定的體現(xiàn),理論和實(shí)踐相結(jié)合的能力得到了鍛煉。激發(fā)學(xué)生學(xué)習(xí)興趣,培養(yǎng)學(xué)生的主動(dòng)性思維,是當(dāng)前教學(xué)中的重要課題,在電商行業(yè)不斷發(fā)展的過程中,如何更好的將最新行業(yè)問題融入教學(xué)過程,實(shí)現(xiàn)理論和實(shí)踐的有機(jī)結(jié)合,需要我們進(jìn)一步深入思考和探索。

          參考文獻(xiàn)

          [1]馮然,陳欣.論數(shù)據(jù)分析類課程在電子商務(wù)專業(yè)設(shè)置中的重要性[J].河南教育,2015,(2).

          [2]黃嵐.?dāng)?shù)據(jù)挖掘課程實(shí)踐教學(xué)資源庫建設(shè)[J].計(jì)算機(jī)教育,2014,(12).

          [3]薛薇.基于SPSSModeler的數(shù)據(jù)挖掘(2版)[M].中國人民大學(xué)出版社,2014.

          [4]李海林.大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘課程教學(xué)探索[J].計(jì)算機(jī)時(shí)代,2014,(2).

          篇5

          中圖分類號:G4

          文獻(xiàn)標(biāo)識碼:A

          doi:10.19311/ki.1672-3198.2016.29.119

          隨著高校教學(xué)信息化的不斷進(jìn)步,教學(xué)管理過程中積累了大量的數(shù)據(jù)。但這些數(shù)據(jù)只是簡單的業(yè)務(wù)統(tǒng)計(jì),并未進(jìn)行整理和分析。教學(xué)評價(jià)是教學(xué)質(zhì)量監(jiān)控體系的重要內(nèi)容之一,如何把握其內(nèi)涵以及最終的目的,是教學(xué)實(shí)踐過程中的難點(diǎn)之一。充分應(yīng)用數(shù)據(jù)挖掘技術(shù)能夠?qū)虒W(xué)評價(jià)過程中的大量數(shù)據(jù)進(jìn)行加工處理,從而為教學(xué)管理人員提供正確的決策,促進(jìn)教學(xué)質(zhì)量的提升。教學(xué)評價(jià)的科學(xué)性對于教學(xué)質(zhì)量的提高具有重要意義,因此利用數(shù)據(jù)挖掘技術(shù)對教學(xué)評價(jià)的數(shù)據(jù)進(jìn)行分析,能夠有效提高高職院校的教學(xué)質(zhì)量。

          1 高職院校教學(xué)評價(jià)現(xiàn)狀

          高職院校教學(xué)評價(jià)主要是教務(wù)處對每個(gè)學(xué)期教師的教學(xué)質(zhì)量進(jìn)行評估,一方面教務(wù)處將評價(jià)表發(fā)放給學(xué)生或是網(wǎng)絡(luò)評價(jià),學(xué)生根據(jù)教學(xué)質(zhì)量評價(jià)表中的內(nèi)容給教師評分;另一方面教學(xué)督導(dǎo)和同行聽課后給出相應(yīng)的評價(jià),最終形成教師的教學(xué)評價(jià)最后得分。教務(wù)處將教師的得分進(jìn)行排名,并確定考核的等級。這種傳統(tǒng)的教學(xué)評價(jià)對于教學(xué)質(zhì)量的提高具有一定的作用,但是仍然存在諸多弊端,影響評價(jià)的準(zhǔn)確性。近年來高職院校越來越重視對教學(xué)的評價(jià),但教學(xué)評價(jià)缺乏一定的科學(xué)性。

          1.1 對教學(xué)評價(jià)的認(rèn)識模糊

          近年來,高職院校雖然越來越重視對教學(xué)的評價(jià),但是對教學(xué)評價(jià)的意義、教學(xué)評價(jià)在教學(xué)管理中的作用認(rèn)識仍比較模糊。當(dāng)前部分高職院校的教學(xué)評價(jià)還停留在初級階段,沒有意識到科學(xué)的教學(xué)評價(jià)在教學(xué)管理中的重要性,因此教學(xué)評價(jià)指標(biāo)的科學(xué)性有待進(jìn)一步完善。

          1.2 教學(xué)評價(jià)理論薄弱

          很多教學(xué)管理者對教學(xué)評價(jià)的理論知識比較薄弱,同時(shí)高職院校與專業(yè)的研究機(jī)構(gòu)缺乏足夠的合作,致使教學(xué)評價(jià)理論缺乏系統(tǒng)性,教學(xué)評價(jià)理論難以發(fā)揮應(yīng)有的作用。很多高職院校教學(xué)評價(jià)工作人員并未接受過專業(yè)的評價(jià)理論培訓(xùn),導(dǎo)致教學(xué)評價(jià)只是停留在表面,難以向深層次推進(jìn)。

          1.3 教學(xué)評價(jià)手段比較落后

          高職院校目前采用的教學(xué)評價(jià)手段比較單一,評價(jià)技術(shù)相對落后。雖然很多院校開始采用模糊數(shù)學(xué)的方法進(jìn)行評價(jià),也取得了長足的進(jìn)步,但是教學(xué)評價(jià)還是沿用現(xiàn)成的技術(shù),并沒有根據(jù)自身的特點(diǎn)進(jìn)行創(chuàng)新和改進(jìn)。

          2 數(shù)據(jù)挖掘的分類與算法

          2.1 數(shù)據(jù)挖掘技術(shù)的分類

          2.1.1 根據(jù)任務(wù)分類

          根據(jù)數(shù)據(jù)挖掘技術(shù)的任務(wù)進(jìn)行分類,主要包括分類模型數(shù)據(jù)挖掘、總結(jié)、聚類、關(guān)聯(lián)規(guī)則、序列發(fā)現(xiàn)以及依賴模型和異常發(fā)現(xiàn)等。

          2.1.2 根據(jù)方法分類

          根據(jù)數(shù)據(jù)挖掘技術(shù)的方法進(jìn)行分類,主要分為分類算法、關(guān)聯(lián)規(guī)則算法、最近距離算法和支撐向量機(jī)算法。

          決策樹分類法是應(yīng)用最為廣泛的算法,采用自上而下的歸納方法來總結(jié)數(shù)據(jù)規(guī)律,決策樹的數(shù)據(jù)總結(jié)清晰明了,并且每個(gè)節(jié)點(diǎn)都使用信息增益度量來選擇測試屬性。簡單講,這種方法就是以樹形結(jié)構(gòu)來體現(xiàn)大數(shù)據(jù)的特點(diǎn)和挖掘結(jié)果。決策樹具有多種算法,較早的如Quinlan在1986年提出的ID3算法和Leo-Breiman所提出的CART算法。決策樹算法將數(shù)據(jù)有原則的進(jìn)行分類,剔除無用或者用處不大的信息,從而實(shí)現(xiàn)大數(shù)據(jù)整理的高效性,在預(yù)測模型中應(yīng)用廣泛。所謂關(guān)聯(lián)規(guī)則算法是通過數(shù)據(jù)之間的關(guān)聯(lián)性建立一張關(guān)系網(wǎng),從而找到解決某一問題的重要數(shù)據(jù)和條件,也就是通過對某種現(xiàn)象的檢測來獲得結(jié)果。關(guān)聯(lián)規(guī)則算法使大數(shù)據(jù)清晰化,能夠顯示有用結(jié)果,減少統(tǒng)計(jì)時(shí)間。同時(shí),該方法支持間接的數(shù)據(jù)挖掘和對變長數(shù)據(jù)進(jìn)行處理,它計(jì)算的消耗量是可以預(yù)見的。最近距離法(KNN)的原理是以空間中的某個(gè)向量為樣本,與其相鄰的空間內(nèi)與其相似的向量的統(tǒng)計(jì)就可以用相同的方法來統(tǒng)一。該方法的優(yōu)勢在于避免了其它方法的樣本不平衡狀態(tài)。由于該方法主要是依靠周邊鄰近的樣本,樣本數(shù)量有限,不能通過由判別類域的方法來確定類別,所以常用于樣本之間重疊或交叉較多的空間。支撐向量法是建立在統(tǒng)計(jì)學(xué)理論的基礎(chǔ)上的,靠機(jī)器來完成,是現(xiàn)代智能化統(tǒng)計(jì)的雛形。其原理在于將給定的有限的數(shù)理訓(xùn)練樣本進(jìn)行準(zhǔn)確無誤的折衷,從而提高的推廣能力。

          2.2 數(shù)據(jù)挖掘的過程

          數(shù)據(jù)挖掘其實(shí)就是不斷的反饋,其重要包括數(shù)據(jù)準(zhǔn)備階段、數(shù)據(jù)挖掘階段以及評估和表示階段。

          2.2.1 數(shù)據(jù)準(zhǔn)備階段

          數(shù)據(jù)挖掘技術(shù)應(yīng)用的前提是準(zhǔn)備數(shù)據(jù),教師教學(xué)質(zhì)量評價(jià)的所有數(shù)據(jù)均來自于系統(tǒng)數(shù)據(jù)庫,所需數(shù)據(jù)主要有學(xué)生評價(jià)數(shù)據(jù)、同行評價(jià)數(shù)據(jù)、教師自評數(shù)據(jù)和專家評價(jià)數(shù)據(jù)等,這些數(shù)據(jù)的獲取可以直接提取數(shù)據(jù)庫表的內(nèi)容。另外,還要綜合調(diào)查問卷的數(shù)據(jù)。數(shù)據(jù)準(zhǔn)備完成后,需要對全部數(shù)據(jù)進(jìn)行預(yù)處理,使其滿足數(shù)據(jù)挖掘格式。

          2.2.2 數(shù)據(jù)挖掘階段

          依據(jù)數(shù)據(jù)的具體性質(zhì),選擇合適的處理技術(shù),常用的技術(shù)有聚類分析、歸納技術(shù)、關(guān)聯(lián)技術(shù)以及神經(jīng)元網(wǎng)絡(luò)等技術(shù),常用的算法有BP算法、ID3算法等。然后使用選擇的技術(shù)和算法對數(shù)據(jù)進(jìn)行挖掘。

          2.2.3 評估和表示階段

          將教學(xué)評價(jià)的原始數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)轉(zhuǎn)換為更加容易理解、關(guān)系明確的形式,采用統(tǒng)計(jì)學(xué)方法評價(jià)數(shù)據(jù)分析的結(jié)果,進(jìn)而獲得最佳的模式,同時(shí)還要預(yù)測可能發(fā)生的多種情況,為決策者提供多個(gè)方案。

          3 數(shù)據(jù)挖掘技術(shù)在高職院校教學(xué)評價(jià)中的應(yīng)用

          教學(xué)評價(jià)的任務(wù)就是通過科學(xué)的手段,構(gòu)建數(shù)據(jù)挖掘的模型,并將模型應(yīng)用到高職院校的教學(xué)管理中。教學(xué)評價(jià)模型要盡量降低人為因素的干擾,重新調(diào)整教學(xué)評價(jià)中的屬性權(quán)重。決策樹算法在商業(yè)領(lǐng)域應(yīng)用范圍較廣,并且成效明顯,但是目前在教學(xué)評價(jià)中的應(yīng)用還比較少,我們主要對決策樹算法的應(yīng)用進(jìn)行分析,構(gòu)建決策樹模型,將其具體應(yīng)用到高職院校的教學(xué)評價(jià)中。決策樹模型能夠在海量的數(shù)據(jù)中分析出可能影響學(xué)生、同行、專家評價(jià)結(jié)果的重要因素,能夠建立教師的教學(xué)行為和教學(xué)質(zhì)量之間的關(guān)系,進(jìn)而發(fā)現(xiàn)相應(yīng)的規(guī)律,為以后的教學(xué)評價(jià)服務(wù)。

          3.1 數(shù)據(jù)挖掘技術(shù)在教學(xué)業(yè)績評價(jià)中的應(yīng)用

          高職院校對于教學(xué)質(zhì)量的評價(jià)一直缺乏科學(xué)的評價(jià)方法,因此教學(xué)評價(jià)的結(jié)果缺乏合理性,教學(xué)評價(jià)的效果較差。數(shù)據(jù)挖掘技術(shù)的應(yīng)用,能夠構(gòu)建科學(xué)的、合理的教學(xué)質(zhì)量評價(jià)體系,并由專門的部門負(fù)責(zé)測評,這樣教師教學(xué)質(zhì)量的評定就有了準(zhǔn)確性,進(jìn)而可以將教學(xué)等級作為評價(jià)的硬性指標(biāo),教師的晉級就有了理論依據(jù)。我們將其具體的應(yīng)用分析如下:

          (1)在成績方面,多數(shù)高職院校是以期末成績和平時(shí)成績來評價(jià)學(xué)生,獎(jiǎng)勵(lì)結(jié)果多以獎(jiǎng)學(xué)金的形式出現(xiàn)。采用傳統(tǒng)的方式進(jìn)行評價(jià),只能單方面的靠成績的數(shù)字來評價(jià)學(xué)生,而應(yīng)用數(shù)據(jù)挖掘技術(shù)可以挖掘成績背后的影響因素,實(shí)現(xiàn)對比分析和全面分析。從而對學(xué)生的學(xué)習(xí)成績做出正確的評價(jià),并且在教學(xué)環(huán)節(jié)中采用必要對策。(2)在考試試題的出題中,數(shù)據(jù)挖掘技術(shù)能夠剖析學(xué)生的特點(diǎn),從而針對性的出題,幫助學(xué)生發(fā)現(xiàn)學(xué)習(xí)中存在的問題。(3)教學(xué)評價(jià)。這是我們研究的重點(diǎn),在這一過程中,教學(xué)評價(jià)源于教師,但是評價(jià)對象卻是學(xué)生。在傳統(tǒng)的評價(jià)中,我們往往忽視了對學(xué)生這一主體的作用,使用數(shù)據(jù)挖掘技術(shù)之后,評價(jià)的主體為學(xué)生,結(jié)合多種因素進(jìn)行評價(jià),從而根據(jù)學(xué)生的需求進(jìn)行教學(xué)方法與課程設(shè)置的改革。使學(xué)生的學(xué)習(xí)過程循序漸進(jìn),更容易進(jìn)入角色,提高學(xué)生學(xué)習(xí)的自信心。對影響學(xué)生的學(xué)習(xí)因素每個(gè)學(xué)期都要進(jìn)行分析,利用管理系統(tǒng)并結(jié)合數(shù)據(jù)挖掘技術(shù),就能更自如地完成教學(xué)改革,促進(jìn)教學(xué)質(zhì)量的提高。

          3.2 數(shù)據(jù)挖掘技術(shù)在教學(xué)診斷中的應(yīng)用

          教學(xué)評價(jià)能夠使教師明確自身教學(xué)目標(biāo)的合理性,教學(xué)方法和教學(xué)手段選擇是否科學(xué)合理,教學(xué)內(nèi)容的重點(diǎn)和難點(diǎn)是否清晰,進(jìn)而根據(jù)實(shí)際情況合理調(diào)整自身的教學(xué)策略,不斷改進(jìn)與完善教學(xué)方法。數(shù)據(jù)挖掘的結(jié)果可以使教師有針對性的解決教學(xué)中的問題,教學(xué)評價(jià)不僅僅要為教師的教學(xué)狀況進(jìn)行判斷,同時(shí)對于教學(xué)改革的方向也提出了明確的要求,其能夠引導(dǎo)教師樹立科學(xué)的教學(xué)觀和正確的質(zhì)量觀,使教師可以清楚自身的不足和今后的努力方向,督促教師不斷轉(zhuǎn)變教學(xué)思想,對教學(xué)的過程進(jìn)行改革,發(fā)揮教師自身的主觀能動(dòng)性和創(chuàng)新精神,最終實(shí)現(xiàn)有效的教學(xué)改革。

          3.3 數(shù)據(jù)挖掘技術(shù)在教學(xué)管理中的應(yīng)用

          教師教學(xué)質(zhì)量的評價(jià)主要由教學(xué)主管部門完成,因此教學(xué)主管部門要利用數(shù)據(jù)挖掘技術(shù)科學(xué)的收集數(shù)據(jù),并選擇合適的算法進(jìn)行分析和處理,通過數(shù)據(jù)庫資料分析出提升教學(xué)質(zhì)量的關(guān)鍵因素,然后將這些因素反饋給高職院校管理層。教學(xué)管理人員根據(jù)數(shù)據(jù)挖掘分析的結(jié)果可以及時(shí)制定正確的改進(jìn)措施,進(jìn)而發(fā)揮教學(xué)管理的功能。教學(xué)評價(jià)結(jié)果對其他教師具有良好的借鑒作用,有利于不斷提高教學(xué)質(zhì)量。

          4 總結(jié)

          教學(xué)評價(jià)是高職院校教學(xué)管理的重要組成部分,對我國高職院校教學(xué)質(zhì)量的提高具有十分重要的作用。數(shù)據(jù)挖掘技術(shù)是信息化發(fā)展的產(chǎn)物,它能夠處理海量的數(shù)據(jù)信息,提取出信息之間的關(guān)聯(lián),發(fā)現(xiàn)相應(yīng)的規(guī)律,以此來服務(wù)于教學(xué)評價(jià)。數(shù)據(jù)挖掘技術(shù)通過不同的算法,可以找出影響教學(xué)質(zhì)量的因素,進(jìn)而使決策者可以指定正確的決策,提升高職院校的教學(xué)質(zhì)量。因此高職院校在教學(xué)評價(jià)工作中,要加大數(shù)據(jù)挖掘技術(shù)的應(yīng)用,使教學(xué)評價(jià)能夠更好的為提升教學(xué)質(zhì)量服務(wù)。

          參考文獻(xiàn)

          [1]董琳.數(shù)據(jù)挖掘技術(shù)在高職院教學(xué)評價(jià)中的應(yīng)用研究[J].電腦知識與技術(shù),2013,(4).

          [2]江敏,徐艷.數(shù)據(jù)挖掘技術(shù)在高校教學(xué)管理中的應(yīng)用[J].電腦知識與技術(shù),2012,(8).

          [3]呂慎敏.基于數(shù)據(jù)挖掘的高校教學(xué)管理決策支持系統(tǒng)研究[D].濟(jì)南:山東師范大學(xué),2012,(6).

          篇6

          關(guān)鍵字:數(shù)據(jù)挖掘;XML;電子商務(wù)

          數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)庫應(yīng)用研究較為活躍的領(lǐng)域之一,因?yàn)槠洮F(xiàn)實(shí)意義,使得數(shù)據(jù)挖掘的技術(shù)研究和應(yīng)用有了很大的發(fā)展,在國內(nèi)外科研領(lǐng)域都備受關(guān)注。特別是在電子商務(wù)領(lǐng)域數(shù)據(jù)挖掘技術(shù)有著巨大的使用價(jià)值。隨著電子商務(wù)市場的日臻成熟,第三方電子商務(wù)平臺上眾多的網(wǎng)店之間的競爭正日益激烈,網(wǎng)店開展網(wǎng)絡(luò)營銷的成本日益增加。每個(gè)網(wǎng)店企業(yè)通過一定時(shí)間的經(jīng)營都會(huì)收集到眾多的客戶數(shù)據(jù),如何通過龐大的客戶訪問數(shù)據(jù)挖掘出潛在的客戶需求的金礦,使網(wǎng)店經(jīng)營企業(yè)快速有效的通過現(xiàn)有客戶數(shù)據(jù)掌握市場的變化的規(guī)律和趨勢,已經(jīng)成為網(wǎng)店經(jīng)營管理者急需解決的問題。本文將探討一種網(wǎng)店客戶數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)的方法。

          1、網(wǎng)店客戶購買數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)

          1.1 客戶購買數(shù)據(jù)挖掘系統(tǒng)的實(shí)現(xiàn)原理

          對客戶數(shù)據(jù)進(jìn)行挖掘的關(guān)鍵要點(diǎn)就是把現(xiàn)有的網(wǎng)店訪問日志經(jīng)過數(shù)據(jù)預(yù)處理轉(zhuǎn)換成滿足XML文件格式要求的結(jié)構(gòu)化數(shù)據(jù),然后使用DBMS工具將結(jié)構(gòu)化的XML文件轉(zhuǎn)換成關(guān)系型數(shù)據(jù)庫,最后運(yùn)用數(shù)據(jù)挖掘的方法從數(shù)據(jù)庫抽取能夠反映客戶消費(fèi)和購買行為的數(shù)據(jù)。具體工作過程如下:

          1)確定數(shù)據(jù)來源(主要是顧客購買記錄)

          數(shù)據(jù)挖掘離不開海量的數(shù)據(jù),每一個(gè)網(wǎng)店在經(jīng)營一段時(shí)間以后都會(huì)記錄大量的客戶購買記錄,這些客戶購買記錄當(dāng)中就蘊(yùn)藏著大量的信息,這些信息我們進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)來源。

          2)進(jìn)行數(shù)據(jù)篩選

          客戶購買記錄中蘊(yùn)藏大量的信息不可能全部為數(shù)據(jù)挖掘的對象,從數(shù)據(jù)源中提取需要的數(shù)據(jù),將無用的數(shù)據(jù)和干擾信息從數(shù)據(jù)源中剝離,為進(jìn)一步的工作做準(zhǔn)備。

          3)數(shù)據(jù)格式轉(zhuǎn)換

          將進(jìn)一步篩選過的有挖掘價(jià)值的非格式化數(shù)據(jù)數(shù)據(jù)轉(zhuǎn)換為XML格式的文件并存儲。

          4)導(dǎo)入數(shù)據(jù)庫

          將表示客戶訪問數(shù)據(jù)的XML格式文件使用數(shù)據(jù)庫管理工具進(jìn)一步轉(zhuǎn)換成可以存儲于數(shù)據(jù)庫的關(guān)系型數(shù)據(jù)庫文件。[1]

          5)進(jìn)行數(shù)據(jù)挖掘

          應(yīng)用數(shù)據(jù)挖掘的相關(guān)算法,對存儲在關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行挖掘,發(fā)現(xiàn)海量數(shù)據(jù)中隱藏的客戶行為模式和消費(fèi)趨勢。

          6)對數(shù)據(jù)挖掘的結(jié)果進(jìn)行甄別

          通過數(shù)據(jù)挖掘總結(jié)出的一些模式有時(shí)可能脫離客戶真實(shí)行為模式的實(shí)際,因此在最后一步需要為對數(shù)據(jù)挖掘總結(jié)出的規(guī)則進(jìn)行甄別,這個(gè)工作目前還需要有經(jīng)驗(yàn)的專家人工完成,今后考慮結(jié)合人工智能的技術(shù)加以解決。

          1.2 網(wǎng)店客戶購買數(shù)據(jù)挖掘系統(tǒng)模型

          在上述系統(tǒng)設(shè)計(jì)的基礎(chǔ)之上,我們提出了網(wǎng)店客戶購買數(shù)據(jù)挖掘系統(tǒng)的模型,該模型由三個(gè)層次組成,其邏輯架構(gòu)如圖一所示。

          2、系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

          2.1 系統(tǒng)開發(fā)與運(yùn)行環(huán)境

          硬件環(huán)境:CPUIntelI3380M/RAM2G/硬盤320G軟件配置:

          操作系統(tǒng):Windows7SP1

          開發(fā)工具:Microsoft.NET2005/VisualC#

          數(shù)據(jù)庫管理系統(tǒng):MSSQLServer2008

          輔助軟件:spssClementine11.1;SQLServer2008AnalysisServices(SSAS)

          2.2 主要技術(shù)與系統(tǒng)實(shí)現(xiàn)

          通過對上述對客戶購買數(shù)據(jù)挖掘系統(tǒng)模型的分析可知,該系統(tǒng)主要由用戶接口模塊、數(shù)據(jù)清洗模塊、數(shù)據(jù)格式轉(zhuǎn)換模塊、數(shù)據(jù)庫生成模塊和數(shù)據(jù)挖掘引擎模塊等組成。

          1)用戶接口模塊

          本系統(tǒng)最終目的還是為為客戶的決策提供支持,因此友好的界面設(shè)計(jì)是用戶與系統(tǒng)交互的基礎(chǔ)。簡潔而易于理解的界面有利于提高用戶對系統(tǒng)的使用效率。

          2)數(shù)據(jù)預(yù)處理模塊

          客戶訪問數(shù)據(jù)進(jìn)入數(shù)據(jù)預(yù)處理模塊進(jìn)行清洗,去除無關(guān)的信息,剝離出對數(shù)據(jù)挖掘有價(jià)值的數(shù)據(jù)。數(shù)據(jù)預(yù)處理模塊對原始訪問數(shù)據(jù)進(jìn)行分析,將用戶購買數(shù)據(jù)記錄逐條的分割成十個(gè)字段,分別為:u_id(訪問者編號),u_date(到訪日期),u_time(到訪時(shí)間),u_orderid(訂單編號),u_product(客戶購買的商品),u_bowser(使用的瀏覽器類型),page(首次到訪頁面),place(客戶所在地區(qū)),payment(支付方式),logistic(物流方式),同時(shí)刪除訪問數(shù)據(jù)中與以上字段不相干的數(shù)據(jù)。然后將經(jīng)過預(yù)處理的數(shù)據(jù)存入中間文件。

          3)XML轉(zhuǎn)換模塊

          該模塊程序使用.NET的相關(guān)的方法編寫,主要功能將預(yù)處理過的客戶購買數(shù)據(jù)轉(zhuǎn)換成標(biāo)準(zhǔn)化XML格式的數(shù)據(jù)文件進(jìn)行存儲。該程序的主要實(shí)現(xiàn)原理是對經(jīng)過預(yù)處理的中間文件中的數(shù)據(jù)記錄逐個(gè)分割并存入數(shù)組,然后將數(shù)組的內(nèi)容按照XML的格式寫入文件,完成轉(zhuǎn)換。

          4)數(shù)據(jù)庫導(dǎo)入模塊

          利用.NET的相關(guān)方法并結(jié)合數(shù)據(jù)庫管理工具建立支持?jǐn)?shù)據(jù)挖掘的客戶購買數(shù)據(jù)庫,編寫相關(guān)程序?qū)⒁呀?jīng)轉(zhuǎn)換成XML格式的客戶訪問數(shù)據(jù)逐條的導(dǎo)入到數(shù)據(jù)庫并形成日志數(shù)據(jù)表方便進(jìn)行后續(xù)的數(shù)據(jù)挖掘。

          5)數(shù)據(jù)挖掘引擎模塊

          數(shù)據(jù)挖掘引擎是實(shí)現(xiàn)客戶購買數(shù)據(jù)挖掘系統(tǒng)的實(shí)現(xiàn)關(guān)鍵。優(yōu)秀的數(shù)據(jù)挖掘算法不僅可以使數(shù)據(jù)挖掘的結(jié)果更加準(zhǔn)確,也可以提高數(shù)據(jù)挖掘的效率。本系統(tǒng)主要用到的算法是該模塊利用數(shù)據(jù)挖掘算法對數(shù)據(jù)進(jìn)行挖掘,主要包括算法的優(yōu)化、日志數(shù)據(jù)表的刪除操作以及挖掘結(jié)果集的保存與刪除操作等。這里主要用到的算法是K-Means算法。主要是利用該算法發(fā)現(xiàn)最相似的客戶聚類,通過對聚類的分析來得出網(wǎng)店眾多的顧客一般的購買行為模式,從而可以適當(dāng)?shù)卣{(diào)整網(wǎng)站營銷的策略中的來提高網(wǎng)絡(luò)營銷的效果,進(jìn)而增加銷售量。[2]

          3、小結(jié)

          本文主要討論了一種基于XML技術(shù)的網(wǎng)店客戶訪問數(shù)據(jù)挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)方法。通該系統(tǒng)可以幫助網(wǎng)店經(jīng)營企業(yè)對大量的客戶訪問數(shù)據(jù)進(jìn)行分析,從中發(fā)現(xiàn)市場的變化規(guī)律和客戶的行為模式,使企業(yè)的網(wǎng)絡(luò)營銷工作更有針對性,同時(shí)也更富有成效。

          參考文獻(xiàn):

          篇7

          中圖分類號TP311.13 文獻(xiàn)標(biāo)識碼A 文章編號 1674-6708(2010)33-0257-02

          1 數(shù)據(jù)挖掘的概念

          隨著計(jì)算機(jī)技術(shù)的高速發(fā)展,互聯(lián)網(wǎng)技術(shù)的風(fēng)靡,獲得相關(guān)資料已經(jīng)是很方便了。但是人們也積累了大量的數(shù)據(jù)信息,面對這些龐大的數(shù)據(jù),如何從中提取有用的信息成為當(dāng)務(wù)之急,為此,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。數(shù)據(jù)挖掘(Data Mining)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中提取隱含在其中的,人們事先不知道的,但又是潛在有用的信息和知識的過程。數(shù)據(jù)挖掘是發(fā)現(xiàn)知識的關(guān)鍵步驟。

          2 數(shù)據(jù)挖掘的作用

          2.1 關(guān)聯(lián)分析

          關(guān)聯(lián)是反映兩個(gè)或者兩個(gè)以上事件之間存在某種依賴或聯(lián)系規(guī)律性。關(guān)聯(lián)規(guī)則挖掘是由Rakesh Apwal提出來的。在數(shù)據(jù)庫中,如果存在一項(xiàng)或多項(xiàng)之間的關(guān)聯(lián),則其中一項(xiàng)屬性值能夠依據(jù)其他屬性值進(jìn)行推測。關(guān)聯(lián)分為簡單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中所有頻繁項(xiàng)目集,這是數(shù)據(jù)挖掘中最成熟的技術(shù)之一。例如:每天購買洗發(fā)水的人也有可能購買肥皂,比重有多大。

          2.2 聚類分析

          聚類分析是把數(shù)據(jù)按照所選樣本的關(guān)聯(lián)相似性劃分成若干小組,同一小組中的數(shù)據(jù)具有較高的相似度,不同組中的數(shù)據(jù)則相異,即同組中的相似性盡可能大,而組別間的相似性盡可能小。聚類事先不知道組別數(shù)和各組的相似特性。聚類分析可以發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。例如:將學(xué)生分為成績優(yōu)秀的學(xué)生,成績中等的學(xué)生,成績差的學(xué)生。

          2.3 分類

          分類就是按照以前數(shù)據(jù)庫中的數(shù)據(jù),分析它們的屬性、特征,找出一個(gè)類別的概念描述,并利用這種描述構(gòu)造模型,每個(gè)類別都代表了本類數(shù)據(jù)的整體信息,一般用規(guī)則或決策樹模式表示。分類事先知道類別數(shù)和各類的典型特征。例如:學(xué)校根據(jù)以前的數(shù)據(jù)將教師分成了不同的類別,現(xiàn)在就可以根據(jù)這些來區(qū)分新教師,以采取不同的待遇分配方案。

          2.4 預(yù)測

          預(yù)測是利用歷史和當(dāng)前的數(shù)據(jù)找出變化規(guī)律,推測未來數(shù)據(jù)的種類及特征。預(yù)測是以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)規(guī)則。例如:對未來經(jīng)濟(jì)形勢的判斷。

          2.5 偏差分析

          數(shù)據(jù)庫中的數(shù)據(jù)存在很多異常情況,偏差是對差異和極端情況的描述,發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)偏離常規(guī)的異?,F(xiàn)象,揭示內(nèi)在原因。例如:在本次數(shù)學(xué)測試中有30%的同學(xué)不及格,教師為了提高教學(xué)質(zhì)量,就要找出這30%不及格同學(xué)的內(nèi)在因素,提高及格率。

          3 數(shù)據(jù)挖掘的流程

          3.1 定義目標(biāo)

          為了避免數(shù)據(jù)挖掘的盲目性,首先就必須清晰地定義出業(yè)務(wù)問題,確定數(shù)據(jù)挖掘的目標(biāo)。挖掘的目標(biāo)明確了,但結(jié)果是不可預(yù)測的。

          3.2 數(shù)據(jù)準(zhǔn)備

          1)數(shù)據(jù)選擇。在大型數(shù)據(jù)庫和數(shù)據(jù)倉庫目標(biāo)中搜索有關(guān)的內(nèi)、外部數(shù)據(jù)信息,提取適用于數(shù)據(jù)挖掘的數(shù)據(jù);

          2)數(shù)據(jù)預(yù)處理。研究數(shù)據(jù)信息,進(jìn)行數(shù)據(jù)的加工、集成等,去除重復(fù)的數(shù)據(jù)信息,選擇要進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù),并定義數(shù)據(jù)類型;

          3)數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換決定數(shù)據(jù)挖掘能否成功,數(shù)據(jù)轉(zhuǎn)換就是將數(shù)據(jù)轉(zhuǎn)換成一個(gè)針對挖掘算法的模型。

          3.3 數(shù)據(jù)挖掘

          根據(jù)數(shù)據(jù)功能的類型和數(shù)據(jù)的特點(diǎn)完善和選擇合適的挖掘算法,對所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘。

          3.4 結(jié)果分析

          解釋和評估數(shù)據(jù)挖掘的結(jié)果,最終轉(zhuǎn)換成用戶能夠理解的知識。

          3.5 知識的同化

          將分析所得到的知識集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。

          4 數(shù)據(jù)挖掘的應(yīng)用

          4.1 數(shù)據(jù)挖掘技術(shù)在市場營銷中的應(yīng)用

          數(shù)據(jù)挖掘技術(shù)普遍應(yīng)用于市場營銷中,假定“以往消費(fèi)者的行為是未來消費(fèi)者的消費(fèi)理念的直接解釋”,以市場營銷學(xué)的市場細(xì)化原理為基礎(chǔ)。通過收集、整理消費(fèi)者以往的消費(fèi)信息為數(shù)據(jù)信息,總結(jié)消費(fèi)者的特點(diǎn)及興趣愛好,根據(jù)不同的屬性分類,推測出類似消費(fèi)群體的消費(fèi)行為,對不同類的消費(fèi)群體進(jìn)行定向營銷,這樣降低了營銷的盲目性,節(jié)省了營銷成本,提高了營銷效率,為企業(yè)創(chuàng)造出更多的利潤。

          在經(jīng)濟(jì)發(fā)達(dá)國家和地區(qū),許多企業(yè)都利用數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)信息進(jìn)行加工處理,針對不同的消費(fèi)群體,發(fā)出不同的營銷材料,以突出自己的競爭優(yōu)勢,擴(kuò)大產(chǎn)品的營業(yè)額。

          4.2 數(shù)據(jù)挖掘技術(shù)在商業(yè)銀行中的應(yīng)用

          數(shù)據(jù)挖掘技術(shù)廣泛應(yīng)用于金融界,金融事務(wù)搜索大量的數(shù)據(jù)信息,對這些數(shù)據(jù)進(jìn)行加工處理,發(fā)現(xiàn)其特征,從而發(fā)現(xiàn)不同類別客戶的特點(diǎn),評估其信譽(yù),推測其需求。商業(yè)銀行所作業(yè)務(wù)的利潤與風(fēng)險(xiǎn)是并存的,為了保證最大利潤和最小風(fēng)險(xiǎn),必須對客戶的賬戶進(jìn)行科學(xué)精確的分析歸納。

          美國銀行使用數(shù)據(jù)挖掘技術(shù)工具,根據(jù)不同消費(fèi)者的特點(diǎn)制定不同的產(chǎn)品,增強(qiáng)其競爭優(yōu)勢。

          4.3 數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)上的應(yīng)用

          數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)上的應(yīng)用相當(dāng)廣泛,可以利用數(shù)據(jù)挖掘技術(shù)手段來提高從藥物的生產(chǎn)制造到醫(yī)療診斷等的效率和效益。在藥物生產(chǎn)方面,通過對藥物分子結(jié)構(gòu)的分析,可以確定是什么成分對病患的治療發(fā)揮了作用,從而推測出該藥對什么病有治療作用;在醫(yī)療診斷方面,通過對基因的分析處理,可以確診是什么發(fā)生了病變,屬于哪種病毒等。

          4.4 數(shù)據(jù)挖掘技術(shù)在欺詐甄別中的應(yīng)用

          銀行或者商業(yè)上經(jīng)常發(fā)生欺詐行為,給銀行和商業(yè)單位帶來了不可估量的損失。通過數(shù)據(jù)挖掘可以對這種欺詐行為進(jìn)行預(yù)測,總結(jié)各種詐騙的行為特征,提醒廣大人們注意。

          5 結(jié)論

          數(shù)據(jù)挖掘技術(shù)是一個(gè)全新的研究領(lǐng)域,每年都有新的數(shù)據(jù)挖掘方法和模型產(chǎn)生,隨著數(shù)據(jù)庫等技術(shù)的發(fā)展,數(shù)據(jù)挖掘技術(shù)的應(yīng)用領(lǐng)域?qū)?huì)更加廣泛和深入。盡管如此,數(shù)據(jù)挖掘技仍然存在許多問題需要解決,尤其是超大規(guī)模數(shù)據(jù)挖掘的效率有待提高。

          參考文獻(xiàn)

          篇8

          關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);反洗錢程序;應(yīng)用

          Key words: data mining technology;anti-money laundering procedures;application

          中圖分類號:TP39 文獻(xiàn)標(biāo)識碼:A文章編號:1006-4311(2010)21-0031-01

          1反洗錢基本程序

          1.1 定義目前關(guān)于洗錢的定義有很多種,國際上并沒有一個(gè)統(tǒng)一的定義。但洗錢的本質(zhì)就是利用資產(chǎn)、資金轉(zhuǎn)換(轉(zhuǎn)移)過程中所造成的信息缺失、信息隱蔽、信息不完整、信息不真實(shí)、信息復(fù)雜而使犯罪所得收益的原始來源和性質(zhì)無法識別或追溯,從而掩蓋和隱瞞其真實(shí)信息。

          1.2 基本程序我國的反洗錢基本程序分為采集、監(jiān)測分析和移交三個(gè)步驟:第一步,大額和可疑交易報(bào)告的收集。第二步,大額和可疑交易報(bào)告的分析和甄別。第三步,可疑交易線索移送。

          1.3 反洗錢工作的主要問題①巨量數(shù)據(jù)報(bào)表和高誤報(bào)率。②預(yù)設(shè)標(biāo)準(zhǔn)易于被洗錢分子規(guī)避。③無法自動(dòng)適應(yīng)洗錢形勢變化。

          2數(shù)據(jù)挖掘技術(shù)

          2.1 數(shù)據(jù)挖掘定義數(shù)據(jù)挖掘(Date Mining),是指從大量的、不完全的、模糊的、隨機(jī)數(shù)據(jù)中揭示出隱含的、先前未知的、并有潛在價(jià)值的信息和知識的過程。數(shù)據(jù)挖掘融合了數(shù)據(jù)庫、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等多個(gè)領(lǐng)域的理論和技術(shù),是幫助發(fā)現(xiàn)隱藏在數(shù)據(jù)中知識和信息的有力工具。

          2.2 數(shù)據(jù)挖掘任務(wù)①數(shù)據(jù)總結(jié)。②分類。③關(guān)聯(lián)分析。④聚類。

          2.3 數(shù)據(jù)挖掘流程引入數(shù)據(jù)挖掘技術(shù)應(yīng)用于反洗錢系統(tǒng)中,完成從大量數(shù)據(jù)中自動(dòng)提取出模型的過程。在建立攻擊檢測系統(tǒng)過程中消除人為因素和特定因素,為其開發(fā)一個(gè)更加系統(tǒng)化的方法,即開發(fā)一套能從各種審計(jì)數(shù)據(jù)中產(chǎn)生攻擊檢測模型的自動(dòng)工具。我們應(yīng)用關(guān)聯(lián)分析和序列模式分析等算法,發(fā)現(xiàn)特征之間的關(guān)聯(lián)和與時(shí)序有關(guān)的聯(lián)系,從而完成對用戶數(shù)據(jù)的收集與特征選擇過程。

          2.4 常用的數(shù)據(jù)挖掘算法①?zèng)Q策樹。首先,通過一批已知的訓(xùn)練數(shù)據(jù)建立一棵決策樹;然后,利用建好的決策樹對數(shù)據(jù)進(jìn)行預(yù)測。決策樹的建立過程可以看成是數(shù)據(jù)規(guī)則的生成過程,因而可以認(rèn)為,決策樹實(shí)現(xiàn)了數(shù)據(jù)規(guī)則的可視化,其輸出結(jié)果也容易理解。在反洗錢領(lǐng)域,決策樹算法可以按照事前已經(jīng)制定的決策模式對各種報(bào)告數(shù)據(jù)進(jìn)行分類,最終以一種類似樹狀的決策結(jié)構(gòu)顯示出來,為分析者提供一個(gè)推力框架,幫助其摸清整個(gè)洗錢活動(dòng)的過程并了解某一具體的洗錢操作在整個(gè)洗錢鏈條中的作用。決策樹方法精確度較高,容易理解,效率也比較高,因而比較常用。②神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)系統(tǒng)由一系列類似于人腦神經(jīng)元的處理單元組成,這些單元被稱為節(jié)點(diǎn)。節(jié)點(diǎn)通過網(wǎng)絡(luò)彼此互連,如果有數(shù)據(jù)輸入,他們可以進(jìn)行確定數(shù)據(jù)模式的工作。神經(jīng)元網(wǎng)絡(luò)可以通過本身所包含的無數(shù)個(gè)神經(jīng)元持續(xù)不斷地對報(bào)告數(shù)據(jù)進(jìn)行反復(fù)計(jì)算,對某項(xiàng)資金流動(dòng)是否牽涉洗錢活動(dòng)進(jìn)行認(rèn)定,自動(dòng)發(fā)現(xiàn)洗錢線索,并能通過自動(dòng)學(xué)習(xí)制定出最為有利的反洗錢整體分析方案,提高數(shù)據(jù)分析效率。③相關(guān)規(guī)則。這是一種簡單卻實(shí)用的關(guān)聯(lián)分析規(guī)則,它描述了一個(gè)事務(wù)中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,依據(jù)一定的可信度、支持度、期望可信度、作用度建立相關(guān)規(guī)則。④K-nearest鄰居。鄰居就是彼此距離很緊的數(shù)據(jù)。該方法認(rèn)為相鄰數(shù)據(jù)必然有相同的屬性或行為。因此,可以通過K個(gè)鄰居的平均數(shù)據(jù)來預(yù)測該特定數(shù)據(jù)的某個(gè)屬性后行為。⑤遺傳算法。在反洗錢領(lǐng)域,遺傳算法可以在發(fā)現(xiàn)可疑洗錢活動(dòng)后沿最優(yōu)路徑追蹤洗錢的各步操作,幫助分析人員總結(jié)大額可疑交易數(shù)據(jù)中所隱藏的洗錢疑點(diǎn)或疑點(diǎn)組合的發(fā)現(xiàn)規(guī)律,保證分析時(shí)能夠發(fā)現(xiàn)某項(xiàng)洗錢活動(dòng)的最重要線索,方便后期調(diào)查工作的順利開展。⑥聯(lián)機(jī)分析處理。其典型的應(yīng)用有對銀行信用卡風(fēng)險(xiǎn)的分析與預(yù)測、市場營銷策略制定等,主要是進(jìn)行大量查詢操作。

          3數(shù)據(jù)挖掘技術(shù)在反洗錢系統(tǒng)中的應(yīng)用

          3.1 系統(tǒng)的整體設(shè)計(jì)反洗錢系統(tǒng)本身應(yīng)用的特殊性,要求它具有準(zhǔn)確性、全局性、可擴(kuò)展性、可伸縮性以及環(huán)境適應(yīng)性。到目前為止,研究人員已經(jīng)提出實(shí)現(xiàn)了許多方法,但沒有一種模型能夠滿足完全檢測的要求。由于系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)都取決于設(shè)計(jì)人員自身的知識儲備和其對已知反洗錢形式的了解程度,因而系統(tǒng)的效率和環(huán)境性都受到了限制。

          基于數(shù)據(jù)挖掘技術(shù)的智能反洗錢系統(tǒng)的核心就是從事件序列數(shù)據(jù)(訓(xùn)練數(shù)據(jù))中挖掘正常和異常行為規(guī)則,構(gòu)建規(guī)則庫,在此基礎(chǔ)上,再根據(jù)發(fā)現(xiàn)的證據(jù)進(jìn)行反洗錢識別。

          我們采用數(shù)據(jù)挖掘方法實(shí)現(xiàn)整個(gè)過程,并將它劃分為三個(gè)過程。

          ①特征提取。②規(guī)則發(fā)現(xiàn),對不同類型的數(shù)據(jù),采用不同的數(shù)據(jù)挖掘算法發(fā)現(xiàn)其中的規(guī)則。③建立好規(guī)則庫后,對每一次發(fā)現(xiàn)的證據(jù),就可以根據(jù)規(guī)則來判斷是否屬于反洗錢行為。

          3.2 基于數(shù)據(jù)挖掘的智能反洗錢模型的設(shè)計(jì)根據(jù)上面介紹的體系結(jié)構(gòu)、數(shù)據(jù)挖掘方法和智能檢測體系,我們設(shè)計(jì)了一種基于數(shù)據(jù)挖掘的智能反洗錢系統(tǒng)。其系統(tǒng)結(jié)構(gòu)包括如下組件:數(shù)據(jù)處理、審計(jì)數(shù)據(jù)庫、數(shù)據(jù)挖掘引擎、特征提取器、數(shù)據(jù)挖掘引擎、規(guī)則庫、數(shù)據(jù)檢測引擎和決策響應(yīng)中心。

          自適應(yīng)數(shù)據(jù)挖掘反洗錢系統(tǒng)的工作原理如下:①活動(dòng)監(jiān)測Agent采集來自外部網(wǎng)絡(luò)環(huán)境的各種數(shù)據(jù),并把這些數(shù)據(jù)傳送給協(xié)同Agent,協(xié)同Agent對從活動(dòng)監(jiān)測Agent來的數(shù)據(jù)進(jìn)行過濾、格式轉(zhuǎn)換等預(yù)處理,然后將數(shù)據(jù)存入審計(jì)數(shù)據(jù)庫中;②審計(jì)數(shù)據(jù)庫組件存儲數(shù)據(jù),并利用數(shù)據(jù)庫查詢技術(shù)產(chǎn)生訓(xùn)練數(shù)據(jù)集,同時(shí)特征提取器采用數(shù)據(jù)挖掘技術(shù)對當(dāng)前用戶行為進(jìn)行分析,從中提取出當(dāng)前用戶行為特征;③數(shù)據(jù)挖掘引擎利用數(shù)據(jù)挖掘技術(shù)對審計(jì)數(shù)據(jù)庫中的數(shù)據(jù)和提取出的特征進(jìn)行學(xué)習(xí),從中提取出有關(guān)行為特征和規(guī)則,建立異常模式和正常行為輪廓,從而建立檢測模型,并存入規(guī)則庫中;④數(shù)據(jù)檢測引擎接受來自特征提取器的數(shù)據(jù)特征和數(shù)據(jù)挖掘引擎建造的模型與來自規(guī)則庫中的正常規(guī)則進(jìn)行分析,將分析結(jié)果送給決策中心;⑤決策中心分析判斷結(jié)果以決定是否報(bào)警或更新規(guī)則庫。

          來自多個(gè)地方的數(shù)據(jù),主要通過如下方式進(jìn)行處理和轉(zhuǎn)換。

          篇9

          (一)數(shù)據(jù)挖掘技術(shù)的概念

          數(shù)據(jù)挖掘技術(shù)是從許多的、不完全的、相對模糊的、存在噪聲的、任意的實(shí)際數(shù)據(jù)當(dāng)中,找出其中隱藏的、人們原先不了解的、但又是實(shí)際存在的、有用的信息和知識的過程[1]。數(shù)據(jù)挖掘所得信息具有先前未知、有效和實(shí)用三個(gè)特征。決策者對挖掘所得信息進(jìn)行分析,從中提取出隱藏的關(guān)系和模式,來對未來發(fā)生的行為進(jìn)行預(yù)測。

          (二)數(shù)據(jù)挖掘技術(shù)的運(yùn)用

          在使用數(shù)據(jù)挖掘技術(shù)的過程中,數(shù)學(xué)方法經(jīng)常被用到,但在一些特殊的時(shí)候,也會(huì)用到非數(shù)學(xué)的方法。另外,使用數(shù)據(jù)挖掘技術(shù)過程中,除了上面提到的方法外,還可以用演繹的方法和歸納的方法收集數(shù)據(jù)。在使用數(shù)據(jù)挖掘技術(shù)過程中,利用對相關(guān)數(shù)據(jù)進(jìn)行挖掘、收集和分析得出相應(yīng)的結(jié)果,并且這個(gè)結(jié)果在某些情況下,恰好能被用在管理信息、優(yōu)化查詢、過程控制、決策支持及數(shù)據(jù)維護(hù)等方面[2]。然而,由于數(shù)據(jù)挖掘技術(shù)特性,其在使用的過程中,涉及學(xué)科比較廣,并且還涉及數(shù)據(jù)庫、數(shù)理統(tǒng)計(jì)、人工智能、并行計(jì)算、機(jī)器學(xué)習(xí)、可視化等許多領(lǐng)域。數(shù)據(jù)挖掘技術(shù)中,常用到的有規(guī)則歸納、決策數(shù)、人工神經(jīng)網(wǎng)絡(luò)、遺傳算法,以及可視化等技術(shù)。

          二、數(shù)據(jù)挖掘技術(shù)的形式

          數(shù)據(jù)挖掘分為描述型與預(yù)測型兩種形式。描述型是對數(shù)據(jù)中存在的規(guī)則進(jìn)行描述,并且依據(jù)數(shù)據(jù)具有微觀性的特點(diǎn)找出其表征的、普遍性強(qiáng)的、概念層次較高的、比較宏觀的知識,并對數(shù)據(jù)進(jìn)行概括總結(jié)和抽象來描述出同一類事物的相同屬性。預(yù)測型是分析和處理現(xiàn)有的數(shù)據(jù),來獲得某類事物中某些屬性的內(nèi)容,或者是預(yù)測出某類事物將來形成的規(guī)律等。在使用這兩種挖掘技術(shù)時(shí),經(jīng)常用到的方法有分類方法、關(guān)聯(lián)方法和粗糙集方法。

          (一)分類

          在運(yùn)用計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)的過程中,分類是挖掘技術(shù)里的重點(diǎn)部分。數(shù)據(jù)收集的好壞,以及收集的數(shù)據(jù)的屬性分析都是由分類決定的。因此,分類在運(yùn)用挖掘技術(shù)的過程中具有非常重要的作用。分類是對數(shù)據(jù)庫屬性進(jìn)行分析,把元組劃分成不同種類的過程。并且在其劃分過程中,根據(jù)數(shù)據(jù)形成的訓(xùn)練集,來集中對部分?jǐn)?shù)據(jù)進(jìn)行處理劃分。然后,再對余下的部分?jǐn)?shù)據(jù)做測試,在測試滿足要求以后,遵守對應(yīng)的規(guī)則對其分類。在實(shí)際分類過程中,比較有代表性的分類過程是:明確分類的范圍、找出目標(biāo)屬性、組成訓(xùn)練集、研究屬性、算法選取、分類計(jì)算、結(jié)果顯示、選出測試集、分類規(guī)則驗(yàn)證、輸出分類規(guī)則等[2]。

          (二)相關(guān)規(guī)則

          相關(guān)規(guī)則是數(shù)據(jù)挖掘技術(shù)中,比較簡單實(shí)用的關(guān)聯(lián)分析規(guī)則。它可以準(zhǔn)確地將相關(guān)數(shù)據(jù)進(jìn)行描述,并且能夠?qū)?shù)據(jù)進(jìn)行嚴(yán)格分析。在相關(guān)規(guī)則使用過程中,主要是對具體事物進(jìn)行描寫,并按照相同屬性進(jìn)行結(jié)合,然后對其進(jìn)行總結(jié)概括,找出其共同屬性和模式。一般會(huì)將關(guān)聯(lián)規(guī)則直接應(yīng)用到數(shù)據(jù)庫中,統(tǒng)一地記錄下每個(gè)事物得出的數(shù)據(jù),不但可以正確地記錄數(shù)據(jù),同時(shí)消減了數(shù)據(jù)的搜索空間,使得整個(gè)運(yùn)行系統(tǒng)得到改善和提高。

          (三)粗糙集

          數(shù)據(jù)挖掘技術(shù)中的粗糙集是被用作對不精確和不確定性知識進(jìn)行研究的一種數(shù)學(xué)工具,在系統(tǒng)整個(gè)使用中占的優(yōu)勢比較大[3]。首先,在使用粗糙集方法時(shí),相應(yīng)的信息不需要了解,并且在運(yùn)算的時(shí)候,算法比較簡單且容易控制,得到大量的計(jì)算機(jī)用戶的喜愛。其次,在運(yùn)行粗糙集的過程中,能從數(shù)據(jù)中發(fā)現(xiàn)異常,排除知識發(fā)現(xiàn)過程中的噪聲干擾,同時(shí)還能將這類數(shù)據(jù)的規(guī)律在最短時(shí)間內(nèi)找出,并利用表格對其進(jìn)行歸納總結(jié),將其變成決策表,為使用者的查詢提供方便。最后,在客觀世界,應(yīng)用有些規(guī)則的過程中也會(huì)出現(xiàn)不確定性。應(yīng)用數(shù)據(jù)庫的時(shí)候會(huì)產(chǎn)生許多不確定性的信息,而這些不確定性都得依賴粗糙集對其進(jìn)行處理,這樣就使得數(shù)據(jù)挖掘的效率得到大大提高。

          三、挖掘技術(shù)在檔案管理中應(yīng)用的意義

          記錄歷史資料的重要工具就是檔案,它直接反映了檔案管理人員的智慧和成果[3]。由于計(jì)算機(jī)網(wǎng)絡(luò)的迅速發(fā)展,在管理檔案信息的實(shí)際應(yīng)用中,引入挖掘技術(shù)可以使檔案的管理水平得到提高,并且改革了檔案信息管理的模式。因此,數(shù)據(jù)挖掘技術(shù)應(yīng)用在檔案信息管理中是具有非常重要意義的。

          (一)提高檔案信息管理的安全性

          檔案信息是記載一些比較寶貴的資料,由此可知其價(jià)值的表現(xiàn)就是檔案信息的實(shí)體。對檔案管理者來講,保存有歷史意義的檔案信息的時(shí)間應(yīng)越長越好。保存得越長遠(yuǎn),越體現(xiàn)了檔案信息的價(jià)值。其使用價(jià)值相對應(yīng)地增大了,被使用的頻率也相應(yīng)地增加,使保管工作非常困難,使用次數(shù)越頻繁,就越容易縮短檔案信息的壽命。同時(shí),保密性是檔案信息管理的另一項(xiàng)重要工作,萬一檔案信息外漏,不僅相關(guān)人員的隱私權(quán)受到侵犯,還有可能對其以后生活造成消極負(fù)面的影響,造成了檔案保管與使用之間存在矛盾[4]。將數(shù)據(jù)挖掘技術(shù)運(yùn)用到檔案管理中,可以很好地避免這種情況的發(fā)生,從而保護(hù)檔案信息實(shí)體和內(nèi)容的安全。

          (二)加快檔案管理的效率,降低檔案管理的成本

          檔案管理工作中引用數(shù)據(jù)挖掘技術(shù),能夠有效改變以往傳統(tǒng)的檔案管理模式。使得檔案管理人員的工作效率和檔案信息管理水平得到提高。引入數(shù)據(jù)挖掘技術(shù),工作人員的管理時(shí)間被大量節(jié)省,處理檔案信息的速度得到提高。同時(shí),還可以加快檔案鑒定工作的發(fā)展。檔案管理工作中的一個(gè)重要環(huán)節(jié)就是檔案的鑒定,傳統(tǒng)的檔案鑒定工作是由檔案管理人員憑借多年經(jīng)驗(yàn)來實(shí)現(xiàn)的,具有主觀性。數(shù)據(jù)挖掘技術(shù)的運(yùn)用,可以防止在鑒定檔案工作中因檔案管理人員的主觀性而造成有價(jià)值的檔案丟棄,為檔案管理工作提供了比較有效的定量化方法,使檔案的鑒定工作有據(jù)可依。

          四、數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的運(yùn)用

          隨著計(jì)算機(jī)信息化的迅猛發(fā)展,檔案管理工作也需要進(jìn)一步的完善。過去的檔案管理方式已經(jīng)不能適應(yīng)當(dāng)代社會(huì)的需要,很多數(shù)據(jù)信息無法有效地使用。要想有效地利用現(xiàn)有的檔案數(shù)據(jù),使其價(jià)值得到充分發(fā)揮,使用數(shù)據(jù)挖掘技術(shù)把那些隱含的信息挖掘出來,對其總結(jié)和使用是非常有必要的。檔案信息管理中使用數(shù)據(jù)挖掘技術(shù),能讓挖掘出的知識信息得到發(fā)揮,并且能使檔案數(shù)據(jù)信息價(jià)值被充分地利用。檔案管理中應(yīng)用數(shù)據(jù)挖掘技術(shù)的方法有以下幾種:

          (一)檔案分類法

          檔案分類法是按照不同的種類把許多檔案進(jìn)行整理的方法。把檔案中屬性相似的放在同一個(gè)類別中,把那些檔案屬性不同的放在不同的類別當(dāng)中。在檔案進(jìn)行分類的過程中,數(shù)據(jù)挖掘技術(shù)能夠詳細(xì)地劃分這些檔案的類別,幫助管理員進(jìn)行檔案歸類,檔案的檢索效率和速度得到有效提高。

          (二)檔案收集法

          檔案收集法是先分析數(shù)據(jù)庫中的數(shù)據(jù),并通過對這些數(shù)據(jù)做詳細(xì)的描述建立模型。然后用這些模型和所有的測試樣本進(jìn)行對比,一旦經(jīng)測試后有一個(gè)模型與樣本相符合,就可以依據(jù)這個(gè)模型對管理對象進(jìn)行分類。

          篇10

          中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-7712 (2013) 24-0000-01

          隨著通信市場競爭日趨激烈,電信客戶的通信需求和消費(fèi)理念都發(fā)生了顯著的變化。為滿足客戶的應(yīng)用需求、提升市場競爭力,就必須將當(dāng)代通信服務(wù)由以產(chǎn)品為導(dǎo)向以客戶需求為導(dǎo)向轉(zhuǎn)變,通過建立客戶數(shù)據(jù)庫,對客戶的類別屬性、消費(fèi)類型以及消費(fèi)傾向等進(jìn)行分析。數(shù)據(jù)挖掘技術(shù)是一種大數(shù)據(jù)環(huán)境下的數(shù)據(jù)分析方法,其可以在海量數(shù)據(jù)中建立一種內(nèi)在的聯(lián)系,基于該聯(lián)系對客戶進(jìn)行細(xì)分,協(xié)助企業(yè)制定更具價(jià)值的認(rèn)知體系和決策規(guī)則。

          一、電信客戶細(xì)分特點(diǎn)

          客戶細(xì)分包括客戶描述與劃分兩部分內(nèi)容。前者主要是提取可用于描述客戶的特征和屬性,以便于可應(yīng)用該描述內(nèi)容對客戶行為模式進(jìn)行預(yù)測和評估。后者主要是對經(jīng)過特征化后的客戶進(jìn)行類別劃分,使具有共同類別與特點(diǎn)的用戶歸入同一類別,以便于增強(qiáng)服務(wù)和營銷的針對性與有效性。對客戶進(jìn)行細(xì)分可以調(diào)整資源分配結(jié)構(gòu),滿足商業(yè)目的,對不同類型的客戶指定不同的營銷策略。

          電信市場是典型的以客戶為中心的消費(fèi)市場,對該市場客戶進(jìn)行細(xì)分可以提升企業(yè)爭取新客戶、保留老客戶、維護(hù)現(xiàn)有客戶價(jià)值、拓展企業(yè)市場份額與經(jīng)濟(jì)效益的目的。

          總結(jié)來看,電信客戶細(xì)分中需要從以下幾方面特征出發(fā):一是電信客戶消費(fèi)具有持續(xù)性,為維系客戶關(guān)系,就需要以該特征為著力點(diǎn);二是電信客戶消費(fèi)層次和類別更為明顯,如電信企業(yè)的客戶分為具有較強(qiáng)穩(wěn)定消費(fèi)能力的集團(tuán)用戶和消費(fèi)能力差別較大的個(gè)人用戶;三是客戶自身特點(diǎn)占據(jù)的權(quán)重較大,如客戶的消費(fèi)習(xí)慣、個(gè)人價(jià)值、品牌忠誠度、人際關(guān)系等。

          二、數(shù)據(jù)挖掘技術(shù)及其在電信客戶細(xì)分中的應(yīng)用特點(diǎn)

          數(shù)據(jù)挖掘技術(shù)本質(zhì)是借助大量的知識體系和數(shù)據(jù)分析技術(shù)對海量、無序的數(shù)據(jù)信息進(jìn)行整合與關(guān)聯(lián)建立,從中提取可有效反映數(shù)據(jù)內(nèi)部規(guī)律和模式,并依照所總結(jié)出來的規(guī)律與模式對未來的發(fā)展情況進(jìn)行預(yù)測與評估,幫助決策者制定更有效的執(zhí)行策略。

          傳統(tǒng)的電信客戶細(xì)分方法主要使用資料調(diào)查或客戶價(jià)值分析等兩種,前者具有較少的細(xì)分維度,調(diào)查結(jié)果更易理解和應(yīng)用,但是受調(diào)查樣本數(shù)量的限制,其結(jié)果的可靠性和有效性有待進(jìn)一步確認(rèn);后者操作簡單,對于高價(jià)值電信客戶細(xì)分具有良好的應(yīng)用效果,但是在體現(xiàn)不同客戶、不同業(yè)務(wù)、不同消費(fèi)結(jié)構(gòu)差異性等方面存在一定的缺陷。

          在電信客戶細(xì)分中應(yīng)用數(shù)據(jù)挖掘技術(shù)可以有效利用企業(yè)發(fā)展過程中產(chǎn)生的大量數(shù)據(jù)進(jìn)行多維度、多層面、多角度的客戶細(xì)分,并為細(xì)分結(jié)果提供高可靠性的理論支持。特別是數(shù)據(jù)挖掘技術(shù)中的聚類分析方法可以將客戶群按照電信企業(yè)最為關(guān)注的消費(fèi)行為和消費(fèi)價(jià)值進(jìn)行細(xì)分,體現(xiàn)出不同客戶屬性之間的差異性,協(xié)助制定更加完備的營銷策略?;跀?shù)據(jù)挖掘的電信客戶細(xì)分可以分為戰(zhàn)略細(xì)分和策略細(xì)分兩類。前者主要是對客戶特征進(jìn)行分析與研究,從中查找適當(dāng)?shù)臓I銷機(jī)會(huì);后者主要是對營銷活動(dòng)進(jìn)行分析與研究,為其選取最佳的目標(biāo)人群。

          三、基于數(shù)據(jù)挖掘的客戶細(xì)分模型分析

          (一)細(xì)分模型設(shè)計(jì)

          細(xì)分模型應(yīng)該包括三部分內(nèi)容,即客戶部分、市場部分、營銷部分。

          客戶部分可進(jìn)一步細(xì)化為客戶分類和客戶分析兩類??蛻艏?xì)分中應(yīng)該從客戶消費(fèi)習(xí)慣、消費(fèi)種類、消費(fèi)頻度、消費(fèi)結(jié)構(gòu)、消費(fèi)模式等建立模型,以便于電信企業(yè)依照這些特征對已有客戶的收益率、新客戶的定位、現(xiàn)存客戶與流失客戶特征等進(jìn)行定義??蛻舴治瞿P蛣t需要包括客戶的行為、關(guān)系、價(jià)值屬性、利潤率、忠誠度以及業(yè)務(wù)量等內(nèi)容,通過這些內(nèi)容,電信企業(yè)可以對現(xiàn)有的營銷進(jìn)行效果分析。

          市場部分主要體現(xiàn)為市場預(yù)測與市場總結(jié)等內(nèi)容。建立可靠、客觀的市場模型可以幫助企業(yè)制定更精準(zhǔn)、分類更清晰、目標(biāo)性更強(qiáng)的市場策略,并依照所架構(gòu)的市場模型對用戶行為進(jìn)行解釋,對未來用戶的行為趨向進(jìn)行預(yù)測。

          營銷部分可進(jìn)一步細(xì)化為輔助營銷、定向服務(wù)以及價(jià)格定位三部分。輔助營銷模型可以針對特定的客戶群使用特定的手段進(jìn)行分析與研究,進(jìn)而開拓更具針對性的銷售渠道和宣傳策略,充分滿足客戶的消費(fèi)需求,在維持現(xiàn)有客戶關(guān)系的基礎(chǔ)上提升客戶價(jià)值,拓展客戶量。定向服務(wù)則是充分聽取客戶的消費(fèi)需求,制定差異化服務(wù)策略,提供全方位、高質(zhì)量定制服務(wù)。價(jià)格定位則是對客戶的價(jià)格敏感度建立模型并深入分析。

          (二)電信客戶細(xì)分中的數(shù)據(jù)挖掘技術(shù)

          目前,電信客戶細(xì)分中所使用的數(shù)據(jù)挖掘技術(shù)主要分為分類、聚類以及統(tǒng)計(jì)分析三類。

          分類可以依照預(yù)先制定的規(guī)則制定清晰的分類標(biāo)準(zhǔn),并依照該標(biāo)準(zhǔn)對客戶進(jìn)行歸類,生成預(yù)測模型。分類可以有效反映同類客戶中的同屬性知識特征和不同客戶中的差異性知識特征,其具有非常強(qiáng)的預(yù)測性、指導(dǎo)性和方向性。常用的分類數(shù)據(jù)挖掘算法有神經(jīng)網(wǎng)絡(luò)法、決策樹法、貝葉斯法以及示例學(xué)習(xí)法等。

          聚類則是在海量的數(shù)據(jù)中對客戶屬性進(jìn)行歸納與總結(jié),將分析對象依照共同的特征分為多個(gè)簇,然后再在簇中進(jìn)行特征提取,生成聚類標(biāo)準(zhǔn),依照該標(biāo)準(zhǔn)對不同用戶進(jìn)行分類、對不同簇進(jìn)行更新。該技術(shù)無需指導(dǎo)和事先規(guī)則的制定。常用的聚類數(shù)據(jù)挖掘算法有神經(jīng)網(wǎng)絡(luò)法、模糊聚類法、統(tǒng)計(jì)聚類法等。

          統(tǒng)計(jì)分析則是直接對客戶進(jìn)行分群或輔助其他數(shù)據(jù)挖掘技術(shù)共同實(shí)現(xiàn)電信客戶細(xì)分。其以一定的方法從數(shù)據(jù)庫中提取樣本,并對這些樣本進(jìn)行行為、地域、年齡、需求等進(jìn)行差異性分析,輔助其他數(shù)據(jù)分析與處理技術(shù)即可實(shí)現(xiàn)客戶的細(xì)分。常用的統(tǒng)計(jì)分析方法有交叉分析、相關(guān)分析、顯著性分析、因子分析等。

          參考文獻(xiàn):

          [1]蔡寧.基于數(shù)據(jù)挖掘的電信客戶細(xì)分研究[D].江西理工大學(xué),2008.

          篇11

          二、旅游業(yè)數(shù)據(jù)挖掘算法選擇

          數(shù)據(jù)挖掘中常用的基本分類算法有決策樹、貝葉斯、基于規(guī)則的算法等等。其中,決策樹是目前主流的分類技術(shù),己經(jīng)成功的應(yīng)用于更多行業(yè)的數(shù)據(jù)分析。在關(guān)聯(lián)規(guī)則挖掘研究中,最重要的是Apriori算法,這個(gè)算法后來成為絕大多數(shù)關(guān)聯(lián)規(guī)則分類的基礎(chǔ)。聚類算法也是數(shù)據(jù)挖掘技術(shù)中極為重要的組成部分。與分類技術(shù)不同的是,聚類不要求對數(shù)據(jù)進(jìn)行事先標(biāo)定,就數(shù)據(jù)挖掘功能而言,聚類能夠可以針對數(shù)據(jù)的相異度來分析評估數(shù)據(jù),可以作為其他對發(fā)現(xiàn)的簇運(yùn)行的數(shù)據(jù)挖掘算法的預(yù)處理步驟。各種算法分類模型建立有所不同,但原理是大致相同的。筆者考慮決策樹算法結(jié)構(gòu)簡單,便于理解,且很擅長處理非數(shù)值型數(shù)據(jù),建模效率高,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理的優(yōu)點(diǎn),結(jié)合旅游產(chǎn)業(yè)數(shù)據(jù)特點(diǎn),故作重點(diǎn)分析。

          三、旅游業(yè)數(shù)據(jù)挖掘系統(tǒng)需求分析

          旅游業(yè)數(shù)據(jù)挖掘系統(tǒng)的基本特點(diǎn)如下:統(tǒng)計(jì)旅游興趣;購物消費(fèi)趨向;推薦其感興趣的旅游景點(diǎn);在后臺管理中,通過決策樹算法對游客數(shù)量、平均年齡、景點(diǎn)收費(fèi)、游客來自地區(qū)等進(jìn)行分析總結(jié),為旅游消費(fèi)者和旅游管理者提供服務(wù):為消費(fèi)者提供吃住行購?qiáng)蕵诽鞖飧鞣矫嫘畔⒉樵儭C(jī)票、車船票、酒店、景區(qū)門票、餐飲等方面的預(yù)定與現(xiàn)金支付、第三方支付、消費(fèi)者評價(jià)、在線咨詢等方面的便利、快捷服務(wù)。為管理者提供推薦、游客管理、線路管理、景點(diǎn)管理、特色服務(wù)管理、機(jī)票管理、在線咨詢管理、旅游客戶關(guān)系管理等服務(wù),提高整體服務(wù)效率和水平。

          四、旅游業(yè)數(shù)據(jù)挖掘系統(tǒng)的實(shí)現(xiàn)

          旅游業(yè)信息管理系統(tǒng)包括游客信息管理與游客信息分析兩個(gè)子模塊。根據(jù)系統(tǒng)日常運(yùn)行出現(xiàn)的問題及時(shí)對系統(tǒng)進(jìn)行維護(hù),如添加或者刪除某個(gè)模塊功能,系統(tǒng)整體運(yùn)行速度的更近等。系統(tǒng)運(yùn)用數(shù)據(jù)庫層、持久化層、業(yè)務(wù)邏輯層、表示層四層體系結(jié)構(gòu),主要利用ID3算法達(dá)到旅游數(shù)據(jù)信息的快速、準(zhǔn)確分類??紤]了游客與酒店之間的關(guān)系、游客與旅游路線之間的關(guān)系、游客與旅游景點(diǎn)之間的關(guān)系、游客與機(jī)票、車票之間的關(guān)系、管理員與游客之間的關(guān)系、邏輯結(jié)構(gòu)設(shè)計(jì)。程序之間的獨(dú)立性增加,易于擴(kuò)展,規(guī)范化得到保證的同時(shí)提高了系統(tǒng)的安全性。詳細(xì)功能設(shè)計(jì)包括:用戶登錄、用戶查詢、預(yù)定及支付、后臺管理、旅游客戶管理和數(shù)據(jù)分析等方面。本系統(tǒng)中主要運(yùn)用Java語言就行邏輯上的處理。系統(tǒng)主要使用Struts2和Hibernate這兩個(gè)框架來進(jìn)行整個(gè)系統(tǒng)的搭建。其中Struts2主要處理業(yè)務(wù)邏輯,而Hibernate主要是處理數(shù)據(jù)存儲、查詢等操作。系統(tǒng)采用Tomcat服務(wù)器。系統(tǒng)模塊需要實(shí)現(xiàn)酒店推薦實(shí)現(xiàn)、景點(diǎn)推薦實(shí)現(xiàn)、天氣預(yù)報(bào)實(shí)現(xiàn)、旅游線路實(shí)現(xiàn)、特產(chǎn)推薦、數(shù)據(jù)分析展現(xiàn)功能、報(bào)表數(shù)據(jù)獲取、景區(qū)客流量變化分析實(shí)現(xiàn)等。需要進(jìn)行后臺信息管理等功能測試以及時(shí)間測試、數(shù)據(jù)測試等性能測試。