中文字幕一二三区,亚洲国产片在线观看,国产网站午夜性色,亚洲国产综合精品2022

<menuitem id="ct2o2"><var id="ct2o2"></var></menuitem>
      1. <noscript id="ct2o2"><progress id="ct2o2"><i id="ct2o2"></i></progress></noscript>
        1. 期刊 科普 SCI期刊 投稿技巧 學(xué)術(shù) 出書(shū)

          首頁(yè) > 優(yōu)秀范文 > 數(shù)據(jù)挖掘課程

          數(shù)據(jù)挖掘課程樣例十一篇

          時(shí)間:2022-02-03 15:39:41

          序論:速發(fā)表網(wǎng)結(jié)合其深厚的文秘經(jīng)驗(yàn),特別為您篩選了11篇數(shù)據(jù)挖掘課程范文。如果您需要更多原創(chuàng)資料,歡迎隨時(shí)與我們的客服老師聯(lián)系,希望您能從中汲取靈感和知識(shí)!

          數(shù)據(jù)挖掘課程

          篇1

          【中圖分類號(hào)】G642 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1674-4810(2015)33-0063-02

          我們生活在一個(gè)信息爆炸的時(shí)代,更具體地說(shuō)我們生活在一個(gè)數(shù)據(jù)爆炸的時(shí)代。每天,來(lái)自商業(yè)、社會(huì)、科學(xué)、互聯(lián)網(wǎng)、移動(dòng)設(shè)備等各個(gè)領(lǐng)域的數(shù)據(jù)以爆炸的方式增長(zhǎng)著。巨大的數(shù)據(jù)中蘊(yùn)藏著重要的信息和知識(shí),因此我們需要強(qiáng)大和通用的工具,從海量的數(shù)據(jù)中發(fā)現(xiàn)這些有價(jià)值的信息,把數(shù)據(jù)轉(zhuǎn)化為知識(shí),因此導(dǎo)致了數(shù)據(jù)挖掘的誕生?!皵?shù)據(jù)挖掘是從大量數(shù)據(jù)中挖掘有趣模式和知識(shí)的過(guò)程。數(shù)據(jù)源包括數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、Web、其他信息存儲(chǔ)庫(kù)或動(dòng)態(tài)地流入系統(tǒng)的數(shù)據(jù)。”

          隨著越來(lái)越多的企事業(yè)單位認(rèn)識(shí)到數(shù)據(jù)挖掘的重要性,對(duì)數(shù)據(jù)挖掘人才的需要近兩年也呈現(xiàn)快速增長(zhǎng)的態(tài)勢(shì),大數(shù)據(jù)分析師更是被媒體稱為“未來(lái)最具發(fā)展?jié)摿Φ穆殬I(yè)之一”。因此很多高校開(kāi)設(shè)了數(shù)據(jù)挖掘課程。通過(guò)本課程的學(xué)習(xí),使學(xué)生了解數(shù)據(jù)挖掘技術(shù)的整體概貌,了解數(shù)據(jù)挖掘技術(shù)的主要應(yīng)用及當(dāng)前的研究熱點(diǎn)問(wèn)題,了解數(shù)據(jù)挖掘技術(shù)的發(fā)展方向,掌握最基本的概念、算法原理和技術(shù)方法,培養(yǎng)學(xué)生應(yīng)用數(shù)據(jù)挖掘解決實(shí)際問(wèn)題的能力。本文分析了在本科階段開(kāi)設(shè)數(shù)據(jù)挖掘課程的特點(diǎn),闡述了教學(xué)內(nèi)容和教學(xué)方法,對(duì)數(shù)據(jù)挖掘課程教學(xué)進(jìn)行了新的思考和探索

          一 數(shù)據(jù)挖掘課程特點(diǎn)

          1.大數(shù)據(jù)背景

          “大數(shù)據(jù)”成為近年來(lái)比較熱門(mén)的詞語(yǔ),同時(shí)也反映數(shù)據(jù)的爆炸式增長(zhǎng)給我們帶來(lái)的機(jī)遇和挑戰(zhàn)。大數(shù)據(jù)在維基百科上的解釋是:大數(shù)據(jù)是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,是基于云計(jì)算的數(shù)據(jù)處理與應(yīng)用模式,通過(guò)數(shù)據(jù)的整合共享,交叉復(fù)用形成的智力資源和知識(shí)服務(wù)能力。大數(shù)據(jù)的四個(gè)特征是:數(shù)據(jù)量浩大;模態(tài)繁多、異構(gòu);生成快速;價(jià)值巨大。“大數(shù)據(jù)”分析的需求導(dǎo)致了數(shù)據(jù)挖掘的產(chǎn)生,也同時(shí)給數(shù)據(jù)挖掘帶來(lái)了巨大的發(fā)展前景。

          2.學(xué)科發(fā)展快,內(nèi)容豐富

          數(shù)據(jù)挖掘出現(xiàn)于20世紀(jì)80年代后期,90年代之后開(kāi)始突飛猛進(jìn)的發(fā)展,新的和改進(jìn)的算法不斷出現(xiàn),所考察的數(shù)據(jù)類型日趨豐富,應(yīng)用領(lǐng)域逐漸擴(kuò)大。比如數(shù)據(jù)類型,有流、序列、圖、時(shí)間序列、生物序列、空間、音頻、圖像和視頻數(shù)據(jù)等。數(shù)據(jù)挖掘的模型和算法豐富,比如關(guān)聯(lián)規(guī)則的挖掘有Apriori算法,分類規(guī)則的挖掘有決策樹(shù)、神經(jīng)元網(wǎng)絡(luò)、樸素貝葉斯、支持向量機(jī)等,聚類規(guī)則挖掘,時(shí)間序列挖掘等。

          3.學(xué)科交叉,難度大

          數(shù)據(jù)挖掘課程作為一門(mén)多學(xué)科交叉的專業(yè)課程,涉及的學(xué)科較多。如統(tǒng)計(jì)學(xué),多元統(tǒng)計(jì)學(xué),時(shí)間序列,統(tǒng)計(jì)推斷等;機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、主動(dòng)學(xué)習(xí)等;數(shù)據(jù)庫(kù)系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)、計(jì)算機(jī)軟件編程和開(kāi)發(fā)、Web搜索引擎。眾多的學(xué)科交叉增加了課程的教學(xué)難度,因此需要合理地規(guī)劃課程內(nèi)容和重點(diǎn),循序漸進(jìn)地展開(kāi)教學(xué)內(nèi)容。

          二 教學(xué)探索

          1.課程內(nèi)容體系

          數(shù)據(jù)挖掘是一門(mén)多學(xué)科交叉的前沿學(xué)科,它結(jié)合了數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、知識(shí)系統(tǒng)、信息檢索、高性能計(jì)算和可視化等多問(wèn)學(xué)科的知識(shí)。然而在目前的大學(xué)課程體系中,很難在有限的時(shí)間內(nèi)開(kāi)設(shè)這些課程。

          ――――――――――――――――――――――――

          * 韓山師范學(xué)院2014年校級(jí)優(yōu)質(zhì)網(wǎng)絡(luò)課程――數(shù)學(xué)模型資助項(xiàng)目,通訊作者:李承耕

          特別是對(duì)于數(shù)學(xué)與統(tǒng)計(jì)學(xué)院的學(xué)生,數(shù)學(xué)基礎(chǔ)理論比較好,但是在數(shù)據(jù)庫(kù)技術(shù)、計(jì)算機(jī)軟件算法和編程方面比較薄弱,大部分的同學(xué)沒(méi)有編程經(jīng)驗(yàn)和數(shù)據(jù)處理分析能力。針對(duì)這些問(wèn)題,我們數(shù)據(jù)挖掘課程的授課對(duì)象為大三或大四應(yīng)用型專業(yè)的學(xué)生,并在前期課程中開(kāi)設(shè)數(shù)學(xué)分析、高等代數(shù)、概率與統(tǒng)計(jì)、多元統(tǒng)計(jì)學(xué)等數(shù)學(xué)類課程,同時(shí)開(kāi)設(shè)c語(yǔ)言、java語(yǔ)言、數(shù)值分析、數(shù)據(jù)庫(kù)原理等計(jì)算機(jī)課程,這些課程的開(kāi)設(shè)為數(shù)據(jù)挖掘授課打下了必要的理論基礎(chǔ)。

          數(shù)據(jù)挖掘的內(nèi)容豐富,包含的知識(shí)點(diǎn)很多,我們構(gòu)建了課程的核心知識(shí)結(jié)構(gòu)。核心知識(shí)為三部分:(1)數(shù)據(jù)預(yù)處理,主要任務(wù)包括數(shù)據(jù)清洗,數(shù)據(jù)集成,數(shù)據(jù)變換和數(shù)據(jù)規(guī)約;(2)數(shù)據(jù)倉(cāng)庫(kù),主要包括數(shù)據(jù)倉(cāng)庫(kù)的基本概念,數(shù)據(jù)立方體,數(shù)據(jù)立方體的設(shè)計(jì)與實(shí)現(xiàn);(3)數(shù)據(jù)挖掘,主要包括數(shù)據(jù)挖掘的基本流程,數(shù)據(jù)挖掘的主要算法,數(shù)據(jù)挖掘的常用工具及數(shù)據(jù)挖掘的應(yīng)用實(shí)例??紤]到數(shù)學(xué)與統(tǒng)計(jì)學(xué)院學(xué)生的特點(diǎn)和教學(xué)課時(shí)的限制,教學(xué)重點(diǎn)為數(shù)據(jù)預(yù)處理、數(shù)據(jù)倉(cāng)庫(kù)的基本概念、數(shù)據(jù)挖掘的主要模型三個(gè)方面,特別是數(shù)據(jù)挖掘的模型是重點(diǎn)講授的內(nèi)容。由于數(shù)據(jù)挖掘的模型和算法非常多,我們采用首先講解數(shù)據(jù)挖掘的基本流程,然后重點(diǎn)講解數(shù)據(jù)挖掘中關(guān)聯(lián)分析、分類、聚類三個(gè)方面的模型。

          我們采用理論講解、實(shí)驗(yàn)操作、模型應(yīng)用三個(gè)步驟來(lái)講解每個(gè)模型。理論講解使學(xué)生掌握數(shù)據(jù)挖掘模型的基本理論和算法流程。在實(shí)驗(yàn)操作階段,學(xué)生要親手實(shí)現(xiàn)模型的基本算法,我們使用的編程語(yǔ)言是python,通過(guò)算法的實(shí)現(xiàn),鞏固和加深學(xué)生對(duì)模型的理解。模型應(yīng)用步驟要求學(xué)生綜合應(yīng)用所學(xué)的數(shù)據(jù)挖掘模型知識(shí),選擇一個(gè)應(yīng)用領(lǐng)域,應(yīng)用自己學(xué)習(xí)的算法解決這個(gè)實(shí)際問(wèn)題,并按照數(shù)據(jù)挖掘的流程完成實(shí)驗(yàn)報(bào)告。實(shí)驗(yàn)報(bào)告要求按照數(shù)據(jù)說(shuō)明、數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估、知識(shí)表示等幾個(gè)部分完成,使學(xué)生掌握數(shù)據(jù)挖掘的全過(guò)程,充分認(rèn)識(shí)數(shù)據(jù)挖掘各個(gè)階段要完成的工作。通過(guò)這三個(gè)階段的學(xué)習(xí)和實(shí)踐,學(xué)生基本掌握了數(shù)據(jù)挖掘的算法并具備了基本的模型應(yīng)用能力。

          2.以應(yīng)用為背景,用案例教學(xué)方式組織教學(xué)

          案例教學(xué)法是教師以具有鮮明代表性的案例為學(xué)生創(chuàng)設(shè)問(wèn)題情境,引導(dǎo)學(xué)生通過(guò)對(duì)案例進(jìn)行分析討論,在情境中掌握理論知識(shí)并總結(jié)規(guī)律,創(chuàng)造性地將知識(shí)與實(shí)踐相結(jié)合,找到更多的實(shí)際生活范例或提出解決實(shí)際問(wèn)題的思路與方法。數(shù)據(jù)挖掘本身就是一門(mén)應(yīng)用性很強(qiáng)的學(xué)科,課程內(nèi)容非常適合進(jìn)行案例教學(xué)。

          數(shù)據(jù)挖掘課程主要針對(duì)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院應(yīng)用型本科專業(yè)開(kāi)設(shè),考慮到學(xué)生就業(yè)和當(dāng)前市場(chǎng)需求,以及課程本身實(shí)踐性強(qiáng)的特點(diǎn),在教學(xué)過(guò)程中注重理論結(jié)合實(shí)踐,培養(yǎng)學(xué)生解決實(shí)際問(wèn)題的能力。因此,在向?qū)W生介紹目前常用的數(shù)據(jù)挖掘基本模型的基礎(chǔ)上,結(jié)合市場(chǎng)需求,以實(shí)例為切入點(diǎn),采用案例教學(xué)的方式組織教學(xué)。案例的來(lái)源豐富,有醫(yī)療、商業(yè)、航空、環(huán)保等眾多領(lǐng)域,案例全部來(lái)自于真實(shí)的數(shù)據(jù)挖掘項(xiàng)目,每個(gè)案例有背景與挖掘目標(biāo)、數(shù)據(jù)預(yù)處理、構(gòu)建模型、模型評(píng)價(jià)、上機(jī)實(shí)驗(yàn)幾個(gè)部分組成。通過(guò)講解真實(shí)案例,讓學(xué)生了解數(shù)據(jù)挖掘的算法在實(shí)際中是如何應(yīng)用的,培養(yǎng)學(xué)生應(yīng)用數(shù)據(jù)挖掘的思想,使學(xué)生對(duì)數(shù)據(jù)挖掘有了感性認(rèn)識(shí),激發(fā)其學(xué)習(xí)興趣。具體采用的案例如下表所示。

          三 結(jié)束語(yǔ)

          數(shù)據(jù)挖掘是一門(mén)多學(xué)科交叉的應(yīng)用型學(xué)科,在數(shù)學(xué)與統(tǒng)計(jì)學(xué)院開(kāi)設(shè)數(shù)據(jù)挖掘課程有現(xiàn)實(shí)意義,同時(shí)對(duì)教師和學(xué)生也是一個(gè)挑戰(zhàn)。因此通過(guò)將理論教學(xué)和實(shí)踐相結(jié)合,使用案例教學(xué)的方式組織教學(xué),激發(fā)學(xué)生的學(xué)習(xí)興趣,提高課堂教學(xué)效率,增強(qiáng)學(xué)生實(shí)踐能力,培養(yǎng)學(xué)生應(yīng)用數(shù)據(jù)挖掘的基本方法解決實(shí)際問(wèn)題的能力。同時(shí),數(shù)據(jù)挖掘也是一個(gè)快速發(fā)展的學(xué)科,因此也要不斷更新教學(xué)案例,不斷學(xué)習(xí)和總結(jié),使教學(xué)更加完善合理。

          參考文獻(xiàn)

          [1]〔美〕Jiawei Han、Micheline Kamber、Jian Pei等.數(shù)據(jù)挖掘概念與技術(shù)(第3版)(范明、孟小峰譯)[M].北京:機(jī)械工業(yè)出版社,2012

          [2]張良均等.MATLAB數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M].北京:機(jī)械工業(yè)出版,2015

          [3]譚磊.New Internet:大數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2013

          篇2

          中圖分類號(hào):G712 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-9324(2014)40-0069-02

          一、前言

          近年來(lái),數(shù)據(jù)獲取和數(shù)據(jù)存儲(chǔ)技術(shù)快速發(fā)展,各種數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的數(shù)據(jù)量飛速增長(zhǎng)。人們關(guān)注的焦點(diǎn)要從噪聲、模糊的隨機(jī)數(shù)據(jù)中提取重要的信息、知識(shí),數(shù)據(jù)挖掘的出現(xiàn),提供了一種有效解決“數(shù)據(jù)豐富而知識(shí)貧乏”問(wèn)題的方法。

          數(shù)據(jù)挖掘作為統(tǒng)計(jì)專業(yè)的核心課程,是學(xué)生必須掌握的職業(yè)能力課程。根據(jù)高職生的知識(shí)結(jié)構(gòu)體系和培養(yǎng)目標(biāo),我們采用案例驅(qū)動(dòng)教學(xué)方法,以學(xué)生為主體,案例為主線,教師為主導(dǎo),對(duì)案例進(jìn)行分析,學(xué)習(xí)案例所涉及的相關(guān)知識(shí)點(diǎn),從而會(huì)利用相關(guān)軟件工具對(duì)數(shù)據(jù)進(jìn)行分析,挖掘數(shù)據(jù)間的知識(shí)。

          二、數(shù)據(jù)挖掘中案例驅(qū)動(dòng)教學(xué)的實(shí)施

          (一)合理高職高專統(tǒng)計(jì)專業(yè)數(shù)據(jù)挖掘課程教學(xué)目標(biāo)

          數(shù)據(jù)挖掘是集數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)、模式識(shí)別、可視化等學(xué)科的一個(gè)新興交叉學(xué)科,又包含了聚類分析、關(guān)聯(lián)規(guī)則分析、分類等,每一種挖掘又有不同算法,是一門(mén)理論性、實(shí)踐性及綜合性較強(qiáng)的課程。其知識(shí)內(nèi)容豐富,內(nèi)容深淺不一,各種方法變化快,新方法層出不窮,這對(duì)師生都提出了嚴(yán)峻的挑戰(zhàn)。

          高職高專將培養(yǎng)高等技術(shù)應(yīng)用型專門(mén)人才為根本任務(wù),以適應(yīng)社會(huì)行業(yè)發(fā)展需求為基本目標(biāo),結(jié)合本院統(tǒng)計(jì)專業(yè)學(xué)生的專業(yè)技能特點(diǎn),我們將本門(mén)課程的教學(xué)目標(biāo)定位為:掌握數(shù)據(jù)挖掘課程涉及的基本概念,提高信息分析能力,能從收集到的數(shù)據(jù)信息中利用有效的軟件工具CLEMENTINE進(jìn)行知識(shí)“挖掘”;要根據(jù)實(shí)際情況制定合理完整的數(shù)據(jù)模型并進(jìn)行評(píng)估,這些評(píng)估要具有可視性,才能有效地解決問(wèn)題,而使數(shù)據(jù)挖掘更具有合理性。

          (二)如何驅(qū)動(dòng)教學(xué)來(lái)設(shè)計(jì)數(shù)據(jù)挖掘案例

          1.介紹案例驅(qū)動(dòng)教學(xué)法。案例驅(qū)動(dòng)法是在“哈佛大學(xué)”的情境案例教學(xué)課起源,是一種探索性和協(xié)作性學(xué)習(xí)的教學(xué)模式。整個(gè)授課過(guò)程圍繞著同一個(gè)目標(biāo)和幾項(xiàng)任務(wù)“教授”,學(xué)生通過(guò)對(duì)課程的學(xué)習(xí)、資料的查找和知識(shí)的整合,通過(guò)充分思考和與實(shí)踐相結(jié)合,提高自身能力。這種案例驅(qū)動(dòng)的教學(xué)法可以讓學(xué)生提高學(xué)習(xí)興趣,發(fā)展學(xué)生自身的能力。同時(shí)能讓教師更好地發(fā)揮促進(jìn)學(xué)生學(xué)習(xí)、引導(dǎo)學(xué)生成功的功能。

          案例驅(qū)動(dòng)法是把教學(xué)內(nèi)容和目標(biāo)通過(guò)一個(gè)任務(wù)來(lái)體現(xiàn),把教材內(nèi)容重新整合,老師的授課和學(xué)生的接受都圍繞這個(gè)任務(wù)完成。

          案例驅(qū)動(dòng)法可以充分發(fā)揮學(xué)生的主體地位,從而改變傳統(tǒng)的關(guān)于師生關(guān)系的觀念,讓學(xué)生從被動(dòng)學(xué)習(xí)到主動(dòng)學(xué)習(xí),真正愛(ài)上學(xué)習(xí),提高自己的創(chuàng)新、自學(xué)和實(shí)踐能力,同時(shí)要求老師在授課中給予學(xué)生正確的引導(dǎo)、促進(jìn)、組織和控制,這樣可以增強(qiáng)同學(xué)間的協(xié)作精神和學(xué)生的獨(dú)立意識(shí)。通過(guò)學(xué)生的自主學(xué)習(xí)和探索,可以改變?cè)瓉?lái)枯燥的學(xué)習(xí)方式。對(duì)于數(shù)據(jù)挖掘這門(mén)課程,內(nèi)容深?yuàn)W,既要求學(xué)習(xí)一定的理論知識(shí),又要求掌握數(shù)據(jù)挖掘的使用方法,因此我們引入使用案例驅(qū)動(dòng)的教學(xué)方法。

          2.數(shù)據(jù)挖掘案例教學(xué)的實(shí)施規(guī)劃。利用CLEMENTINE軟件工具進(jìn)行數(shù)據(jù)挖掘,將數(shù)據(jù)挖掘看成一個(gè)以數(shù)據(jù)為中心的循序漸進(jìn)的螺旋式數(shù)據(jù)探索過(guò)程,該過(guò)程分為業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、方案評(píng)估和方案實(shí)施六大部分。因此,在教學(xué)過(guò)程中,我們圍繞數(shù)據(jù)挖掘的六大部分,在每一部分,講解基本的數(shù)據(jù)挖掘技術(shù)原理;對(duì)于數(shù)據(jù)挖掘算法,只要求掌握相關(guān)算法使用的方法和使用的場(chǎng)合,并會(huì)使用專業(yè)的數(shù)據(jù)挖掘工具CLEMENTINE,此應(yīng)用的前提條件要求對(duì)學(xué)生進(jìn)行數(shù)據(jù)挖掘;將教學(xué)的亮點(diǎn)和重點(diǎn)放在案例分析和實(shí)際應(yīng)用上,要對(duì)學(xué)生進(jìn)行動(dòng)手能力的訓(xùn)練。

          在教學(xué)的過(guò)程中,最重要的是案例的選取。通過(guò)參考教學(xué)大綱和教學(xué)目標(biāo),對(duì)教學(xué)案例進(jìn)行精心設(shè)計(jì),可以提高學(xué)生的分析能力,提高學(xué)生發(fā)現(xiàn)問(wèn)題和解決問(wèn)題的能力,才能更好地將教案落實(shí),并形成具體的項(xiàng)目。根據(jù)數(shù)據(jù)挖掘課程的特點(diǎn)和具體內(nèi)容,我們通過(guò)某些小案例引入一些相關(guān)知識(shí),并且采用學(xué)生能夠接受的一個(gè)大案例讓學(xué)生使用成績(jī)數(shù)據(jù)模型組織整個(gè)教學(xué)過(guò)程。

          我們的課程內(nèi)容按數(shù)據(jù)挖掘過(guò)程分為六大部分,按照每一部分的教學(xué)目標(biāo)我們?cè)O(shè)計(jì)了多個(gè)不同的小案例如下。

          (1)藥物研究數(shù)據(jù)和學(xué)生參加社會(huì)活動(dòng)數(shù)據(jù)案例:通過(guò)這兩個(gè)數(shù)據(jù)模型掌握在CLEMENTIME軟件工具中利用軟件中SOURCES選項(xiàng)卡的多種節(jié)點(diǎn)讀入多種文件類型(如TXT文件、EXCEL文件、SPSS文件等)的數(shù)據(jù),掌握讀入數(shù)據(jù)的數(shù)據(jù)類型,掌握APPEND節(jié)點(diǎn)、MERGE節(jié)點(diǎn)合并數(shù)據(jù)的方法。

          (2)移動(dòng)客戶數(shù)據(jù)案例:通過(guò)利用移動(dòng)數(shù)據(jù)讓學(xué)生掌握TYPE節(jié)點(diǎn)進(jìn)行變量說(shuō)明的方法,會(huì)使用該節(jié)點(diǎn)進(jìn)行有限變量值和無(wú)效值的調(diào)整,會(huì)使用DATA AUDIT節(jié)點(diǎn)對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估和調(diào)整;掌握數(shù)據(jù)中對(duì)離群點(diǎn)、極端值和缺失值的調(diào)整,對(duì)數(shù)據(jù)進(jìn)行質(zhì)量管理;會(huì)使用AGGREATE對(duì)數(shù)據(jù)進(jìn)行分類匯總;利用FILLER節(jié)點(diǎn)對(duì)變量值重新計(jì)算,會(huì)用RECLASSIFY節(jié)點(diǎn)實(shí)現(xiàn)變量值進(jìn)行調(diào)整;會(huì)對(duì)數(shù)據(jù)進(jìn)行篩選、樣本子集劃分等處理;了解數(shù)據(jù)分析特征,把握數(shù)據(jù)間相關(guān)性強(qiáng)弱的基本手段;利用壓縮樣本量、簡(jiǎn)約變量值或變量降維等方法對(duì)樣本量龐大的數(shù)據(jù)進(jìn)行精簡(jiǎn)。

          (3)決策樹(shù)模型案例:了解C5.0決策樹(shù)算法,會(huì)建立決策樹(shù)模型,學(xué)會(huì)歸納和提煉現(xiàn)有數(shù)據(jù)包含的規(guī)律,建立分類預(yù)測(cè)模型,會(huì)分析結(jié)論,用于對(duì)未來(lái)新數(shù)據(jù)的預(yù)測(cè)。

          (4)人工神經(jīng)網(wǎng)絡(luò)模型案例:了解人工神經(jīng)網(wǎng)絡(luò)算法,掌握人工神經(jīng)網(wǎng)絡(luò)建立的步驟,建立B-P反向神經(jīng)網(wǎng)絡(luò)模型,預(yù)測(cè)分析結(jié)果。

          (5)貝葉斯模型案例:了解貝葉斯網(wǎng)絡(luò)算法,掌握貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)的組成和構(gòu)建,會(huì)用TAN貝葉斯和馬爾科夫毯網(wǎng)絡(luò)解決從龐大數(shù)據(jù)中尋找輸入變量之間的相關(guān)性,輸入變量的組合取值對(duì)輸出變量的影響,用網(wǎng)絡(luò)結(jié)構(gòu)直觀展示它們的關(guān)系。

          在設(shè)計(jì)小案例的同時(shí),我們還選擇學(xué)生既熟悉又感興趣的綜合項(xiàng)目案例選題:學(xué)生成績(jī)數(shù)據(jù)、圖書(shū)管理數(shù)據(jù)、電信服務(wù)數(shù)據(jù)等,讓學(xué)生帶著問(wèn)題進(jìn)一步學(xué)習(xí)課程,在學(xué)習(xí)中尋找方法解決項(xiàng)目中遇到的問(wèn)題。當(dāng)課程結(jié)束后,各項(xiàng)目組呈交項(xiàng)目數(shù)據(jù)模型和報(bào)告,且項(xiàng)目組長(zhǎng)要向所有同學(xué)按數(shù)據(jù)挖掘的六大部分講解分析報(bào)告。

          3.案例驅(qū)動(dòng)教學(xué)的成效。圍繞案例進(jìn)行教學(xué)的“數(shù)據(jù)挖掘”課程除了采用案例驅(qū)動(dòng)教學(xué)法,還要增加學(xué)生的實(shí)際訓(xùn)練能力,都取得了明顯的效果,從以下五個(gè)方面體現(xiàn):①學(xué)生要主動(dòng)提出問(wèn)題,同時(shí)積極主動(dòng)地參與課堂教學(xué),才能提高學(xué)生分析和處理問(wèn)題的能力;②增強(qiáng)學(xué)生的自主學(xué)習(xí)能力,要求學(xué)生通過(guò)小組討論的形式和實(shí)際訓(xùn)練讓學(xué)生以積極主動(dòng)的態(tài)度處理和解決一些技術(shù)問(wèn)題,從而提高自學(xué)能力;③學(xué)生間要注意培養(yǎng)團(tuán)隊(duì)合作能力的,也要具有競(jìng)爭(zhēng)意識(shí);④課程學(xué)習(xí)結(jié)束后,普遍反映對(duì)利用CLEMENTIME軟件工具進(jìn)行數(shù)據(jù)挖掘的自信心提高,能夠進(jìn)一步提高對(duì)專業(yè)的認(rèn)知,獨(dú)立解決一些數(shù)據(jù)統(tǒng)計(jì)分析的問(wèn)題。

          三、結(jié)束語(yǔ)

          數(shù)據(jù)挖掘是統(tǒng)計(jì)專業(yè)的專業(yè)課程,其內(nèi)容繁多、深?yuàn)W,把基于案例驅(qū)動(dòng)的教學(xué)模式引入《數(shù)據(jù)挖掘》課程,學(xué)生在學(xué)習(xí)過(guò)程中,實(shí)現(xiàn)了整個(gè)數(shù)據(jù)挖掘的流程,在基于項(xiàng)目的技術(shù)應(yīng)用中深入理解了數(shù)據(jù)挖掘的理論知識(shí)。學(xué)生要將所學(xué)的理論知識(shí)和實(shí)踐相結(jié)合,從而有效提高自己的操作技能和知識(shí)水平,培養(yǎng)了自己應(yīng)用數(shù)據(jù)挖掘技術(shù)解決實(shí)際問(wèn)題的應(yīng)用能力和創(chuàng)新實(shí)踐能力。

          從教學(xué)效果來(lái)看,通過(guò)將理論教學(xué)和實(shí)踐相結(jié)合,案例教學(xué)法整合了各種學(xué)習(xí)工具和教學(xué)資源,這樣才能充分發(fā)揮學(xué)生的主觀能動(dòng)性,培養(yǎng)和提高學(xué)生的主觀能動(dòng)性,同時(shí)增強(qiáng)學(xué)生分析和處理問(wèn)題的能力,今后,我們將繼續(xù)完善數(shù)據(jù)挖掘的教學(xué)案例,研究和總結(jié)教學(xué)經(jīng)驗(yàn),使整個(gè)教學(xué)環(huán)節(jié)更加完善合理。

          參考文獻(xiàn):

          [1]劉云霞.統(tǒng)計(jì)學(xué)專業(yè)本科生開(kāi)設(shè)“數(shù)據(jù)挖掘”課程的探討[J].吉林工程技術(shù)師范學(xué)院學(xué)報(bào),2010,(26).

          [2]覃義,楊丹江,劉憶寧.《數(shù)據(jù)挖掘》本科教學(xué)的體會(huì)與創(chuàng)新[J].科技信息,2012,(10).

          [3]李國(guó)榮.培養(yǎng)統(tǒng)計(jì)專業(yè)學(xué)生動(dòng)手能力和創(chuàng)新能力的探索[J].統(tǒng)計(jì)教育,2007,(9).

          [4]白忠喜,魯越青,梁偉,等.校政企共建基地開(kāi)展基于項(xiàng)目驅(qū)動(dòng)的實(shí)踐教學(xué)改革[J].中國(guó)大學(xué)教學(xué),2011,(2).

          篇3

          1.1 大數(shù)據(jù)含義 大數(shù)據(jù)是網(wǎng)絡(luò)技術(shù)發(fā)展到一定階段出現(xiàn)的新興名詞,是指數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多的數(shù)據(jù)構(gòu)成的集合,大數(shù)據(jù)是以云計(jì)算的共享平臺(tái)為基礎(chǔ),通過(guò)數(shù)據(jù)的交叉復(fù)用,形成新的智力資源和知識(shí)服務(wù)能力。大數(shù)據(jù)處理需要分布式計(jì)算機(jī)構(gòu)架才能完成,僅依靠單臺(tái)的計(jì)算機(jī)無(wú)法實(shí)現(xiàn)大數(shù)據(jù)處理,因此大數(shù)據(jù)處理就是借助云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)、虛擬存儲(chǔ)技術(shù)對(duì)大量數(shù)據(jù)進(jìn)行整合處理的過(guò)程。

          1.2 大數(shù)據(jù)特征 大數(shù)據(jù)具有數(shù)量大(Volume)、類型多(Variety)、價(jià)值高(Value)和速度快(Velocity)的特點(diǎn),簡(jiǎn)稱為“4V”。大數(shù)據(jù)處理的數(shù)據(jù)規(guī)模不斷擴(kuò)大,已經(jīng)由GB、TB級(jí)擴(kuò)展到EB或ZB級(jí),這是普通計(jì)算機(jī)硬盤(pán)容量所無(wú)法達(dá)到的;大數(shù)據(jù)對(duì)象包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)對(duì)象由傳統(tǒng)的文本內(nèi)容擴(kuò)展到了音頻數(shù)據(jù)、視頻數(shù)據(jù)、搜索引擎中關(guān)鍵詞等,其數(shù)據(jù)的類型繁多復(fù)雜;數(shù)據(jù)之間的關(guān)聯(lián)性不斷加強(qiáng),已經(jīng)對(duì)社會(huì)經(jīng)濟(jì)、系統(tǒng)、信息學(xué)、網(wǎng)絡(luò)學(xué)以及心理學(xué)等多個(gè)領(lǐng)域產(chǎn)生了深遠(yuǎn)影響;大數(shù)據(jù)的產(chǎn)生形式以數(shù)據(jù)流為主,能瞬時(shí)產(chǎn)生,具有很強(qiáng)的動(dòng)態(tài)性和時(shí)效性。

          2 《數(shù)據(jù)挖掘》課程教學(xué)探討

          2.1 教學(xué)內(nèi)容 《數(shù)據(jù)挖掘》是一門(mén)綜合性的學(xué)科,學(xué)科內(nèi)涉及的主要內(nèi)容有數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、信息檢索、計(jì)算機(jī)技術(shù)以及可視化技術(shù)等,需要不同的學(xué)科交叉學(xué)習(xí),因此,該課程具有很高的理論性和實(shí)踐性。在教學(xué)過(guò)程中,不僅要注重基礎(chǔ)理論知識(shí)的培養(yǎng),還要加強(qiáng)對(duì)學(xué)生創(chuàng)新能力以及問(wèn)題解決能力的培養(yǎng)。課程的知識(shí)結(jié)構(gòu)可按照表1所示組建。

          數(shù)據(jù)挖掘前需要進(jìn)行預(yù)處理,然后才能存入數(shù)據(jù)倉(cāng)庫(kù),再利用相關(guān)的挖掘工具和算法,按照挖掘流程進(jìn)行數(shù)據(jù)挖掘,最后將挖掘結(jié)果以可視化的形式展示出來(lái)。在整個(gè)教學(xué)過(guò)程中,教學(xué)重點(diǎn)是挖掘工具和挖掘算法,其中挖掘工具主要有通用挖掘工具和專用挖掘工具兩類,而挖掘算法則包括分類法、關(guān)聯(lián)分析法、聚類法等10種方法。學(xué)生不僅要了解各類算法的相關(guān)概念,還要能利用算法對(duì)實(shí)例進(jìn)行分析。

          2.2 《數(shù)據(jù)挖掘》課程教學(xué)探索

          2.2.1 培養(yǎng)數(shù)據(jù)意識(shí) 《數(shù)據(jù)挖掘》是以數(shù)據(jù)為驅(qū)動(dòng)的理論分析和應(yīng)用課程,具有抽象性和具體性,抽象性是指數(shù)據(jù)挖掘過(guò)程中的理論、技術(shù)和方法具有很強(qiáng)的抽象性,學(xué)生在有限的時(shí)間內(nèi)無(wú)法理解和消化;具體性是指研究?jī)?nèi)容比較客觀,具有一定的解釋性和理解性。針對(duì)以上特點(diǎn),教師在組織教學(xué)時(shí),應(yīng)先培養(yǎng)學(xué)生的學(xué)習(xí)興趣,使學(xué)生產(chǎn)生一定的數(shù)據(jù)意識(shí)。具體安排時(shí),可先安排2-4個(gè)學(xué)時(shí)講解數(shù)據(jù)及其主要應(yīng)用,讓學(xué)生對(duì)大數(shù)據(jù)的產(chǎn)生、影響和應(yīng)用等內(nèi)容做初步了解,使學(xué)生對(duì)該課程的學(xué)習(xí)目的和實(shí)際意義產(chǎn)生客觀認(rèn)識(shí)。

          2.2.2 深化基礎(chǔ),加強(qiáng)理論體系 大數(shù)據(jù)特征對(duì)數(shù)據(jù)分析技術(shù)提出了更高的要求,現(xiàn)有的數(shù)據(jù)分析技術(shù)難以滿足實(shí)際需求,這就說(shuō)明了數(shù)據(jù)挖掘技術(shù)的應(yīng)用和發(fā)展將面臨更嚴(yán)峻的考驗(yàn)。數(shù)據(jù)挖掘技術(shù)涉及的知識(shí)內(nèi)容較多,在大學(xué)課程體系中難以全部開(kāi)設(shè),給學(xué)生的學(xué)習(xí)帶來(lái)很大阻礙。為解決以上問(wèn)題,開(kāi)封大學(xué)采取措施:將《數(shù)據(jù)挖掘》課程授課對(duì)象設(shè)定為高年級(jí)學(xué)生,經(jīng)過(guò)兩年或三年基礎(chǔ)課程的學(xué)習(xí),學(xué)生已經(jīng)具備了一定的理論基礎(chǔ),在學(xué)習(xí)《數(shù)據(jù)挖掘》課程中,就可節(jié)約大量時(shí)間學(xué)習(xí)課程的核心內(nèi)容。

          2.2.3 教學(xué)方式多樣化 理論來(lái)源于實(shí)踐,也可以指導(dǎo)實(shí)踐;實(shí)踐是檢驗(yàn)理論的唯一途徑?!稊?shù)據(jù)挖掘》具有很強(qiáng)的抽象性,學(xué)生無(wú)法在有限的學(xué)習(xí)時(shí)間內(nèi)對(duì)眾多概念產(chǎn)生足夠清晰的認(rèn)識(shí),只能借助實(shí)踐教學(xué)使學(xué)生明白課程內(nèi)容的原理及其實(shí)用價(jià)值。在講解基本概念、原理或者算法時(shí),可采取案例教學(xué)法、任務(wù)驅(qū)動(dòng)教學(xué)法、項(xiàng)目教學(xué)法等,將理論與實(shí)踐相結(jié)合,提高學(xué)生的學(xué)習(xí)興趣和操作能力。因此教師應(yīng)在教學(xué)過(guò)程中注意教學(xué)方法的選擇和使用,充分體現(xiàn)出學(xué)生的主體地位和教師的主導(dǎo)作用,通過(guò)一系列理實(shí)一體化教學(xué)方式,提高教學(xué)效果。

          篇4

          加強(qiáng)實(shí)驗(yàn)教學(xué),增強(qiáng)學(xué)生動(dòng)手能力

          信息與計(jì)算科學(xué)專業(yè)是以信息領(lǐng)域?yàn)楸尘?,?shù)學(xué)與信息、管理相結(jié)合的交叉學(xué)科專業(yè)。該專業(yè)培養(yǎng)的學(xué)生具有良好的數(shù)學(xué)基礎(chǔ),能熟練地使用計(jì)算機(jī),初步具備在信息與計(jì)算科學(xué)領(lǐng)域的某個(gè)方向上從事科學(xué)研究,解決實(shí)際問(wèn)題,設(shè)計(jì)開(kāi)發(fā)有關(guān)軟件的能力。畢業(yè)生適合到企事業(yè)單位、高科技部門(mén)、高等院校、行政管理和經(jīng)濟(jì)管理部門(mén),從事科研、教學(xué)和計(jì)算機(jī)應(yīng)用軟件的開(kāi)發(fā)和管理工作,也可以繼續(xù)攻讀信息與計(jì)算科學(xué)及相關(guān)學(xué)科的碩士學(xué)位。從信息與計(jì)算科學(xué)專業(yè)的培養(yǎng)目標(biāo)可以看出信息與計(jì)算科學(xué)專業(yè)的本科生不但需要掌握理論知識(shí),還需要具有將所學(xué)知識(shí)用來(lái)解決實(shí)際問(wèn)題的能力。數(shù)據(jù)挖掘作為一門(mén)應(yīng)用性較強(qiáng)的課程,需要學(xué)生能夠運(yùn)用數(shù)據(jù)挖掘知識(shí)分析和解決實(shí)際問(wèn)題,要求學(xué)生能夠熟練掌握數(shù)據(jù)挖掘的程序設(shè)計(jì),以便在將來(lái)的就業(yè)中具有更好的適應(yīng)性,因此實(shí)驗(yàn)環(huán)節(jié)的教學(xué)有著其必要性?;谶@些原因,我們?cè)谶@門(mén)課中引入實(shí)驗(yàn)環(huán)節(jié),并將其納入考核要求。我們實(shí)驗(yàn)所用的基本軟件是SAS統(tǒng)計(jì)分析軟件。SAS軟件是一個(gè)集統(tǒng)計(jì)分析、報(bào)表圖形、信息系統(tǒng)開(kāi)發(fā)和大型數(shù)據(jù)庫(kù)管理等多種強(qiáng)大功能為一體的大型軟件系統(tǒng),是目前國(guó)際上主流的統(tǒng)計(jì)分析軟件之一。我們信息專業(yè)在大三時(shí)開(kāi)設(shè)這門(mén)課程,之前已經(jīng)學(xué)過(guò)C語(yǔ)言和JAVA等程序設(shè)計(jì)方法,有了一定的編程基礎(chǔ),因此學(xué)習(xí)使用SAS軟件并不是特別困難。而且,在SAS軟件中,系統(tǒng)自帶了許多數(shù)據(jù)挖掘函數(shù),這方便了同學(xué)們的使用。我們?cè)谄綍r(shí)的學(xué)習(xí)中,將一些SAS軟件的基本程序設(shè)計(jì)基礎(chǔ)知識(shí)先發(fā)給同學(xué)們,讓他們利用課后時(shí)間自己在個(gè)人電腦上進(jìn)行熟悉,從而使得他們熟悉基本SAS程序設(shè)計(jì)方法,這樣可以在實(shí)驗(yàn)課上直接運(yùn)用SAS軟件進(jìn)行數(shù)據(jù)挖掘程序的編寫(xiě)。在實(shí)驗(yàn)課上,我們主要將要實(shí)驗(yàn)的內(nèi)容和相關(guān)數(shù)據(jù)資料提供給同學(xué),要求同學(xué)自己用數(shù)據(jù)挖掘的知識(shí)和SAS軟件進(jìn)行編程實(shí)現(xiàn),并寫(xiě)出實(shí)驗(yàn)分析和小結(jié)。另外,在實(shí)驗(yàn)中,我們也要求學(xué)生盡可能將一些實(shí)驗(yàn)結(jié)果用圖表的形式如崖底碎石圖等表示出來(lái),以利于進(jìn)一步分析。對(duì)于少部分學(xué)有余力的同學(xué),我們也引導(dǎo)他們自編相關(guān)的程序。比如說(shuō)在SAS軟件中進(jìn)行K-均值聚類用fastclus這個(gè)函數(shù)就可以了,但是學(xué)生對(duì)程序具體實(shí)現(xiàn)過(guò)程可能不是很清楚。如果學(xué)生能夠?qū)⒊绦騅-均值聚類詳細(xì)程序步驟自己編寫(xiě)出來(lái),就可以表明學(xué)生對(duì)所K-均值聚類算法也有了較清楚的認(rèn)識(shí)。另外,對(duì)于屬于數(shù)學(xué)建模協(xié)會(huì)的同學(xué),我們也引導(dǎo)他們將數(shù)據(jù)挖掘的知識(shí)和數(shù)學(xué)建模中某些問(wèn)題相結(jié)合起來(lái),對(duì)于以往出現(xiàn)的一些可以利用數(shù)據(jù)挖掘知識(shí)分析的問(wèn)題讓他們利用相關(guān)的數(shù)據(jù)挖掘知識(shí)對(duì)其進(jìn)行分析和求解,通過(guò)這樣的方式,可以這樣拓展這些同學(xué)的思路,也為數(shù)學(xué)建模培養(yǎng)了人才。

          篇5

          中圖分類號(hào):G642 文獻(xiàn)標(biāo)識(shí)碼:A

          文章編號(hào):1672-5913(2007)14-0027-03

          1引言

          數(shù)據(jù)挖掘是一門(mén)綜合性的交叉學(xué)科,它融合了概率統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)技術(shù)、數(shù)據(jù)倉(cāng)庫(kù)、人工智能、機(jī)器學(xué)習(xí)、信息檢索、數(shù)據(jù)結(jié)構(gòu)、高性能計(jì)算、數(shù)據(jù)可視化以及面向?qū)ο蠹夹g(shù)等,在保險(xiǎn)業(yè)、電信業(yè)、交通業(yè)、零售業(yè)、銀行業(yè)正在被越來(lái)越廣泛深入地使用,同時(shí)在生物學(xué)、天文學(xué)、地理學(xué)等領(lǐng)域也逐漸顯現(xiàn)出技術(shù)優(yōu)勢(shì),特別是在客戶關(guān)系管理系統(tǒng)、個(gè)性化網(wǎng)站設(shè)計(jì)、電子商務(wù)系統(tǒng)、搜索引擎等方面數(shù)據(jù)挖掘技術(shù)顯示出了獨(dú)特的魅力。數(shù)據(jù)挖掘技術(shù)正在以一種全新的概念改變著計(jì)算機(jī)應(yīng)用的方式。

          從最近計(jì)算機(jī)技術(shù)的發(fā)展以及學(xué)生就業(yè)方面來(lái)看,對(duì)本校的應(yīng)用性本科生開(kāi)設(shè)“數(shù)據(jù)挖掘技術(shù)”課程迫在眉睫。但數(shù)據(jù)挖掘給人的感覺(jué)就是“高深莫測(cè)”,當(dāng)前數(shù)據(jù)挖掘領(lǐng)域主要是博士生、碩士生研究的領(lǐng)域,數(shù)據(jù)挖掘課程也只在一些重點(diǎn)大學(xué)的研究生或高年級(jí)的本科生中開(kāi)設(shè),應(yīng)用型本科院校以及一些高職高專幾乎都沒(méi)有開(kāi)設(shè)此類課程。這限定了數(shù)據(jù)挖掘作為一門(mén)既有理論又有實(shí)踐價(jià)值學(xué)科的應(yīng)用和推廣,筆者認(rèn)為很可惜。從計(jì)算機(jī)專業(yè)的學(xué)生的畢業(yè)設(shè)計(jì)以及就業(yè)角度分析,相當(dāng)多的同學(xué)以后會(huì)從事電子商務(wù)類軟件的開(kāi)發(fā),而這類應(yīng)用目前都漸漸基于Web作為應(yīng)用平臺(tái),面對(duì)的是海量的數(shù)據(jù)信息,因此讓學(xué)生掌握數(shù)據(jù)挖掘的思想和方法對(duì)提高計(jì)算機(jī)素養(yǎng)很有必要。即使將來(lái)從事控制、通信、游戲、圖像處理等軟件開(kāi)發(fā),數(shù)據(jù)挖掘的思想和方法也很容易找到用武之地。

          2數(shù)據(jù)挖掘課程開(kāi)設(shè)的可行性分析

          從計(jì)算機(jī)技術(shù)發(fā)展以及學(xué)生就業(yè)反饋的信息,筆者覺(jué)得數(shù)據(jù)挖掘的思想、方法以及算法對(duì)應(yīng)用型本科生是很重要的,并且讓學(xué)生掌握好這門(mén)課程也是完全可能的。我校從1998年以來(lái)一直在高年級(jí)本科生中開(kāi)設(shè)了“人工智能”課程,但從教學(xué)效果上來(lái)看,很不理想?!皵?shù)據(jù)挖掘技術(shù)”這門(mén)課程在不少地方很像“人工智能”,“數(shù)據(jù)挖掘技術(shù)”課程中的一些思想就是從“人工智能”中發(fā)展過(guò)來(lái)的,但是“數(shù)據(jù)挖掘技術(shù)”課程與“人工智能”課程有一個(gè)本質(zhì)的區(qū)別,就是數(shù)據(jù)挖掘從誕生的一開(kāi)始就是面向大量的、實(shí)際的數(shù)據(jù)庫(kù)信息,因此,具有極強(qiáng)的應(yīng)用性,如果將“數(shù)據(jù)挖掘技術(shù)”課程看做是“數(shù)據(jù)庫(kù)技術(shù)”課程的自然延伸,同時(shí)充分利用數(shù)據(jù)結(jié)構(gòu)、人工智能、面向?qū)ο蠹夹g(shù)與方法、Web技術(shù)、概率統(tǒng)計(jì)等課程的基礎(chǔ),就能夠?qū)ⅰ皵?shù)據(jù)挖掘技術(shù)”課程開(kāi)設(shè)好。于是兩年前,筆者在應(yīng)用型本科生中做了嘗試,就是取消原來(lái)的“人工智能”課程,取而代之的是“數(shù)據(jù)挖掘技術(shù)”課程,從兩年的教學(xué)實(shí)踐以及教學(xué)效果上看,行之有效。并且在教學(xué)中發(fā)現(xiàn),雖然數(shù)據(jù)挖掘技術(shù)要用到人工智能的一些思想和方法,但沒(méi)有“人工智能”課程作為前導(dǎo)課程,沒(méi)有任何影響,因?yàn)?,?shù)據(jù)挖掘中的一些人工智能思想在“數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)中是自成體系的,并且是以比“人工智能”中的方法更加簡(jiǎn)單、更加直接、更加面向應(yīng)用的方式。開(kāi)設(shè)“數(shù)據(jù)挖掘技術(shù)”課程必須以下列的課程作為基礎(chǔ)(前導(dǎo)課程),當(dāng)然這些課程都是一些常規(guī)課程。

          1) 必須深入學(xué)習(xí)一門(mén)程序設(shè)計(jì)語(yǔ)言,通過(guò)這門(mén)語(yǔ)言的學(xué)習(xí)可以掌握程序設(shè)計(jì)的基礎(chǔ)知識(shí),并且掌握面向?qū)ο笏枷腴_(kāi)發(fā)的精髓,能夠進(jìn)行可視化程序設(shè)計(jì)。學(xué)習(xí)程序設(shè)計(jì)絕不是記住程序設(shè)計(jì)語(yǔ)言的語(yǔ)法就行了,而要努力做到將應(yīng)用中的思想變?yōu)槌绦?。這一點(diǎn)是計(jì)算機(jī)專業(yè)學(xué)生的基本素養(yǎng)。這一環(huán)節(jié)沒(méi)有做好,其余的計(jì)算機(jī)專業(yè)的專業(yè)課程,如數(shù)據(jù)結(jié)構(gòu)、操作系統(tǒng)、數(shù)據(jù)庫(kù)原理、編譯原理、軟件工程等就無(wú)法學(xué)習(xí),即使學(xué)了,也不能真正掌握。筆者從計(jì)算機(jī)發(fā)展和應(yīng)用角度,推薦學(xué)習(xí)C/C++和Java,要求對(duì)C++的模板以及STL或Java的數(shù)據(jù)結(jié)構(gòu)類(在Java的util包中)能夠較好掌握。

          2) 掌握“數(shù)據(jù)結(jié)構(gòu)”課程,特別是“數(shù)據(jù)結(jié)構(gòu)”課程中的樹(shù)的特點(diǎn)和應(yīng)用。在“數(shù)據(jù)結(jié)構(gòu)”課程中,樹(shù)主要以二叉樹(shù)為主,對(duì)于一般的樹(shù),在當(dāng)前的“數(shù)據(jù)結(jié)構(gòu)”課程的教學(xué)中都是將一般的樹(shù)轉(zhuǎn)化為二叉樹(shù)來(lái)進(jìn)行處理的,但是在數(shù)據(jù)挖掘中這樣不太方便。數(shù)據(jù)挖掘中的很多算法都涉及到樹(shù)的應(yīng)用,并且大多都是不太規(guī)則的樹(shù),在數(shù)據(jù)挖掘中,采用樹(shù)的思想與Java中的數(shù)據(jù)結(jié)構(gòu)類或C++中的STL相結(jié)合的方法,能夠得到很好的效果。

          3) 掌握“數(shù)據(jù)庫(kù)技術(shù)”課程中數(shù)據(jù)庫(kù)操作的特點(diǎn)和應(yīng)用。數(shù)據(jù)挖掘的對(duì)象主要是數(shù)據(jù)庫(kù)中的數(shù)據(jù),但作為數(shù)據(jù)挖掘?qū)ο蟮臄?shù)據(jù)庫(kù)的數(shù)據(jù)信息量往往很大,因此,為了提高挖掘的效率,需要建立數(shù)據(jù)倉(cāng)庫(kù),或者需要在算法上加工,盡量減少掃描數(shù)據(jù)庫(kù)的次數(shù)。

          4) 掌握“Web技術(shù)”。這是因?yàn)镮nternet已經(jīng)廣泛應(yīng)用并且深入人心,未來(lái)的軟件相當(dāng)多的都是基于Web平臺(tái)之上,因此,對(duì)于Web挖掘不僅重要,而且具有直接的應(yīng)用價(jià)值。當(dāng)前Internet上的軟件如一些知名網(wǎng)站、搜索引擎以及一些電子商務(wù)系統(tǒng),采用了數(shù)據(jù)挖掘技術(shù),得到了很多有價(jià)值的信息或提高了個(gè)性化能力,大大增強(qiáng)了企業(yè)的競(jìng)爭(zhēng)力。因此,掌握“Web技術(shù)”課程對(duì)Web挖掘很有裨益。

          5) 熟悉“概率統(tǒng)計(jì)”課程中的思維方式,對(duì)各種分布以及條件概率能夠熟練掌握,在數(shù)據(jù)挖掘中的分類、關(guān)聯(lián)規(guī)則等領(lǐng)域很多挖掘方法都靈活運(yùn)用了概率統(tǒng)計(jì)中的思想和方法。

          從“數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)實(shí)踐中明顯看出,主要需要以上幾門(mén)課程,并且教學(xué)結(jié)束后發(fā)現(xiàn),學(xué)生不僅能夠掌握數(shù)據(jù)挖掘的思想、方法以及算法,通過(guò)對(duì)一些主要的挖掘算法的實(shí)現(xiàn),對(duì)“數(shù)據(jù)庫(kù)技術(shù)”、“程序設(shè)計(jì)語(yǔ)言”、“數(shù)據(jù)結(jié)構(gòu)”、“Web技術(shù)”以及“概率統(tǒng)計(jì)”掌握得更加深刻,將“數(shù)據(jù)挖掘技術(shù)”作為“數(shù)據(jù)庫(kù)技術(shù)”的自然延伸,是“程序設(shè)計(jì)語(yǔ)言”、“數(shù)據(jù)結(jié)構(gòu)”、“Web技術(shù)”以及“概率統(tǒng)計(jì)”的綜合運(yùn)用得到良好效果。

          3 “數(shù)據(jù)挖掘技術(shù)”課程的設(shè)置

          一門(mén)課程的設(shè)置,不僅要根據(jù)當(dāng)前計(jì)算機(jī)技術(shù)的發(fā)展,同時(shí)也要根據(jù)當(dāng)前學(xué)生的就業(yè)需求,充分考慮到應(yīng)用型本科學(xué)生的特點(diǎn)。兩年前,經(jīng)過(guò)多方面的考慮以及參考了各種國(guó)內(nèi)國(guó)外數(shù)據(jù)挖掘的教材以及論文后決定,“數(shù)據(jù)挖掘技術(shù)”課程教學(xué)學(xué)時(shí)定為32課時(shí),講課22學(xué)時(shí),上機(jī)實(shí)驗(yàn)10學(xué)時(shí)。在這個(gè)總的學(xué)時(shí)定下來(lái)之后,就是對(duì)“數(shù)據(jù)挖掘技術(shù)”課程的內(nèi)容設(shè)計(jì),這是最重要的環(huán)節(jié)。精選出的內(nèi)容不僅要反映數(shù)據(jù)挖掘的特點(diǎn)以及最新發(fā)展,還要結(jié)合應(yīng)用型本科生的特點(diǎn),要具有很強(qiáng)的針對(duì)性,重點(diǎn)要突出,要能夠“學(xué)以致用”。最后“數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)內(nèi)容如下:

          1) 數(shù)據(jù)挖掘綜述2學(xué)時(shí)。本講側(cè)重于從兩、三個(gè)具體應(yīng)用領(lǐng)域進(jìn)行分析得出采用數(shù)據(jù)挖掘技術(shù)的重要性與必要性,可以選取客戶關(guān)系管理、體育競(jìng)技、信息安全和商業(yè)欺詐等作為案例,然后給出完整的數(shù)據(jù)挖掘定義和數(shù)據(jù)挖掘技術(shù)的分類,以及數(shù)據(jù)挖掘需要的一些前導(dǎo)課程的知識(shí)要點(diǎn)。

          2) 數(shù)據(jù)挖掘過(guò)程及當(dāng)前數(shù)據(jù)挖掘的軟件工具2學(xué)時(shí)。數(shù)據(jù)挖掘的過(guò)程是數(shù)據(jù)抽取與集成、數(shù)據(jù)清洗與預(yù)處理、數(shù)據(jù)的選擇與整理、數(shù)據(jù)挖掘以及結(jié)論評(píng)估。本講重點(diǎn)講解挖掘的過(guò)程,強(qiáng)調(diào)數(shù)據(jù)預(yù)處理對(duì)挖掘的重要意義,對(duì)于缺省的值、殘缺的值等的處理方法。讓學(xué)生對(duì)數(shù)據(jù)挖掘的整體過(guò)程有清楚的理解。然后介紹一下當(dāng)前流行的商品化數(shù)據(jù)挖掘軟件如IBM的IntelligentMiner和加拿大Simon Fraser 大學(xué)的DBMiner。

          3) 關(guān)聯(lián)規(guī)則挖掘與序列模式挖掘6學(xué)時(shí)。在介紹關(guān)聯(lián)規(guī)則原理的基礎(chǔ)上,主要介紹著名算法Apriori及其改進(jìn)、FP_Tree算法、用于序列模式挖掘的AprioriSome算法。每個(gè)算法需要2學(xué)時(shí),對(duì)每個(gè)算法要進(jìn)行徹底分析,不僅能夠理解算法的原理、思想以及過(guò)程,還要分析算法提出人為什么會(huì)提出這種算法,在日常生活中的含義是什么,算法的優(yōu)點(diǎn)和缺點(diǎn)是什么,以及如何用Java或C++來(lái)編程實(shí)現(xiàn)該算法。最后,對(duì)多層次關(guān)聯(lián)以及數(shù)量關(guān)聯(lián)規(guī)則挖掘做個(gè)簡(jiǎn)單介紹即可。

          4) 分類技術(shù)4學(xué)時(shí)。介紹分類的原理,主要講解ID3和C4.5、樸素貝葉斯分類,簡(jiǎn)單介紹一下BP神經(jīng)網(wǎng)絡(luò)的分類。對(duì)于C4.5要求能夠從原理上把握整個(gè)算法,能夠進(jìn)行連續(xù)值的離散化處理,理解C4.5比ID3的優(yōu)勢(shì)所在;對(duì)于樸素貝葉斯分類,要深刻理解該分類的原理以及貝葉斯信念網(wǎng)絡(luò)的工作原理。特別的,對(duì)于FP_TREE以及C4.5算法的實(shí)現(xiàn),需要用到不規(guī)則樹(shù),提出用C++或Java解決這種不規(guī)則樹(shù)的方法。

          5) 聚類技術(shù)4學(xué)時(shí)。在介紹聚類的重要性和分類的基礎(chǔ)上主要介紹劃分聚類PAM算法思想以及基于密度聚類DBSCAN,對(duì)于當(dāng)前重要的聚類STING和CLIQUE做個(gè)簡(jiǎn)單介紹。最后,比較聚類和分類的不同之處。

          6) Web挖掘與個(gè)性化推薦技術(shù)4學(xué)時(shí)。對(duì)于Web挖掘從內(nèi)容挖掘、訪問(wèn)行為挖掘和結(jié)構(gòu)挖掘三個(gè)方面進(jìn)行講解,重點(diǎn)講解個(gè)性化技術(shù)。對(duì)基于最小關(guān)聯(lián)規(guī)則集的個(gè)性化推薦以及基于協(xié)作篩的個(gè)性化推薦作深入剖析,并指出在當(dāng)今網(wǎng)站設(shè)計(jì)中的重要意義。

          7) 上機(jī)實(shí)驗(yàn)設(shè)計(jì)。精選五個(gè)上機(jī)實(shí)驗(yàn)。第一個(gè)實(shí)驗(yàn)是關(guān)聯(lián)規(guī)則的Apriori算法或FP_Tree算法的實(shí)現(xiàn),兩個(gè)任選一個(gè),如果選擇Apriori的話,需要采取一些效率改進(jìn)措施;第二個(gè)實(shí)驗(yàn)是序列模式挖掘中的AprioriSome算法;第三個(gè)實(shí)驗(yàn)是分類技術(shù)中的ID3或C4.5算法,這兩個(gè)算法的主體相同,任做一個(gè)即可;第四個(gè)實(shí)驗(yàn)是聚類中的PAM或DBSCAN算法,兩個(gè)任選一個(gè);第五個(gè)實(shí)驗(yàn)是利用協(xié)作篩進(jìn)行個(gè)性化網(wǎng)站的智能推薦。以上五個(gè)實(shí)驗(yàn)每個(gè)實(shí)驗(yàn)2學(xué)時(shí),建議編程語(yǔ)言采用Java或C++,最后挖掘結(jié)果具有可理解性。

          當(dāng)然,以上的課程內(nèi)容設(shè)計(jì)會(huì)隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,不斷進(jìn)行微調(diào),以適應(yīng)不斷變化的計(jì)算機(jī)技術(shù)發(fā)展與社會(huì)需求。

          4 “數(shù)據(jù)挖掘技術(shù)”教學(xué)實(shí)踐總結(jié)

          兩年前,雖然已對(duì)“數(shù)據(jù)挖掘技術(shù)”課程作了充分準(zhǔn)備,但在剛開(kāi)設(shè)這門(mén)課程的時(shí)候,很擔(dān)心這門(mén)“高深莫測(cè)”的課程的教學(xué)效果。但經(jīng)過(guò)兩年的教學(xué)實(shí)踐發(fā)現(xiàn),這門(mén)課程的教學(xué)效果比預(yù)想的還要好。通過(guò)對(duì)該門(mén)課程的學(xué)習(xí),學(xué)生不僅基本掌握了數(shù)據(jù)挖掘的基本原理和算法,同時(shí)對(duì)以前的一些主干課程如數(shù)據(jù)結(jié)構(gòu)的理解和運(yùn)用有了非常深刻的認(rèn)識(shí)。更為重要的是,本課程的五個(gè)實(shí)驗(yàn)都是數(shù)據(jù)挖掘領(lǐng)域中最經(jīng)典、最重要的算法,通過(guò)對(duì)這些算法的編程實(shí)現(xiàn),不僅理解了數(shù)據(jù)挖掘關(guān)鍵算法的精髓,同時(shí),這些數(shù)據(jù)挖掘算法實(shí)現(xiàn)的程序經(jīng)過(guò)不斷改進(jìn)、加工,性能不斷提高,由于都是源代碼,可以將這些算法應(yīng)用到一些實(shí)用的軟件系統(tǒng)如客戶關(guān)系管理系統(tǒng)、個(gè)性化網(wǎng)站中去,收到良好效果。此外,在網(wǎng)上的一些數(shù)據(jù)挖掘論壇中,經(jīng)常看到一些初學(xué)數(shù)據(jù)挖掘的研究生或技術(shù)人員很想看一看數(shù)據(jù)挖掘經(jīng)典算法的具體程序?qū)崿F(xiàn),我們也將這兩年不斷改進(jìn)的程序源代碼作為免費(fèi)資源贈(zèng)送給了不少同行,也為數(shù)據(jù)挖掘的推廣應(yīng)用貢獻(xiàn)了微薄之力。

          5結(jié)束語(yǔ)

          “數(shù)據(jù)挖掘技術(shù)”課程的教學(xué)嘗試目前主要針對(duì)的是本校應(yīng)用型計(jì)算機(jī)專業(yè)本科生,雖然收到了良好的效果,但“數(shù)據(jù)挖掘技術(shù)”絕不僅僅是計(jì)算機(jī)專業(yè)學(xué)生才需要掌握的課程,對(duì)于我校通信系、電力系、自動(dòng)化系等工科專業(yè),經(jīng)濟(jì)系、管理系甚至一些文科類的學(xué)生也很有價(jià)值,因此,怎樣在非計(jì)算機(jī)專業(yè)的應(yīng)用型本科生中開(kāi)設(shè)好這門(mén)新興課程,甚至在高職高專學(xué)生中也開(kāi)設(shè)好這門(mén)課程,則是需要作進(jìn)一步的探索和嘗試。

          參考文獻(xiàn):

          [1] 毛國(guó)君. 數(shù)據(jù)挖掘原理與算法[M]. 北京:清華大學(xué)出版社,2005.

          [2] 陳文偉. 數(shù)據(jù)挖掘技術(shù)[M]. 北京工業(yè)大學(xué)出版社,2002.

          [3] 余力. 電子商務(wù)個(gè)性化[M]. 北京:清華大學(xué)出版社,2007.

          A Test to Applied College Students on Teaching Data Mining

          XU Jin-bao

          (Dept. of Computer Engineering, Nanjing Institute of Technology,

          Nanjing 211100,China)

          篇6

          中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2011)23-5561-03

          Research on Application of Data Mining Technology in Network Curriculum Teaching Platform

          LIU Yan-qing

          (Center of Computer Network, Ningxia University, Yinchuan 750021, China)

          Abstract: Aiming at the deficiency of the traditional network management method, a new scheme of data mining based on the C4.5 algorithm of decision tree are proposed,F(xiàn)irstly, In this paper it introduced the Data Mining Technology,Secondly, it analyzed the Application of Data Mining Technology in Network curriculum teaching platform,In the end ,With the application of students’ scores as example, it analyzed the Application of Data Mining Technology in Network curriculum teaching platform.

          Key words: data mining; network curriculum; decision tree; C4.5 algorithm; Related regulation; clustering analysis

          由于Internet技術(shù)的快速發(fā)展,遠(yuǎn)程網(wǎng)絡(luò)教育獲得了飛速的發(fā)展,網(wǎng)絡(luò)學(xué)習(xí)逐漸成為人們關(guān)注的熱點(diǎn), 網(wǎng)絡(luò)課程作為網(wǎng)絡(luò)教育的載體,是決定網(wǎng)絡(luò)教育質(zhì)量的一個(gè)關(guān)鍵要素,每學(xué)期隨著班級(jí)、專業(yè)以及課程的不同,所有課程信息必須更新,管理系統(tǒng)形成的海量數(shù)據(jù)為課程管理決策應(yīng)用的效率并不高,難以適應(yīng)遠(yuǎn)程網(wǎng)絡(luò)教育的發(fā)展需要,因此,為了實(shí)現(xiàn)科學(xué)、高效的課程管理,文中將數(shù)據(jù)挖掘技術(shù)應(yīng)用到網(wǎng)絡(luò)課程管理中,通過(guò)對(duì)日常教學(xué)管理中的數(shù)據(jù)進(jìn)行分類挖掘,找出隱藏在數(shù)據(jù)后面的信息,這些信息可以幫助學(xué)校更好地對(duì)學(xué)生的培養(yǎng)管理,可以幫助教師更加有效地開(kāi)展教學(xué)活動(dòng),進(jìn)而進(jìn)一步提高教學(xué)質(zhì)量。

          1 數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)課程管理中的應(yīng)用

          網(wǎng)絡(luò)課程管理系統(tǒng)通常由以下幾部分組成:信息錄入(含課程信息、院系部信息、教師教輔人員信息、學(xué)生信息)、信息查詢(含院系部信息、教師教輔人員信息、課程信息)、統(tǒng)計(jì)分析(含部門(mén)統(tǒng)計(jì)、課程統(tǒng)計(jì)、學(xué)生學(xué)習(xí)情況統(tǒng)計(jì)、成績(jī)統(tǒng)計(jì))、導(dǎo)出數(shù)據(jù)(課程信息導(dǎo)出、學(xué)生成績(jī)導(dǎo)出)、資源下載、課程展示、課程檢索、師生互動(dòng)、學(xué)生評(píng)價(jià)和系統(tǒng)管理。

          網(wǎng)絡(luò)課程管理系統(tǒng)中存放著大量的數(shù)據(jù),根據(jù)各種需要,可以對(duì)這些數(shù)據(jù)進(jìn)行不同的組合分析,從這些數(shù)據(jù)中發(fā)現(xiàn)隱含的、有用的模式或關(guān)系用于指導(dǎo)教學(xué)與管理。在網(wǎng)絡(luò)課程管理系統(tǒng)中,數(shù)據(jù)挖掘技術(shù)可以應(yīng)用在以下幾個(gè)方面:

          1)關(guān)聯(lián)分析:如學(xué)習(xí)資料之間的關(guān)聯(lián)及課程之間的關(guān)聯(lián),將這些關(guān)聯(lián)分析應(yīng)用于課程設(shè)置中,可以幫助教學(xué)管理人員合理安排課程,還可以根據(jù)學(xué)生查閱資料的特點(diǎn)將經(jīng)常一起查閱的資料歸類在一起,從而節(jié)省學(xué)生在課程網(wǎng)站上查找資料的時(shí)間;

          2)聚類分析:通過(guò)聚類分析,把學(xué)生分組組成協(xié)作學(xué)習(xí)小組, 找出他們具有共同特點(diǎn),針對(duì)不同的聚類,教師可以采用不同的教學(xué)方法;

          3)分類與預(yù)測(cè):可以利用C4.5分類算法構(gòu)造綜合素質(zhì)測(cè)評(píng)分類器,評(píng)價(jià)指標(biāo)有學(xué)習(xí)成績(jī)、思想品德、參加活動(dòng)、學(xué)習(xí)實(shí)踐情況等,得出學(xué)習(xí)成績(jī)與教師職稱、教師學(xué)歷、學(xué)生生源地及學(xué)生性別之間的關(guān)系,以改進(jìn)綜合測(cè)評(píng)的方法,促進(jìn)學(xué)生全面發(fā)展。

          4)時(shí)序模式:通過(guò)對(duì)學(xué)生訪問(wèn)數(shù)據(jù)統(tǒng)計(jì),利用WEB挖掘技術(shù),使用數(shù)據(jù)挖掘的序列模式挖掘方法對(duì)文檔進(jìn)行分類,提高學(xué)生檢索信息的速度,可依據(jù)學(xué)生訪問(wèn)的數(shù)據(jù)進(jìn)行挖掘分析,對(duì)訪問(wèn)數(shù)據(jù)進(jìn)行聚類分析,了解學(xué)生感興趣的內(nèi)容,訪問(wèn)站點(diǎn)之間的關(guān)聯(lián),分析學(xué)生訪問(wèn)習(xí)慣及興趣點(diǎn),并在有關(guān)聯(lián)關(guān)系的頁(yè)面之間設(shè)置超鏈接等來(lái)改善網(wǎng)站的結(jié)構(gòu)。

          2 學(xué)生成績(jī)數(shù)據(jù)挖掘過(guò)程

          學(xué)生成績(jī)是評(píng)估教學(xué)質(zhì)量的重要依據(jù),是評(píng)價(jià)學(xué)生對(duì)所學(xué)知識(shí)掌握程度的重要標(biāo)志,通過(guò)對(duì)現(xiàn)有學(xué)生成績(jī)數(shù)據(jù)庫(kù)中的成績(jī)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,根據(jù)決策樹(shù)的結(jié)果來(lái)判斷各門(mén)課程的成績(jī)與外在因素的關(guān)系,以及對(duì)發(fā)現(xiàn)的關(guān)系進(jìn)一步量化,并把決策結(jié)果通過(guò)可視化軟件顯示給教輔人員查閱,以便他們根據(jù)這些問(wèn)題對(duì)教學(xué)做出相應(yīng)的調(diào)整,從而提高學(xué)生學(xué)習(xí)質(zhì)量。

          2.1 確定挖掘任務(wù)

          傳統(tǒng)的成績(jī)統(tǒng)計(jì)方法,通常是計(jì)算均值、方差、信度、效度和區(qū)別顯著性檢驗(yàn)等,對(duì)成績(jī)的分析處理方法通常是統(tǒng)計(jì)成績(jī)?yōu)閮?yōu)、良、及格、不及格等級(jí)別的人數(shù)及比分比,而很少對(duì)影響學(xué)生成績(jī)的因素進(jìn)行全面的了解分析,這樣不利于進(jìn)一步提高學(xué)生的成績(jī), 因此,為了進(jìn)一步提高成績(jī),需要對(duì)這些數(shù)據(jù)信息進(jìn)一步挖掘分析,從而得出結(jié)論,供教學(xué)使用,而按照學(xué)生成績(jī)屬性的特征進(jìn)行分類,采用決策樹(shù)方法可以從一組無(wú)次序、無(wú)規(guī)則的數(shù)據(jù)記錄中推理出決策樹(shù)表示形式的分類規(guī)則;對(duì)于教師來(lái)說(shuō),了解學(xué)生的學(xué)習(xí)興趣與差異對(duì)教學(xué)很重要,因此,本文將決策樹(shù)分析應(yīng)用在學(xué)生成績(jī)分析中,通過(guò)挖掘分析,找出影響學(xué)生成績(jī)的主要因素,以便在以后的教學(xué)活動(dòng)中采取相應(yīng)的改進(jìn)措施。

          2.2 準(zhǔn)備數(shù)據(jù)

          在學(xué)校每學(xué)期結(jié)束時(shí),網(wǎng)絡(luò)課程管理系統(tǒng)中,保存了學(xué)生所參與課程的成績(jī)信息,而成績(jī)是與學(xué)生關(guān)聯(lián)最大的數(shù)據(jù),每學(xué)期都有新的成績(jī)數(shù)據(jù)產(chǎn)生,且隨著時(shí)間推移,成績(jī)數(shù)據(jù)庫(kù)中的數(shù)據(jù)量將越來(lái)越大。因此,為了從學(xué)生成績(jī)中提取有用的信息供教學(xué)參考,本文以歷年來(lái)的學(xué)生成績(jī)作為要分析的數(shù)據(jù),希望從學(xué)生成績(jī)信息中發(fā)現(xiàn)與提高學(xué)生學(xué)習(xí)成績(jī)有關(guān)系的一些因素。如學(xué)生的性別,教師的學(xué)歷高低,教師職稱的高低,學(xué)生生源地是城鎮(zhèn)還是農(nóng)村等與學(xué)生成績(jī)密切相關(guān)的屬性。

          2.3 C4.5算法設(shè)計(jì)

          本文主要是對(duì)學(xué)生成績(jī)進(jìn)行分析,而成績(jī)是數(shù)值型的數(shù)據(jù),因此在分析時(shí)所用的算法是基于信息熵的決策樹(shù)分類算法C4.5,C4.5是在ID3算法基礎(chǔ)上改進(jìn)的,其特點(diǎn)主要是根據(jù)屬性集的取值選擇實(shí)例的類別及各級(jí)決策樹(shù),C4.5主算法描述如下:

          1)在訓(xùn)練集T中,使用計(jì)算方法選取屬性作為子集T={T1,T2,T3,T4,……};

          2)用C4.5 “建樹(shù)算法”對(duì)子集分裂T={T1,T2,T3,T4,……}進(jìn)行信息增益(嫡)計(jì)算,生成決策,并得到測(cè)試子集T1,Ti的信息增益,“建樹(shù)算法”為:首先對(duì)當(dāng)前訓(xùn)練集T數(shù)據(jù)計(jì)算每個(gè)樣本子集的信息增益S={S1,S2,S3,S4,……},然后, 選擇互信息S={S1,S2,S3,S4,……}中最大的特征屬性Smax作為樹(shù)(或子樹(shù))的根結(jié)點(diǎn)Tboot,接著將那些嫡值大于平均值的樣本子集合并成一個(gè)臨時(shí)的復(fù)合樣本子集歸于同一子集,該取值作為樹(shù)的分支Tos={Tos1, Tos2, Tos3, Tos4,……},最后,對(duì)樹(shù)的分支Tos={Tos1, Tos2, Tos3, Tos4,……}中分類結(jié)果不為同一類的子集遞歸調(diào)用建樹(shù)算法, 若子集僅屬于同一類分類結(jié)果,對(duì)應(yīng)分支結(jié)束作為樹(shù)的葉結(jié)點(diǎn),返回調(diào)用處;

          3)對(duì)訓(xùn)練集T1,Ti中所有屬性進(jìn)行類別判定,找出類別的分類;

          4)若分類結(jié)果為同一類, 轉(zhuǎn)到步驟2)進(jìn)行,否則對(duì)子集T1,T2,T3,T4,……再分別進(jìn)行屬性分裂,取其子集T={Ti1,Ti2,Ti3,Ti4,……},轉(zhuǎn)到步驟2)進(jìn)行;

          5)判定此決策樹(shù)為最后結(jié)果。

          2.4 屬性選擇度量

          屬性選擇度量又稱分裂規(guī)則,其是將給定的類標(biāo)記的訓(xùn)練集元組的數(shù)據(jù)“最好”地劃分成各種個(gè)體類的啟發(fā)式方法,其中具有最好度量的屬性被選作給定元組的分裂屬性,其相關(guān)計(jì)算公式如下:

          原來(lái)信息: (1)

          期望信息: (2)

          信息增益: G(B)=f(B)-E(B)(3)

          分裂信息: (4)

          增益率: GR(B)=G(B)/sf(B)(5)

          上式中, 假設(shè)類標(biāo)號(hào)屬性具有k個(gè)不同值,定義了k個(gè)不同類集合U={U1,U2,U3,U4,……},Bi是Ui中的樣本數(shù), B 是 Bi個(gè)訓(xùn)練集的集合, Q(Bi)是Ui的概率。

          3 算法實(shí)現(xiàn)

          為了驗(yàn)證上述算法的正確性,文中從英語(yǔ)專業(yè)的專業(yè)課成績(jī)中隨機(jī)抽取400名學(xué)生的成績(jī)組成訓(xùn)練集進(jìn)行試驗(yàn), 把其中的連續(xù)屬性平均成績(jī)經(jīng)過(guò)分類轉(zhuǎn)換為離散屬性:S1=[85,100];S2=[70,85]:S3=[60,70];S4=[0,60],并將訓(xùn)練集中的數(shù)據(jù)進(jìn)行簡(jiǎn)化如下:學(xué)生性別={男,女},教師學(xué)歷:{ 博士研究生,碩士研究生,本科,???},教師職稱={教授,副教授,講師,助教},學(xué)生生源地性質(zhì):{ 農(nóng)村,城鎮(zhèn)},學(xué)生成績(jī)={S1,S2,S3,S4},其中, S1有160個(gè), S2有80個(gè), S3有80個(gè), S4有80個(gè),

          3.1 屬性計(jì)算

          學(xué)生的成績(jī)期望信息為:

          下面以性別屬性計(jì)算為例:在400個(gè)數(shù)據(jù)中, 一共有220個(gè)女同學(xué), 分別是:S1有80個(gè), S2有40個(gè), S3有60個(gè), S4有40個(gè),有180個(gè)男同學(xué),分別是S1有80個(gè), S2有40個(gè), S3有20個(gè), S4有40個(gè);按照公式⑵計(jì)算期望信息,

          于是,性別的信息增益為:G(B)=1.922-1.891=0.031;

          按照公式⑷計(jì)算性別屬性的分裂信息為:

          按照公式⑸計(jì)算性別屬性的增益率是; GR(B)=G(B)/sf(B)=0.031/0.993=0.0312;

          按照此方法依次可以計(jì)算出,

          教師職稱增益率為 GR(B)=G(B)/sf(B) =0.0435;

          教師學(xué)歷的增益率為 GR(B)=G(B)/sf(B)=0.0403;

          學(xué)生生源地的增益率GR(B)=G(B)/sf(B)=0.0278。

          3.2 決策規(guī)則的生成

          利用決策樹(shù)形成的各種分類模型, 利用IF.THEN語(yǔ)法形成分類規(guī)則, 在IF.THEN分類規(guī)則中,從根到樹(shù)葉的每一條路徑都創(chuàng)建一條規(guī)則,THEN部分用該決策樹(shù)中葉點(diǎn)所標(biāo)記的類別表示,IF部分用決策樹(shù)中一條路徑所形成的屬性值表示;決策樹(shù)從一種表示形式到另一種表示形式的轉(zhuǎn)換是非常簡(jiǎn)單直接的,就可以得到相應(yīng)的THEN部分結(jié)論,就可以得知這個(gè)學(xué)生成績(jī)是屬性哪個(gè)分類。

          從上面的學(xué)生成績(jī)系統(tǒng)中抽取教師的學(xué)歷、學(xué)生所學(xué)的專業(yè)、教師的職稱、學(xué)生的性別、學(xué)生生源地性質(zhì)和平均成績(jī)進(jìn)行建樹(shù)分析,從構(gòu)造的學(xué)生成績(jī)的決策樹(shù)中,可分析得知影響學(xué)生成績(jī)的最重要的因素是教師職稱,其次是教師學(xué)歷,學(xué)生性別和學(xué)生生源地性質(zhì),這棵樹(shù)的構(gòu)成是很符合現(xiàn)實(shí)要求的。

          4 結(jié)束語(yǔ)

          數(shù)據(jù)挖掘技術(shù)已在多個(gè)領(lǐng)域得到很好的應(yīng)用,學(xué)校各部門(mén)多年來(lái)積累了大量的數(shù)據(jù),但這些數(shù)據(jù)只是簡(jiǎn)單的存儲(chǔ)在數(shù)據(jù)庫(kù)中,沒(méi)有得到深層次地分析與利用。本文對(duì)數(shù)據(jù)挖掘技術(shù)在分析高校網(wǎng)絡(luò)課程相關(guān)數(shù)據(jù)中的應(yīng)用進(jìn)行了討論,并通過(guò)C4.5算法在分析學(xué)生成績(jī)中的應(yīng)用, 揭示了成績(jī)背后的深層意義,找出了隱藏著的教學(xué)信息與規(guī)律,通過(guò)加強(qiáng)對(duì)這些教學(xué)信息與規(guī)律的教學(xué)管理,提高學(xué)生的學(xué)習(xí)成績(jī),有助于網(wǎng)絡(luò)教學(xué)質(zhì)量的動(dòng)態(tài)管理。

          參考文獻(xiàn):

          [1] 周曦.數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)營(yíng)銷中的作用[J].電腦知識(shí)與技術(shù),2011(11).

          [2] 施曉華.數(shù)據(jù)挖掘技術(shù)在圖書(shū)館學(xué)科數(shù)據(jù)館藏分析中的應(yīng)用[J].情報(bào)雜志,2011(1).

          [3] 廖燕玲.數(shù)據(jù)挖掘在學(xué)生職業(yè)能力分析中的應(yīng)用[J].電腦知識(shí)與技術(shù),2010(33).

          篇7

          中圖分類號(hào):G642.0 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-9324(2014)06-0248-02

          近年來(lái),數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)廣泛應(yīng)用于多個(gè)行業(yè)和領(lǐng)域,因而,數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘課程也順應(yīng)實(shí)際應(yīng)用的需要,成為高校計(jì)算機(jī)教育的專業(yè)課程[1]。針對(duì)數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘課程的特點(diǎn),利用低廉成本的移動(dòng)終端和便捷快速的移動(dòng)網(wǎng)絡(luò)搭建實(shí)驗(yàn)教學(xué)平臺(tái),配合已有的基于校園網(wǎng)的實(shí)驗(yàn)教學(xué)[2],可以更好地達(dá)到數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘課程的實(shí)驗(yàn)?zāi)康?。因此,基于移?dòng)終端開(kāi)發(fā)數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的特色實(shí)驗(yàn)平臺(tái)有著極大的意義和價(jià)值。

          一、Android相關(guān)技術(shù)簡(jiǎn)介

          Android應(yīng)用程序有4大組件:Activity,Service,Broadcast Receiver,Content Provider。開(kāi)發(fā)者可以根據(jù)自己的需要選擇這些組件的組合來(lái)進(jìn)行開(kāi)發(fā)。Activity是Android組件中最基本也是最為常見(jiàn)的組件,用戶通過(guò)Activity與應(yīng)用程序進(jìn)行交互。Service組件可以理解為剝離了界面的Activity,Service組件一般在后臺(tái)長(zhǎng)時(shí)間運(yùn)行,處理一些不為用戶所知的后臺(tái)業(yè)務(wù)。Broadcast Receiver是用戶接受廣播通知的組件。Content Provider是用來(lái)實(shí)現(xiàn)應(yīng)用程序之間數(shù)據(jù)共享的類。Android應(yīng)用程序的核心組件之間的通信的過(guò)程,被稱為Intent,它允許在你的應(yīng)用程序與其它的應(yīng)用程序間傳遞Intent來(lái)執(zhí)行動(dòng)作和產(chǎn)生事件。本系統(tǒng)中用到的另一核心技術(shù)就是Android系統(tǒng)的網(wǎng)絡(luò)傳輸方式。系統(tǒng)采用基于http協(xié)議的Android網(wǎng)絡(luò)編程方式。先獲得與服務(wù)器端的http連接,然后獲取輸入輸出流,將要用到的參數(shù)放入流中,發(fā)送http請(qǐng)求,之后判斷請(qǐng)求是否成功,如果成功則讀取返回結(jié)果,最后將返回結(jié)果用Activity顯示給用戶,或者傳遞給后臺(tái)進(jìn)行需要的邏輯處理。

          二、平臺(tái)架構(gòu)設(shè)計(jì)

          平臺(tái)的總體架構(gòu)由服務(wù)器端和Android客戶端組成,如圖1所示。服務(wù)器端通過(guò)Tomcat部署Web網(wǎng)站,使用MySQL作數(shù)據(jù)存儲(chǔ)??蛻舳说恼?qǐng)求到達(dá)并處理后,通過(guò)http數(shù)據(jù)傳輸將處理后的回復(fù)數(shù)據(jù)傳回客戶端,如圖2所示。

          Android客戶端通過(guò)新建HttpPost的方式,指定服務(wù)器端URL,添加所需參數(shù),然后執(zhí)行HttpPost,對(duì)返回的HttpReponse進(jìn)行判斷,成功則讀取返回?cái)?shù)據(jù),然后通過(guò)Android的Activity組件呈現(xiàn)給用戶,如圖3所示。

          三、平臺(tái)Android客戶端功能實(shí)現(xiàn)

          與實(shí)驗(yàn)平臺(tái)web版類似,本系統(tǒng)實(shí)現(xiàn)了課程介紹、實(shí)驗(yàn)平臺(tái)、資料下載和在線交流等模塊,各個(gè)模塊在使用的過(guò)程中數(shù)據(jù)與web端服務(wù)器保持一致,系統(tǒng)的功能設(shè)計(jì)如圖4所示。

          下面,就重點(diǎn)介紹本系統(tǒng)的功能設(shè)計(jì)。

          1.課程(實(shí)驗(yàn))介紹功能。本平臺(tái)客戶端旨在為用戶提供課程實(shí)驗(yàn)的環(huán)境。這個(gè)部分將提供大量關(guān)于課程和實(shí)驗(yàn)的背景數(shù)據(jù)以及要點(diǎn)信息。課程顯示的實(shí)現(xiàn)通過(guò)在WEB部署靜態(tài)html網(wǎng)頁(yè),然后新建一個(gè)WebView,調(diào)用webview.loadUrl(url)函數(shù),將服務(wù)器端的頁(yè)面顯示在Android設(shè)備的activity呈現(xiàn)給用戶。用戶在查看了這些信息后,實(shí)驗(yàn)才能夠順利地進(jìn)行。

          2.實(shí)驗(yàn)平臺(tái)功能。對(duì)于本平臺(tái)來(lái)說(shuō),提供實(shí)驗(yàn)的環(huán)境正是其主旨和核心需求。它將為用戶提供一個(gè)完成實(shí)驗(yàn)的場(chǎng)所,而這些實(shí)驗(yàn)往往需要用戶通過(guò)編寫(xiě)代碼來(lái)完成。用戶可以將課程介紹模塊的源代碼,通過(guò)Android自帶的復(fù)制粘貼功能復(fù)制到此處運(yùn)行,然后在此基礎(chǔ)上修改,這一操作對(duì)于手機(jī)用戶來(lái)講并不繁瑣。

          3.資源上傳/下載功能。資源上傳與下載也是教學(xué)過(guò)程中經(jīng)常需要完成的。因此,為了方便教學(xué)的這個(gè)環(huán)節(jié),通過(guò)Android客戶端,教師可以一些相關(guān)課件供學(xué)生下載,而學(xué)生也可以通過(guò)上傳來(lái)向其它學(xué)生展示自己的優(yōu)秀作品,方便互相學(xué)習(xí)。

          當(dāng)今高校的計(jì)算機(jī)教學(xué)條件越來(lái)越豐富,各種用于提高學(xué)生動(dòng)手實(shí)踐能力的平臺(tái)越來(lái)越多,作為這些平臺(tái)的輔助,移動(dòng)的客戶端能大大提高用戶使用平臺(tái)的頻率,也是十分必要的。

          篇8

          中圖分類號(hào):G64 文獻(xiàn)標(biāo)識(shí)碼:B 文章編號(hào):1672-5913(2007)02-0057-03

          1程序設(shè)計(jì)課程與數(shù)據(jù)挖掘技術(shù)概述

          程序設(shè)計(jì)課程是培養(yǎng)學(xué)生軟件開(kāi)發(fā)能力的一門(mén)課程。目前國(guó)內(nèi)的理工類學(xué)?;蛳嚓P(guān)專業(yè)普遍都為學(xué)生開(kāi)設(shè)了程序設(shè)計(jì)課程。一直以來(lái),如何了解多數(shù)學(xué)生在學(xué)習(xí)程序設(shè)計(jì)中所遇到的困難,如何幫助學(xué)生克服學(xué)習(xí)中的障礙,都要靠教師多年的教學(xué)經(jīng)驗(yàn)來(lái)解決。這種傳統(tǒng)的教學(xué)方法顯然不能滿足知識(shí)更新迅速的計(jì)算機(jī)教學(xué)過(guò)程。因此需要研究如何從學(xué)生提交的程序作業(yè)中利用數(shù)據(jù)庫(kù)技術(shù)及時(shí)發(fā)現(xiàn)問(wèn)題和解決問(wèn)題。數(shù)據(jù)挖掘(Data Mining)技術(shù)是近年來(lái)新興的數(shù)據(jù)管理與分析技術(shù),主要用于發(fā)現(xiàn)數(shù)據(jù)中隱藏的線索,輔助人們進(jìn)行科學(xué)分析和決策。數(shù)據(jù)挖掘普遍需要三個(gè)階段:數(shù)據(jù)準(zhǔn)備、挖掘操作和結(jié)果表達(dá)。下面以C語(yǔ)言為例介紹在程序設(shè)計(jì)課程教學(xué)中,對(duì)學(xué)生程序作業(yè)進(jìn)行數(shù)據(jù)挖掘的一種應(yīng)用方案。

          2程序設(shè)計(jì)課程的數(shù)據(jù)挖掘過(guò)程

          2.1 數(shù)據(jù)準(zhǔn)備

          根據(jù)程序設(shè)計(jì)課程的教學(xué)特點(diǎn),我們按錯(cuò)誤的嚴(yán)重程度將所有學(xué)生提交的程序作業(yè)的評(píng)閱結(jié)果歸納為以下5類,即題目錯(cuò)誤、編譯時(shí)語(yǔ)法錯(cuò)誤、編譯時(shí)語(yǔ)法警告、編譯后運(yùn)行結(jié)果不完全正確、編譯后運(yùn)行結(jié)果完全正確。為了對(duì)學(xué)生程序作業(yè)中的問(wèn)題進(jìn)一步分析原因,我們對(duì)以下8類數(shù)據(jù)進(jìn)行分析,即功能模塊函數(shù)序列、邏輯結(jié)構(gòu)序列、語(yǔ)句類型序列、表達(dá)式序列、運(yùn)算符序列、標(biāo)識(shí)符序列、數(shù)值常量序列以及簡(jiǎn)化的字符常量序列。

          要將文件形式的源程序分解為以上8項(xiàng)數(shù)據(jù),就需要按語(yǔ)法規(guī)則完成以下步驟:

          (1) 過(guò)濾程序中的注釋信息和空白字符,產(chǎn)生預(yù)處理元素序列;

          (2) 根據(jù)#include和#define等標(biāo)記替換用戶指定的包含文件和宏定義等預(yù)處理元素;

          (3) 對(duì)照語(yǔ)法元素表,進(jìn)一步將程序分解為關(guān)鍵字、標(biāo)識(shí)符、常量、運(yùn)算符、定界符等語(yǔ)法元素序列;

          (4) 將數(shù)值常量以空格為連接符連接為一個(gè)數(shù)值常量序列;

          (5) 將字符及字符串常量保留%d等格式字符和\n等轉(zhuǎn)義字符后刪去多余字符,以空格為連接符連接為一個(gè)簡(jiǎn)化的字符常量序列;

          (6) 將所有運(yùn)算符以空格為連接符連接為一個(gè)運(yùn)算符序列;

          (7) 將用戶變量名和函數(shù)名統(tǒng)一編碼后與程序中的關(guān)鍵字構(gòu)成標(biāo)識(shí)符序列;

          (8) 將運(yùn)算符與標(biāo)識(shí)符及常量以空格為連接符連接為一個(gè)表達(dá)式序列;

          (9) 將程序中的語(yǔ)句分類為表達(dá)式語(yǔ)句、函數(shù)調(diào)用語(yǔ)句、空語(yǔ)句、復(fù)合語(yǔ)句、if語(yǔ)句、else語(yǔ)句、switch語(yǔ)句、case語(yǔ)句、while語(yǔ)句、do語(yǔ)句、for語(yǔ)句、break語(yǔ)句、continue語(yǔ)句、return語(yǔ)句和goto語(yǔ)句,并組織成語(yǔ)句類型序列;

          (10) 對(duì)語(yǔ)句按分號(hào)和大括號(hào)等定界符劃分為模塊函數(shù)序列;

          (11) 將模塊內(nèi)語(yǔ)句按順序、選擇、循環(huán)的分類構(gòu)成邏輯結(jié)構(gòu)序列。

          2.2 挖掘操作的過(guò)程

          由于篇幅所限,下面僅以程序設(shè)計(jì)教學(xué)中的典型題目“溫度轉(zhuǎn)換”的數(shù)值常量序列和運(yùn)算符序列為考察數(shù)據(jù)具體描述挖掘過(guò)程。

          (1)數(shù)據(jù)清理

          首先將數(shù)據(jù)準(zhǔn)備階段的各類數(shù)據(jù)與評(píng)閱結(jié)果組成一個(gè)數(shù)據(jù)記錄集(如表1所示)。由于分析的目的是找出教學(xué)中造成學(xué)生程序錯(cuò)誤的主要因素,而題目錯(cuò)誤僅僅是因?yàn)閷W(xué)生操作馬虎,與掌握程序設(shè)計(jì)的能力并不相關(guān),因此把評(píng)閱結(jié)果全部正確的和題目錯(cuò)誤的記錄過(guò)濾掉,只保留評(píng)閱結(jié)果為語(yǔ)法錯(cuò)誤、語(yǔ)法警告和運(yùn)行錯(cuò)誤的記錄(如表2所示)。

          (2)構(gòu)造1項(xiàng)侯選集,發(fā)現(xiàn)頻繁1項(xiàng)集

          將所有數(shù)據(jù)作為1項(xiàng)集中的元素,構(gòu)造1項(xiàng)侯選集,并計(jì)算不同元素的數(shù)量,如表3所示。保留其中數(shù)量較多的元素,濾掉其它元素,得到頻繁1項(xiàng)集,如表4所示。

          (3)構(gòu)造2項(xiàng)侯選集,發(fā)現(xiàn)頻繁2項(xiàng)集

          將所有頻繁1項(xiàng)集元素兩兩組合,構(gòu)成侯選2項(xiàng)集,并計(jì)算組合后的數(shù)量,如表5所示。保留其中數(shù)量比較多的元素,濾掉其它元素,得到頻繁2項(xiàng)集{=/*(-),編譯警告}。

          2.3 結(jié)果表達(dá)和解釋

          保留下來(lái)的2項(xiàng)集的兩個(gè)元素分別代表了錯(cuò)誤類型和造成該類型錯(cuò)誤的主要語(yǔ)法元素序列,即現(xiàn)有數(shù)據(jù)表明(輸入函數(shù)中)未使用取地址運(yùn)算符是造成編譯警告的主要原因。

          3數(shù)據(jù)挖掘應(yīng)用效果

          在現(xiàn)實(shí)的教學(xué)過(guò)程中,我們對(duì)2005級(jí)8個(gè)班275名學(xué)生的5385個(gè)程序進(jìn)行了統(tǒng)計(jì)和分析,發(fā)現(xiàn)題目錯(cuò)誤的比例約占1.49%,編譯錯(cuò)誤的比例約占3.38%,編譯時(shí)警告的比例約占1.21%,運(yùn)行錯(cuò)誤的比例約占8.10%,運(yùn)行正確的比例約占85.82%。其中造成編譯錯(cuò)誤的主要原因是注釋信息或各級(jí)括號(hào)定界符未配對(duì);造成編譯警告的主要原因是格式輸入函數(shù)調(diào)用時(shí)缺少地址運(yùn)算符或用戶變量定義后未使用;造成運(yùn)行錯(cuò)誤的主要原因是除法運(yùn)算符兩側(cè)運(yùn)算量為整型常量。下面的圖表反映了在程序設(shè)計(jì)課程的教學(xué)中沒(méi)有使用數(shù)據(jù)挖掘技術(shù)和使用了數(shù)據(jù)挖掘技術(shù)的教學(xué)效果對(duì)比。

          圖1為未采用本方法指導(dǎo)教學(xué)的10次學(xué)生程序作業(yè)評(píng)閱結(jié)果統(tǒng)計(jì)圖,其中靠上的折線表示每次學(xué)生作業(yè)的平均分?jǐn)?shù),靠下的折線表示每次學(xué)生作業(yè)的嚴(yán)重語(yǔ)法錯(cuò)誤發(fā)生率??梢园l(fā)現(xiàn),學(xué)生每次作業(yè)的平均成績(jī)基本呈水平小波動(dòng)隨機(jī)形狀,表明學(xué)生成績(jī)?cè)趯W(xué)習(xí)過(guò)程中沒(méi)有明顯變化,同樣嚴(yán)重語(yǔ)法錯(cuò)誤發(fā)生率也沒(méi)有明顯變化。圖2為一直采用本方法指導(dǎo)教學(xué)的10次學(xué)生程序作業(yè)評(píng)閱結(jié)果統(tǒng)計(jì)圖,可以發(fā)現(xiàn)學(xué)生的成績(jī)隨著系統(tǒng)的使用時(shí)間增加而穩(wěn)定的上升。在第三次作業(yè)以后基本保持在90分以上的水平,同時(shí)嚴(yán)重語(yǔ)法錯(cuò)誤的比例也快速的下降,在第二次作業(yè)以后就控制在5%以下。以上對(duì)比說(shuō)明本方法比較準(zhǔn)確地發(fā)現(xiàn)了學(xué)生程序中的語(yǔ)法錯(cuò)誤和算法錯(cuò)誤的主要因素,使學(xué)生得到及時(shí)地反饋并在以后的程序設(shè)計(jì)中避免相似的錯(cuò)誤,從而明顯的改善了教學(xué)效果。

          參考文獻(xiàn):

          [1] 李建中,王珊 . 數(shù)據(jù)庫(kù)系統(tǒng)原理[M] . 北京:電子工業(yè)出版社,2004.

          [2] Richard J. Roiger,Michael W.Geatz . 數(shù)據(jù)挖掘教程[M] .北京:清華大學(xué)出版社,2003.

          篇9

          【中圖分類號(hào)】G 【文獻(xiàn)標(biāo)識(shí)碼】A

          【文章編號(hào)】0450-9889(2016)10C-0068-02

          如今,大數(shù)據(jù)挖掘技術(shù)已經(jīng)應(yīng)用于各領(lǐng)域,在知識(shí)發(fā)現(xiàn)、信息決策等方面發(fā)揮著越來(lái)越重要的作用。高職教育教學(xué)改革正在如火如荼地進(jìn)行,在教育模式、教學(xué)方法、課程建設(shè)等改革中取得了一定的成績(jī)。在改革的步伐中,高職院校試圖利用數(shù)據(jù)挖掘技術(shù)尋找新的改革契機(jī),論證和完善改革成果,讓數(shù)據(jù)先行,為改革提供有力的依據(jù)。教育教學(xué)改革碩果累累的同時(shí),專業(yè)基礎(chǔ)課的改革卻顯緩慢,遠(yuǎn)遠(yuǎn)地落后于專業(yè)改革的進(jìn)程。

          一、高職院校專業(yè)基礎(chǔ)課程改革的現(xiàn)狀

          (一)專業(yè)基礎(chǔ)課程改革的必要性

          專業(yè)基礎(chǔ)課程是為學(xué)習(xí)專業(yè)課程打基礎(chǔ)的課程,把學(xué)生由淺入深地逐漸領(lǐng)進(jìn)專業(yè),為學(xué)生將來(lái)的專業(yè)學(xué)習(xí)打下堅(jiān)實(shí)的基礎(chǔ)。但一直以來(lái),專業(yè)基礎(chǔ)課程的教學(xué)仍沿用以理論知識(shí)講授為主,實(shí)驗(yàn)驗(yàn)證為輔的教學(xué)模式,已經(jīng)遠(yuǎn)遠(yuǎn)落后于現(xiàn)有高職教育的改革實(shí)踐。專業(yè)基礎(chǔ)課程的改革勢(shì)在必行,改革要想有成效,就要符合學(xué)生的成長(zhǎng)規(guī)律。專業(yè)基礎(chǔ)課程的改革創(chuàng)新是推動(dòng)高職教育從本質(zhì)上進(jìn)行改革創(chuàng)新、更新舊模式的基礎(chǔ),只有根基牢固了才能更進(jìn)一步促進(jìn)專業(yè)更新、改革與發(fā)展。

          (二)專業(yè)基礎(chǔ)課程建設(shè)存在的問(wèn)題

          當(dāng)前專業(yè)基礎(chǔ)課程的建設(shè)還存在諸多的問(wèn)題,主要表現(xiàn)有:首先,高職改革中學(xué)校的精力更多的放在專業(yè)課程的建設(shè)和改革中,對(duì)專業(yè)基礎(chǔ)課的建設(shè)重視度不夠。對(duì)于專業(yè)基礎(chǔ)課程,大多數(shù)人認(rèn)為已經(jīng)成熟、經(jīng)驗(yàn)豐富,再建設(shè)也難以出成果,所以學(xué)校大多會(huì)把更多精力、更好的資源放在發(fā)展專業(yè)課程建設(shè)、實(shí)驗(yàn)實(shí)訓(xùn)的建設(shè)等方面,因?yàn)楦芰⒏鸵?jiàn)影、立見(jiàn)成效,卻都忽視了幾乎所有專業(yè)基礎(chǔ)課程一直以來(lái)都還在沿用本科教學(xué)的方式、方法,少有的一些改革也只是在內(nèi)容上進(jìn)行修剪,事實(shí)上,專業(yè)基礎(chǔ)課程的建設(shè)和改革一直都是欠缺的。

          再者,為配合專業(yè)建設(shè),學(xué)校會(huì)在專業(yè)人才選拔中精挑細(xì)選,卻大多忽略了專業(yè)基礎(chǔ)課師資建設(shè)的重要性。大多學(xué)校其實(shí)也意識(shí)到了專業(yè)基礎(chǔ)課程在專業(yè)發(fā)展中的重要性,于是把承擔(dān)專業(yè)基礎(chǔ)課程的師資劃分入各專業(yè),目的是為了更好地讓專業(yè)基礎(chǔ)課服務(wù)于專業(yè)。但在此過(guò)程中卻忽視了政策的引導(dǎo),部分專業(yè)基礎(chǔ)課教師實(shí)際并沒(méi)有很好地融入專業(yè)及團(tuán)隊(duì)。

          另外,專業(yè)基礎(chǔ)課程課時(shí)大量縮減以補(bǔ)貼專業(yè)課程的建設(shè)。學(xué)校為了保證學(xué)生的全面發(fā)展,公共基礎(chǔ)課程的課時(shí)基本固定了下來(lái)。因此,專業(yè)建設(shè)時(shí)難免會(huì)把注意力集中在如何削減專業(yè)基礎(chǔ)課課時(shí)上。針對(duì)專業(yè)基礎(chǔ)課程建設(shè)中存在的諸多問(wèn)題,如何在現(xiàn)有政策、資源、師資和學(xué)時(shí)的基礎(chǔ)上,把專業(yè)基礎(chǔ)課程建設(shè)好,是目前亟待解決的問(wèn)題。

          二、數(shù)據(jù)挖掘在專業(yè)基礎(chǔ)課程中的應(yīng)用

          數(shù)據(jù)挖掘(Data Mining,DM)是數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discover in Database,KDD)的同義詞,是目前人工智能和數(shù)據(jù)庫(kù)領(lǐng)域研究的熱點(diǎn),它是從數(shù)據(jù)庫(kù)的大量的、不完全的、有噪聲的、模糊的數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的過(guò)程。通過(guò)數(shù)據(jù)挖掘技術(shù),從大量的數(shù)據(jù)中尋找有價(jià)值的信息,用以信息管理、查詢優(yōu)化、決策支持等。近些年,數(shù)據(jù)挖掘技術(shù)也逐漸被引入學(xué)校,在課程建設(shè)、專業(yè)建設(shè)、制度改革等方面發(fā)揮了重要的作用。

          (一)挖掘?qū)I(yè)基礎(chǔ)課程與專業(yè)課程之間的知識(shí)聯(lián)系

          為了適應(yīng)發(fā)展削減專業(yè)基礎(chǔ)課程的課時(shí)無(wú)可厚非,在課時(shí)減少的情況下,專業(yè)基礎(chǔ)課程還得更好地服務(wù)于專業(yè),這就得對(duì)課程知識(shí)修剪,這方面的工作一般由任課老師根據(jù)經(jīng)驗(yàn)對(duì)知識(shí)點(diǎn)進(jìn)行篩選,如果任課老師對(duì)專業(yè)知識(shí)非常熟悉,篩選的知識(shí)大多應(yīng)該是有效的,但如果是缺乏經(jīng)驗(yàn)的老師,或許就難以做到。所以在制定教學(xué)大綱和計(jì)劃時(shí),教學(xué)知識(shí)應(yīng)更多的考慮將來(lái)學(xué)生在專業(yè)學(xué)習(xí)中的可持續(xù)性。利用數(shù)據(jù)挖掘技術(shù)發(fā)掘?qū)I(yè)基礎(chǔ)課與專業(yè)課程知識(shí)體系之間的關(guān)聯(lián)性,利用關(guān)聯(lián)規(guī)則、決策樹(shù)等方法找到哪些知識(shí)與專業(yè)有關(guān),哪些知識(shí)與專業(yè)關(guān)聯(lián)度不大,制定大綱和計(jì)劃時(shí)把關(guān)聯(lián)度大的作為重點(diǎn),把不相關(guān)的知識(shí)作為擴(kuò)展,或者自學(xué)知識(shí)。這樣就可以合理地利用有限的課時(shí),教授學(xué)生將來(lái)在專業(yè)學(xué)習(xí)中急需的知識(shí),獲取效率最大化。

          (二)尋找影響學(xué)生學(xué)習(xí)專業(yè)基礎(chǔ)課程的主要因素

          高職學(xué)校的生源一般基礎(chǔ)會(huì)稍有欠缺,理論知識(shí)不扎實(shí),學(xué)習(xí)積極性受過(guò)打擊。學(xué)生在學(xué)習(xí)理論性偏強(qiáng)的課程時(shí),尤其表現(xiàn)出排斥。教學(xué)中教師很難抓住學(xué)生的特點(diǎn)來(lái)授課,就會(huì)造成學(xué)生厭惡學(xué)習(xí)的惡性循環(huán)。利用數(shù)據(jù)挖掘技術(shù)尋找學(xué)生在學(xué)習(xí)過(guò)程中的主要影響因素,比如生源、高考成績(jī)、公共基礎(chǔ)學(xué)習(xí)情況、專業(yè)基礎(chǔ)課程(先行)學(xué)習(xí)情況、學(xué)習(xí)態(tài)度、教師等多方面因素,也可運(yùn)用關(guān)聯(lián)規(guī)則等方法分析學(xué)生學(xué)習(xí)專業(yè)基礎(chǔ)課程受到哪些因素的影響,然后根據(jù)這些影響因素找到學(xué)生學(xué)習(xí)的規(guī)律,適時(shí)調(diào)整授課方法、進(jìn)度等。

          (三)發(fā)現(xiàn)影響學(xué)生學(xué)知識(shí)點(diǎn)的主要因素

          考量學(xué)生在學(xué)教學(xué)知識(shí)點(diǎn)時(shí)的影響因素,以便教師在授課時(shí)采取相應(yīng)的措施。收集歷屆學(xué)生學(xué)習(xí)此類知識(shí)點(diǎn)的情況,教師授課的情況,挖掘出學(xué)生對(duì)于某知識(shí)點(diǎn)的學(xué)習(xí)規(guī)律,及適合的學(xué)習(xí)方法、授課方法等,精確找到適合每個(gè)知識(shí)點(diǎn)、某一小節(jié)、某一章節(jié)的教學(xué)方法。這樣就不會(huì)造成所有的教學(xué)決策全憑任課教師的主觀決斷,尊重了學(xué)生的成長(zhǎng)規(guī)律,提高了教師的授課效率,由于有針對(duì)性地找到了適合學(xué)生學(xué)習(xí)的方法,學(xué)生學(xué)習(xí)效率也會(huì)大大提高。

          (四)完善知識(shí)評(píng)價(jià)體系

          知識(shí)評(píng)價(jià)體系是評(píng)估教學(xué)質(zhì)量、學(xué)生學(xué)習(xí)成果等的重要途徑,制定合理的知識(shí)評(píng)價(jià)體系也會(huì)反推教學(xué)質(zhì)量,促進(jìn)教學(xué)活動(dòng)的有效展開(kāi),激勵(lì)學(xué)生端正學(xué)習(xí)態(tài)度。知識(shí)評(píng)價(jià)包括理論評(píng)價(jià)和實(shí)踐能力等的評(píng)價(jià),需要根據(jù)課程核心能力要求、學(xué)生能力培養(yǎng)要求、與后續(xù)課程的銜接等多方面來(lái)制定考核辦法。制定完善的評(píng)價(jià)體系是一個(gè)困難的過(guò)程,初期可以結(jié)合往屆評(píng)價(jià)方法設(shè)計(jì)一些調(diào)查問(wèn)卷,分別對(duì)學(xué)生、相關(guān)專業(yè)教師進(jìn)行調(diào)查,利用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)分析,總結(jié)出合適的評(píng)價(jià)體系。經(jīng)過(guò)實(shí)施以后,再根據(jù)學(xué)生的情況、教師的反饋進(jìn)行完善與調(diào)整。

          同時(shí),根據(jù)數(shù)據(jù)挖掘?qū)Ω髦R(shí)聯(lián)接的分析結(jié)論,結(jié)合專業(yè)教師的討論意見(jiàn),專業(yè)基礎(chǔ)課程教師可以根據(jù)后續(xù)專業(yè)學(xué)習(xí)的需要挑揀出合適的知識(shí),重新編制適合本專業(yè)學(xué)生學(xué)習(xí)的教材。對(duì)于專業(yè)基礎(chǔ)課程教師的培養(yǎng),條件允許的情況下,讓專業(yè)基礎(chǔ)課程教師融入專業(yè),熟悉專業(yè)課程有利于更好地結(jié)合專業(yè)需求、現(xiàn)場(chǎng)案例詮釋基礎(chǔ)知識(shí),學(xué)生從心理上來(lái)說(shuō),因?yàn)橛袑I(yè)的支撐,也能更好地接受復(fù)雜又繁瑣的專業(yè)基礎(chǔ)知識(shí)。

          【參考文獻(xiàn)】

          [1]周麗娟.大數(shù)據(jù)時(shí)代下的當(dāng)代職業(yè)教育研究[J].湖南郵電職業(yè)技術(shù)學(xué)院學(xué)報(bào),2015(4)

          [2]段向紅,張飛舟.數(shù)據(jù)挖掘技術(shù)及其在職業(yè)教育中的應(yīng)用探討[J].職業(yè)教育研究,2007(7)

          [3]仁,何業(yè)軍,王桂蓮.高職電工基礎(chǔ)類課程教學(xué)改革的探索與實(shí)踐[J].職業(yè)技術(shù),2014(7)

          篇10

          中圖分類號(hào):G642 文獻(xiàn)標(biāo)志碼:A

          Abstract: According to the traditional teaching method in data warehouse and data mining course exists disadvantages such as theoretical knowledge is difficult to digest, experiment too modeled and there is a gap between the teaching content and students' skills and software enterprise requirements, the paper puts forward the task drive case teaching, selects tasks of close to the enterprise project , explains the key points in the task through the case , develops the students' innovation ability, and explaints that task drive case method implementation process and the matters needing attention.

          Key words: Task Driven Teaching Model; Teaching Practice; Data Warehouse; Data Mining

          0. 引言

          數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)出現(xiàn)于2O世紀(jì)8O年代,90年代有了突飛猛進(jìn)的發(fā)展。這是信息和數(shù)據(jù)深度處理的必然需要,也是體現(xiàn)信息價(jià)值的重要工具,在當(dāng)前信息社會(huì)有廣泛的應(yīng)用?!皵?shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘”作為一門(mén)既有理論基礎(chǔ)又有實(shí)際應(yīng)用價(jià)值的課程,已經(jīng)成為很多信息類專業(yè)本科生的學(xué)習(xí)課程。

          “任務(wù)驅(qū)動(dòng)”作為一種教學(xué)方法,適用于學(xué)習(xí)操作類的知識(shí)和技能,尤其適用于學(xué)習(xí)計(jì)算機(jī)應(yīng)用方面的知識(shí)和技能。

          本課程具有較強(qiáng)的理論性和實(shí)踐性,任務(wù)驅(qū)動(dòng)的案例教學(xué)適合數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘這樣的課程,沒(méi)有完整的案例貫通課程,學(xué)生無(wú)法將所學(xué)的理論知識(shí)融會(huì)貫通,也無(wú)法實(shí)際應(yīng)用。案例教學(xué)可以培養(yǎng)學(xué)生解決問(wèn)題的能力,通過(guò)案例,學(xué)生可以帶著問(wèn)題去學(xué)習(xí),在學(xué)習(xí)中逐步分析問(wèn)題并最終解決問(wèn)題,從而提高創(chuàng)新能力;案例教學(xué)能夠增強(qiáng)學(xué)生對(duì)實(shí)際問(wèn)題建模的邏輯思維能力,激發(fā)學(xué)生主動(dòng)參與學(xué)習(xí)過(guò)程,縮小理論和實(shí)踐的落差。

          1. 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘教學(xué)現(xiàn)狀

          數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘是針對(duì)計(jì)算機(jī)專業(yè)高年級(jí)學(xué)生開(kāi)設(shè)的一門(mén)專業(yè)課,以培養(yǎng)學(xué)生如何創(chuàng)造性解決實(shí)際決策問(wèn)題的能力。該課程不僅有很強(qiáng)的理論性,更有實(shí)用性,它要求學(xué)生有較強(qiáng)的邏輯思維和編程開(kāi)發(fā)能力。作為一門(mén)前沿性學(xué)科,數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘有許多技術(shù)和方法是開(kāi)放式、或仍處于探索階段的。因此,學(xué)生除了掌握基本的概念與方法之外,對(duì)該門(mén)學(xué)科中許多面臨的問(wèn)題、有待拓展的研究方向應(yīng)有所了解,這樣有助于為學(xué)生提供對(duì)該學(xué)科的一個(gè)廣博且適度的概覽,提高自主學(xué)習(xí)的能力,并為有志于在該領(lǐng)域進(jìn)行深入研究的學(xué)生提供一個(gè)學(xué)習(xí)的機(jī)會(huì)。

          1.1 目前課程規(guī)劃不合理,學(xué)生理論知識(shí)難以融會(huì)貫通

          目前,大多數(shù)開(kāi)設(shè)計(jì)算機(jī)專業(yè)的高校中,數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘這門(mén)課都是在幾乎所有課程學(xué)完之后開(kāi)設(shè),而這門(mén)課程本身是一門(mén)既有理論又有實(shí)踐的高級(jí)編程課程,即使是在設(shè)計(jì)思路和方法上有較大不同,與其他面向?qū)ο蟮恼Z(yǔ)言也是有很大聯(lián)系的,而這種孤立的授課安排缺乏科學(xué)性。

          從教學(xué)內(nèi)容上看,案例教學(xué)適合數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘這樣的知識(shí)結(jié)構(gòu)復(fù)雜、專業(yè)性強(qiáng)的課程教學(xué),沒(méi)有一個(gè)完整的案例,學(xué)生無(wú)法將所學(xué)的眾多理論知識(shí)融會(huì)貫通,也無(wú)法理解一些復(fù)雜專業(yè)術(shù)語(yǔ)的實(shí)際應(yīng)用。

          1.2目前課內(nèi)實(shí)驗(yàn)過(guò)于模式化,難于培養(yǎng)學(xué)生的創(chuàng)造性思維

          從教學(xué)目標(biāo)來(lái)看,案例教學(xué)可以培養(yǎng)學(xué)生解決問(wèn)題的能力,通過(guò)案例,學(xué)生可以帶著問(wèn)題去學(xué)習(xí),在學(xué)習(xí)中逐步分析問(wèn)題并最終解決問(wèn)題,從而提高創(chuàng)新力;從教學(xué)對(duì)象來(lái)看,案例教學(xué)能夠增強(qiáng)學(xué)生對(duì)實(shí)際問(wèn)題建模的邏輯思維的能力,這樣學(xué)生主動(dòng)參與學(xué)習(xí)過(guò)程,不僅可以激發(fā)學(xué)生探索學(xué)習(xí)新知識(shí)的熱情,也可以縮小理論和實(shí)踐的落差。

          1.3 目前課程教學(xué)內(nèi)容與學(xué)生的技能與軟件企業(yè)要求存在差距

          篇11

          (一)知識(shí)發(fā)現(xiàn)的研究綜述

          知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD)一詞最早出現(xiàn)在1989年8月美國(guó)底特律召開(kāi)的第11屆國(guó)際聯(lián)合人工智能學(xué)術(shù)會(huì)議上[1]。1996年,知識(shí)發(fā)現(xiàn)被Fayyad U,Piatetsky,Shapiro G和Smyth P定義為:知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過(guò)程[2]。對(duì)KDD的研究主要包括從數(shù)據(jù)庫(kù)的角度進(jìn)行研究以強(qiáng)調(diào)知識(shí)發(fā)現(xiàn)的效率,從機(jī)器學(xué)習(xí)的角度進(jìn)行研究以強(qiáng)調(diào)知識(shí)發(fā)現(xiàn)的有效性,從統(tǒng)計(jì)分析的角度進(jìn)行研究以強(qiáng)調(diào)知識(shí)發(fā)現(xiàn)的正確性,從微觀經(jīng)濟(jì)學(xué)的角度進(jìn)行研究以強(qiáng)調(diào)知識(shí)發(fā)現(xiàn)的最大效用。KDD過(guò)程是多個(gè)步驟交互螺旋式上升的學(xué)習(xí)和總結(jié)過(guò)程[3],基本流程包括:

          (1)限定學(xué)習(xí)領(lǐng)域,儲(chǔ)備預(yù)先知識(shí)、確定學(xué)習(xí)目標(biāo);

          (2)聚焦目標(biāo)數(shù)據(jù)集,選擇一個(gè)數(shù)據(jù)集或在多數(shù)據(jù)集的子集上聚焦;

          (3)數(shù)據(jù)預(yù)處理,數(shù)據(jù)降噪或數(shù)據(jù)清洗;

          (4)數(shù)據(jù)轉(zhuǎn)換;

          (5)確定數(shù)據(jù)挖掘功能法則;

          (6)獲得知識(shí)信息、運(yùn)用知識(shí)成果并重新選定學(xué)習(xí)目標(biāo)。

          在創(chuàng)新的過(guò)程中,單單依靠顯性知識(shí)已經(jīng)不足以支撐整個(gè)思維求異和技術(shù)創(chuàng)新的全流程。隨著數(shù)據(jù)量的爆炸式增長(zhǎng),傳統(tǒng)數(shù)據(jù)庫(kù)的檢索查詢已不能滿足信息社會(huì)的深層次需求,再加上傳統(tǒng)分析手段的落后,大量數(shù)據(jù)來(lái)不及整理、分析或利用就已“時(shí)過(guò)境遷”成為無(wú)效信息,而且被長(zhǎng)期積壓在數(shù)據(jù)庫(kù)中浪費(fèi)存儲(chǔ)資源。為了及時(shí)消解數(shù)據(jù)產(chǎn)生和數(shù)據(jù)理解之間的矛盾,還必須定期對(duì)數(shù)據(jù)進(jìn)行深度挖掘,使得大量被隱藏的、有價(jià)值的信息得到有效利用。

          (二)數(shù)據(jù)挖掘的理論探索

          數(shù)據(jù)挖掘(Data Mining)是指使用算法來(lái)抽取信息和模式,通常是知識(shí)發(fā)現(xiàn)過(guò)程的一個(gè)重要步驟。數(shù)據(jù)挖掘融合了機(jī)器學(xué)習(xí)、模式識(shí)別、數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)理論、人工智能及信息管理系統(tǒng)等多門(mén)學(xué)科的最新成果。應(yīng)用數(shù)據(jù)挖掘技術(shù)從大型數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱藏在其中的規(guī)律和有用信息,為管理層決策提供事實(shí)型數(shù)據(jù)和研究模式。

          根據(jù)KDD的目標(biāo)任務(wù),數(shù)據(jù)挖掘任務(wù)可分為:分類或預(yù)測(cè)模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)與聚類發(fā)現(xiàn)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、相似模式發(fā)現(xiàn)、混沌模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢(shì)發(fā)現(xiàn)等。而所要挖掘的對(duì)象則可以分為:關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)、遺產(chǎn)數(shù)據(jù)庫(kù)以及web等對(duì)象的挖掘。從方法論講,其挖掘方法一般分為:聚類分析、探索性分析、機(jī)器、統(tǒng)計(jì)、神經(jīng)網(wǎng)絡(luò)(Neural Network)、遺傳算法(Genetic Algorithm)、數(shù)據(jù)庫(kù)、近似推理和不確定性推理、基于證據(jù)理論和元模式、現(xiàn)代數(shù)學(xué)分析、粗糙集(Rough Set)、集成方法等方法[4]。

          (三)小結(jié)

          綜上,知識(shí)發(fā)現(xiàn)用于從大量數(shù)據(jù)中抽取規(guī)律信息,發(fā)現(xiàn)非預(yù)期或潛在的價(jià)值量,而數(shù)據(jù)挖掘作為知識(shí)發(fā)現(xiàn)的重要一環(huán)是與實(shí)踐應(yīng)用緊密相連的,兩者不僅僅是對(duì)數(shù)據(jù)的簡(jiǎn)單檢索調(diào)用,而是從數(shù)據(jù)集合中自動(dòng)提取出隱含在數(shù)據(jù)中的關(guān)系和模式,進(jìn)而對(duì)未來(lái)可能發(fā)生的行為進(jìn)行預(yù)測(cè),為決策者提供有力支持。

          二、高校成績(jī)管理與學(xué)科建設(shè)

          成績(jī)是學(xué)生在校學(xué)習(xí)期間對(duì)所學(xué)知識(shí)理解掌握情況和教師教學(xué)質(zhì)量評(píng)價(jià)的原始記錄,對(duì)學(xué)校的教學(xué)管理和教學(xué)改革措施評(píng)價(jià)具有重要的參考價(jià)值[5]。成績(jī)管理是高校教學(xué)管理中的最為基礎(chǔ)性的一個(gè)環(huán)節(jié),是根據(jù)教學(xué)目的和教學(xué)任務(wù),

          通過(guò)學(xué)生的實(shí)際量化考核分?jǐn)?shù)來(lái)進(jìn)行統(tǒng)計(jì)、查閱和分析的綜合性數(shù)據(jù)處理過(guò)程。該過(guò)程的科學(xué)與否,直接關(guān)系到教務(wù)管理的實(shí)際質(zhì)量和教學(xué)工作的可持續(xù)發(fā)展,特別是在網(wǎng)絡(luò)化和信息化的新形勢(shì)下,該項(xiàng)工作被素質(zhì)教育賦予更加深遠(yuǎn)的現(xiàn)實(shí)意義。本文所指學(xué)科成績(jī)不僅限于學(xué)生的筆試成績(jī),還包括了學(xué)生參加各種校內(nèi)外實(shí)習(xí)和培訓(xùn),以及其他形式素質(zhì)教育的量化數(shù)據(jù)。

          (一)高校成績(jī)管理所面臨的新形勢(shì)

          從宏觀上講,隨著國(guó)家高等教育普及工作的不斷推進(jìn),以及教育戰(zhàn)線“以人為本”理念的逐步深入,高校教務(wù)在成績(jī)管理這一環(huán)節(jié)上所面臨的任務(wù)顯得比以往任何時(shí)刻都更加繁重。

          首先,院校擴(kuò)建和學(xué)生擴(kuò)招為學(xué)科成績(jī)管理模塊在數(shù)據(jù)容量上增加了壓力。近幾年,隨著一些高校教學(xué)資源的整合和擴(kuò)充,許多高校設(shè)立了新校區(qū)、設(shè)置了新專業(yè),反映在學(xué)生成績(jī)管理上則是成績(jī)數(shù)據(jù)的時(shí)空容量同時(shí)增長(zhǎng)。每多出一個(gè)學(xué)生,從學(xué)籍材料到各年度學(xué)科數(shù)據(jù)再到圖形化成績(jī)資料都會(huì)相應(yīng)增加,教師教務(wù)管理系統(tǒng)所要處理的信息量也會(huì)相應(yīng)增加,這首先在量上增加了數(shù)據(jù)壓力。