首頁(yè) > 優(yōu)秀范文 > 數(shù)據(jù)挖掘論文
時(shí)間:2022-12-20 18:09:05
序論:速發(fā)表網(wǎng)結(jié)合其深厚的文秘經(jīng)驗(yàn),特別為您篩選了11篇數(shù)據(jù)挖掘論文范文。如果您需要更多原創(chuàng)資料,歡迎隨時(shí)與我們的客服老師聯(lián)系,希望您能從中汲取靈感和知識(shí)!
2模糊集理論的引入
在討論實(shí)際問(wèn)題的時(shí)候,需要判定模糊概念涵義,如判斷某個(gè)數(shù)據(jù)在模糊集的定義和歸屬,這時(shí)就需要普通集合與模糊集合可依某種法則相互轉(zhuǎn)換。模糊理論中的截集是模糊集合和普通集合之間相互轉(zhuǎn)換的一座橋梁。
3基于事務(wù)間數(shù)值型關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法
假設(shè)有一就業(yè)數(shù)據(jù)庫(kù),先通過(guò)數(shù)據(jù)整理,將原始數(shù)據(jù)記錄值區(qū)間[0,10]偏置10個(gè)單位。由此就得到了經(jīng)過(guò)偏置后的數(shù)據(jù)庫(kù)記錄。再依滑動(dòng)窗口方法,設(shè)maxspan=1(該值可以依實(shí)際情況的需要來(lái)定),就可將偏置后的數(shù)據(jù)庫(kù)數(shù)據(jù)整理轉(zhuǎn)化為擴(kuò)展事務(wù)數(shù)據(jù)庫(kù)。再把擴(kuò)展事務(wù)數(shù)據(jù)庫(kù)記錄通過(guò)隸屬度函數(shù)轉(zhuǎn)化為對(duì)應(yīng)的隸屬度。
二、石家莊地區(qū)制藥企業(yè)專(zhuān)利數(shù)據(jù)挖掘
本文對(duì)石家莊地區(qū)制藥企業(yè)的專(zhuān)利數(shù)據(jù)進(jìn)行挖掘分析,挖掘?qū)ο笫侨A北制藥集團(tuán)公司、石家莊制藥集團(tuán)有限公司、石家莊神威藥業(yè)股份有限公司、石家莊四藥股份、河北以嶺藥業(yè)股份有限公司、石家莊市華曙制藥集團(tuán)、河北醫(yī)科大學(xué)制藥廠、河北圣雪大成制藥有限責(zé)任公司等地址在石家莊且具有一定代表性的藥企,希望通過(guò)這些藥企數(shù)據(jù)能夠找到石家莊地區(qū)制藥領(lǐng)域的核心組成,并能為藥企更好地發(fā)展提供有力的信息支持。IPC號(hào)是目前權(quán)威的專(zhuān)利技術(shù)主題的標(biāo)識(shí)編碼之一,基本包含了各行各業(yè)的專(zhuān)利信息,是一個(gè)龐大的專(zhuān)利信息體系。目前國(guó)內(nèi)外很多分析方法及技術(shù)大部分是基于專(zhuān)利的IPC分類(lèi)號(hào)來(lái)分析專(zhuān)利技術(shù)主題的,此分析方法有一定的參考價(jià)值和科學(xué)性,而且對(duì)于具有大量專(zhuān)利信息的分析具有很好的總結(jié)概括效果。本文以專(zhuān)利全部IPC號(hào)為分析對(duì)象,并且構(gòu)建IPC號(hào)之間的關(guān)聯(lián)規(guī)則,在最大程度上揭示隱含的專(zhuān)利技術(shù)關(guān)聯(lián)性,從而為石家莊地區(qū)制藥企業(yè)專(zhuān)利技術(shù)的發(fā)展提供參考。
1.數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)來(lái)源的準(zhǔn)確與否是數(shù)據(jù)分析與挖掘的基礎(chǔ),是數(shù)據(jù)分析與挖掘的根本。本文所使用的石家莊地區(qū)制藥領(lǐng)域?qū)@麛?shù)據(jù)由萬(wàn)方數(shù)據(jù)公司提供,以制藥企業(yè)地址為石家莊為檢索條件,搜索出了包括從1985—2014年間石家莊地區(qū)制藥領(lǐng)域?qū)@?44條,分別分布在A、B、C、D、E、F、G、H八個(gè)大部。對(duì)專(zhuān)利數(shù)據(jù)庫(kù)中的644條專(zhuān)利進(jìn)行篩選,根據(jù)“分類(lèi)號(hào)”字段限制,它涉及專(zhuān)利信息的分類(lèi),有些IPC所涉及的范圍與石家莊地區(qū)制藥領(lǐng)域沒(méi)有聯(lián)系或聯(lián)系很小,不宜保留。根據(jù)“申請(qǐng)人(專(zhuān)利權(quán)人)”字段的限制,剔除與石家莊地區(qū)制藥不相關(guān)或制藥企業(yè)地址不在石家莊地區(qū)的專(zhuān)利。最后篩選出590條最符合該領(lǐng)域特點(diǎn)的專(zhuān)利。由于IPC號(hào)在幾乎所有現(xiàn)存數(shù)據(jù)庫(kù)中均是以一個(gè)字段存儲(chǔ)一個(gè)專(zhuān)利的所有IPC分類(lèi)號(hào)的,形如:A61K38/26、A61K9/08、A61K47/12、A61P3/10,且每個(gè)專(zhuān)利一般都有好幾個(gè)分類(lèi)號(hào),而每個(gè)企業(yè)又研究大量的專(zhuān)利,所以在進(jìn)行專(zhuān)利分析之前,需要對(duì)專(zhuān)利IPC號(hào)進(jìn)行數(shù)據(jù)整理。由于過(guò)于細(xì)致的IPC分類(lèi)號(hào)并不利于專(zhuān)利主題的分析與揭示,所以本文中采用專(zhuān)利小類(lèi)分析,就是取IPC號(hào)的前4位。并將申請(qǐng)人與其對(duì)應(yīng)的多條IPC號(hào)進(jìn)行拆分,拆分后的數(shù)據(jù)項(xiàng)有773條,即顯示每個(gè)申請(qǐng)人對(duì)應(yīng)的一條IPC分類(lèi)號(hào)。
2.數(shù)據(jù)挖掘。本文數(shù)據(jù)挖掘過(guò)程將采用Excel和SQLsever2005軟件,首先對(duì)所得到的數(shù)據(jù)導(dǎo)入SQLserver2005進(jìn)行挖掘,利用SQLserver2005可以直接進(jìn)行IPC號(hào)的關(guān)聯(lián)規(guī)則挖掘,然后對(duì)專(zhuān)利信息進(jìn)行分析。
3.數(shù)據(jù)挖掘結(jié)果與分析?;陉P(guān)聯(lián)規(guī)則制作依賴(lài)關(guān)系網(wǎng)絡(luò)圖,可以更加直觀地看到各個(gè)IPC號(hào)之間的關(guān)聯(lián)和依賴(lài)狀態(tài)。
(1)以A61K、C12N、C12P、C07D、C07C為中心的核心專(zhuān)利技術(shù)群。這些專(zhuān)利的IPC分類(lèi)號(hào)是關(guān)鍵部分藥物組成的各種化合物即藥物主要成分的重要聚集組。A61K(醫(yī)用、牙科用等的配置品)是項(xiàng)集次數(shù)最多的,即支持度較高的,C12P(發(fā)酵或使用酶的方法合成目標(biāo)化合物或組合物或從外消旋混合物中分離旋光異構(gòu)體)、C12N(微生物或酶;其組合物)、C07D(雜環(huán)環(huán)合物,例如鄰氯芐星青霉素的合成)、C07C(無(wú)環(huán)和碳環(huán)化合物)通過(guò)專(zhuān)利相關(guān)知識(shí)我們已經(jīng)知道這些都是藥物的合成成分,即土霉素、鏈霉素、青霉素等多種抗生素和維生素的主要成分組成,是制藥領(lǐng)域的核心。這也是和石家莊地區(qū)制藥企業(yè)的核心領(lǐng)域相符合的。另外這些專(zhuān)利主題的相互關(guān)聯(lián)、依賴(lài)說(shuō)明了石家莊地區(qū)制藥企業(yè)在該領(lǐng)域具有很好的布局網(wǎng)絡(luò),在研發(fā)數(shù)量上也占有一定優(yōu)勢(shì),所以說(shuō)是石家莊地區(qū)制藥企業(yè)的主要研究領(lǐng)域。
(2)以B65G、C12M為中心的輔助設(shè)備專(zhuān)利技術(shù)群。藥品的生產(chǎn)離不開(kāi)設(shè)備的支持,所以設(shè)備方面的專(zhuān)利也能體現(xiàn)制藥企業(yè)的技術(shù)水平。在圖1中也能體現(xiàn)出來(lái),專(zhuān)利間有著很強(qiáng)的依賴(lài)性和關(guān)聯(lián)性,在核心專(zhuān)利周邊有B65G(運(yùn)輸或貯存裝置,例如裝載或傾斜用輸送機(jī)、車(chē)間輸送機(jī)系統(tǒng)、氣動(dòng)管道輸送機(jī))、C12M(酶學(xué)或微生物學(xué)裝置),這些是制藥的輔助技術(shù)手段,與中心專(zhuān)利是相互聯(lián)系的,也是制藥過(guò)程中必不可少的,在這些方面的提高有利于制藥核心領(lǐng)域的發(fā)展。先進(jìn)藥品的研制離不開(kāi)先進(jìn)制藥設(shè)備支持,所以設(shè)備水平的提高也是關(guān)鍵的。如圖3所示,石家莊地區(qū)制藥企業(yè)在這一方面的技術(shù)依賴(lài)網(wǎng)絡(luò)也已經(jīng)形成,說(shuō)明在此技術(shù)領(lǐng)域也已經(jīng)擁有較強(qiáng)實(shí)力。但與中心主要專(zhuān)利相比,輔助設(shè)備專(zhuān)利技術(shù)還是需要不斷提高的。
主要采用關(guān)聯(lián)規(guī)則與頻次分析相結(jié)合的數(shù)據(jù)挖掘方法,關(guān)聯(lián)規(guī)則旨在提示處方中存在的兩個(gè)或兩個(gè)以上腧穴之間的配伍形式,頻次分析能夠提供針灸治療某一疾病選用的腧穴及其頻繁程度。羅玲等在全面采集古代針灸治療中風(fēng)文獻(xiàn)基礎(chǔ)上,重點(diǎn)進(jìn)行了選穴的經(jīng)絡(luò)癥狀關(guān)聯(lián)分析,發(fā)現(xiàn)針刺治療中風(fēng)半身不遂使用腧穴頻次最多的為曲池、肩等手陽(yáng)明經(jīng)穴;肩、曲池、足三里、百會(huì)、風(fēng)池配伍是最常用處方;多選用足少陽(yáng)經(jīng)和手足陽(yáng)明經(jīng)穴位。針刺治療中風(fēng)不省人事使用腧穴頻次最多的為督脈百會(huì)穴、心包經(jīng)中沖穴;風(fēng)池、百會(huì)、曲池配伍或大椎、百會(huì)、風(fēng)池配伍是最常用處方;經(jīng)脈多選用督脈和足少陽(yáng)、手陽(yáng)明等陽(yáng)經(jīng)穴位。以上表明針灸治療中風(fēng)遵循了辨證循經(jīng)取穴的處方規(guī)律。何冬鳳等在全面采集現(xiàn)代針灸治療心絞痛臨床文獻(xiàn)基礎(chǔ)上,重點(diǎn)進(jìn)行了選穴的經(jīng)絡(luò)部位關(guān)聯(lián)分析。結(jié)果發(fā)現(xiàn),心絞痛選穴分布在心包經(jīng)、膀胱經(jīng)、任脈、心經(jīng)最多;選穴主要分布在上肢部、背部、胸部,上肢部用穴中近90%分布于心包經(jīng)和心經(jīng),背部用穴近95%分布于膀胱經(jīng),胸部用穴全分布于任脈和心經(jīng)。以上表明針灸治療心絞痛遵循了辨位循經(jīng)取穴的處方規(guī)律。數(shù)據(jù)挖掘結(jié)果證實(shí)了古代、現(xiàn)代取穴規(guī)律和特點(diǎn)與針灸臨床理論的一般規(guī)律和特點(diǎn)是基本相符的。經(jīng)絡(luò)辨證提示了經(jīng)穴效應(yīng)的循經(jīng)性,特定穴的選用提示了經(jīng)氣會(huì)聚狀態(tài)是腧穴發(fā)揮效應(yīng)特異性的關(guān)鍵。
1.2腧穴運(yùn)用規(guī)律的研究
1)神經(jīng)系統(tǒng)疾?。黑w凌等收錄了從先秦至清末的偏頭痛針灸專(zhuān)著,采用多層關(guān)聯(lián)規(guī)則挖掘算法,計(jì)算腧穴項(xiàng)集的支持度和置信度,發(fā)現(xiàn)手足少陽(yáng)經(jīng)脈的穴位絲竹空、風(fēng)池、率谷、頷厭、頭臨泣出現(xiàn)頻次最高,偏頭痛處方配伍中以合谷一風(fēng)池出現(xiàn)的頻次最高,少陽(yáng)經(jīng)的交會(huì)穴選用最多。楊潔等發(fā)現(xiàn)針灸治療貝爾面癱中,手足陽(yáng)明經(jīng)穴選用最多,重視局部穴位,配合遠(yuǎn)端選穴,地倉(cāng)穴為使用頻次最多經(jīng)穴,交會(huì)穴、五輸穴、下合穴等特定穴運(yùn)用廣泛。吳糧葶等挖掘針灸治療中風(fēng)后遺癥的現(xiàn)代文獻(xiàn),表明針灸治療中風(fēng)后遺癥選穴以循經(jīng)為基礎(chǔ),首選陽(yáng)經(jīng)腧穴,分布主要在四肢,陽(yáng)明經(jīng)與少陽(yáng)經(jīng)的配伍關(guān)系最為常用,特定穴為選穴的主體,特別重視交會(huì)穴及肘膝關(guān)節(jié)以下的特定穴。李旗等挖掘出針刺治療格林巴利綜合征所選腧穴以足三里、合谷、曲池、陽(yáng)陵泉、外關(guān)、三陰交使用頻率最高,經(jīng)絡(luò)則以手足陽(yáng)明經(jīng)最為常用。CongMen等以不同針刺手法刺激小鼠足三里,構(gòu)筑神經(jīng)元混沌放電的復(fù)雜網(wǎng)絡(luò)來(lái)刻畫(huà)神經(jīng)元放電時(shí)間序列的時(shí)變特性。
2)消化系統(tǒng)疾病:任玉蘭等通過(guò)多維、多層的關(guān)聯(lián)規(guī)則分析針刺治療功能性消化不良的古文獻(xiàn),發(fā)現(xiàn)足三里、中脘、脾俞、胃俞、內(nèi)關(guān)是治療FD最常用的主要腧穴,足三里與中脘相配是最主要穴位組配方式;取穴以循經(jīng)為基礎(chǔ),主要集中在任脈、膀胱經(jīng)、脾胃經(jīng)上;所選腧穴以特定穴為主體,遵循局部與遠(yuǎn)端取穴相結(jié)合原則。張勇等以古文獻(xiàn)中治療鼓脹的經(jīng)穴為原始數(shù)據(jù),運(yùn)用頻數(shù)統(tǒng)計(jì)及關(guān)聯(lián)規(guī)則算法,統(tǒng)計(jì)出古代治療鼓脹最常用經(jīng)穴為足三里、水分、氣海等,通過(guò)2次priori關(guān)聯(lián)結(jié)果,最終確認(rèn)組穴1(復(fù)溜,中風(fēng))和組穴2(復(fù)溜,脾俞)在臨床應(yīng)用中具有強(qiáng)關(guān)聯(lián)性。鄭華斌等發(fā)現(xiàn)在治療腸易激綜合征中,特定穴的使用廣泛,其中以足三里為最,其次為天樞、上巨虛、中脘等,臟腑辨證取穴為針刺治療腸易激綜合征的重要原則,以足陽(yáng)明胃經(jīng)的足三里和天樞為主。
3)心血管系統(tǒng)疾?。汉味P等收集從先秦至清末有關(guān)胸痹的文獻(xiàn),挖掘結(jié)果為歷代針灸治療胸痹以心包經(jīng)選用頻次最高,陰經(jīng)使用最為頻繁,特定穴的選用占有絕對(duì)優(yōu)勢(shì),如五輸穴原穴絡(luò)穴等,體現(xiàn)了循經(jīng)取穴原則。高麗美通過(guò)頻次分析及關(guān)聯(lián)規(guī)則算法挖掘現(xiàn)代穴位貼敷治療心絞痛文獻(xiàn),結(jié)果表明心俞、膻中、內(nèi)關(guān)、厥陰俞使用頻次最多,腧穴選用以特定穴為主,俞募配伍使用最多。腧穴分部以胸腹部、背部腧穴為主;以足太陽(yáng)膀胱經(jīng)、任脈、手厥陰心包經(jīng)選用頻次較高。
4)其他系統(tǒng)疾病:王洪彬等借鑒文獻(xiàn)計(jì)量學(xué)及數(shù)據(jù)挖掘的相關(guān)方法,對(duì)針灸治療更年期綜合征的常用腧穴及經(jīng)絡(luò)進(jìn)行描述性統(tǒng)計(jì)。發(fā)現(xiàn)現(xiàn)代治療女性更年期綜合征所選取的穴位中以三陰交、腎俞、關(guān)元、足三里使用頻率最高,膀胱經(jīng)、任脈、脾經(jīng)腧穴應(yīng)用最為廣泛。王靜等發(fā)現(xiàn)源于149篇文獻(xiàn)的186條數(shù)據(jù)元素組成的阿片類(lèi)藥依賴(lài)針灸治療數(shù)據(jù)庫(kù)中,用穴頻次居于前五的經(jīng)穴足三里、三陰交、內(nèi)關(guān)、合谷和神門(mén)構(gòu)成了穴—穴,癥—穴,研究對(duì)象—穴,—穴和戒毒分期—穴等關(guān)聯(lián)規(guī)則中的穴位主體。
1.3刺灸方法的應(yīng)用規(guī)律研究
賈春生等提出建立刺灸法文獻(xiàn)數(shù)據(jù)庫(kù)并設(shè)計(jì)文獻(xiàn)數(shù)據(jù)應(yīng)用平臺(tái),在此基礎(chǔ)上分析數(shù)據(jù)資料,建立刺灸法數(shù)據(jù)挖掘模型。此后,各學(xué)者運(yùn)用數(shù)據(jù)挖掘方法對(duì)穴位注射、火針、穴位敷貼、穴位埋線(xiàn)、刺絡(luò)放血等刺灸法進(jìn)行了特異性規(guī)律及特點(diǎn)的研究。刺灸法挖掘技術(shù)的應(yīng)用中,頻次分析最為常用,能夠提供各類(lèi)刺灸法治療不同疾病的頻繁程度,篩選其治療的優(yōu)勢(shì)病種。張選平等發(fā)現(xiàn)穴位埋線(xiàn)療法主要優(yōu)勢(shì)病種是內(nèi)科的胃脘痛、肥胖病、癇證、哮喘、腹痛、面癱、便秘;外科的腰腿痛;皮膚科的牛皮癬和五官科的重瞼術(shù)。劉新等總結(jié)出放血針具共涉及9種,以三棱針使用頻次最高,將放血量人為分為6個(gè)等級(jí),其中放血量為少許(少于0.1mL)的出現(xiàn)頻次最高,為401次。許曉康等發(fā)現(xiàn)水針療法在內(nèi)科疾病治療中出現(xiàn)頻次最高,其次為外科疾病,相對(duì)于其他疾病,呃逆出現(xiàn)頻次最高。
1.4腧穴疾病譜的研究
吳糧葶等通過(guò)規(guī)范病癥、腧穴名稱(chēng),統(tǒng)計(jì)中風(fēng)后遺癥所屬病癥的針灸病癥譜及總結(jié)針灸治療中風(fēng)后遺癥的腧穴譜,結(jié)果顯示針灸病癥譜分布呈偏向性,腧穴譜遍布十四經(jīng)脈,首選陽(yáng)經(jīng)腧穴,常用腧穴以陽(yáng)明少陽(yáng)經(jīng)穴為主。邢晶晶等通過(guò)文獻(xiàn)比例、疾病比例對(duì)內(nèi)關(guān)及其常見(jiàn)配伍的針刺病譜進(jìn)行分析,總結(jié)出內(nèi)關(guān)針刺病譜主要分布于脾胃系和心系;單穴內(nèi)關(guān)針刺病譜中冠心病文獻(xiàn)比例最高;內(nèi)關(guān)配伍足三里針刺病譜中呃逆文獻(xiàn)比例最高;內(nèi)關(guān)配伍三陰交針刺病譜中焦慮抑郁文獻(xiàn)比例較高。黃宗雄等通過(guò)對(duì)清代及清以前昆侖穴相關(guān)文獻(xiàn)的整理,挖掘得出:昆侖單穴主治病證33種,篩選出2種優(yōu)勢(shì)病證;配伍主治病證45種,篩選出19種優(yōu)勢(shì)病證及其高頻配伍處方。陳文修等統(tǒng)計(jì)出百會(huì)單穴主治病證73種,篩選出22種優(yōu)勢(shì)病證;配伍主治病證106種,篩選出21種優(yōu)勢(shì)病證及其高頻配伍處方。
1.5名老中醫(yī)經(jīng)驗(yàn)挖掘
張華等對(duì)田從豁教授臨床病歷資料進(jìn)行整理,發(fā)現(xiàn)田從豁教授臨床應(yīng)用穴方共19個(gè),陰交、肓俞、水分配伍使用頻次最多。陳裕收集當(dāng)代名中醫(yī)針灸治療偏頭痛醫(yī)案247篇,總結(jié)出臨床與肝陽(yáng)上亢型關(guān)聯(lián)密切的是足少陽(yáng)膽經(jīng),血瘀阻絡(luò)型是手少陽(yáng)三焦經(jīng),風(fēng)邪上擾型是足太陽(yáng)膀胱經(jīng),氣血不足型是足陽(yáng)明胃經(jīng)。并且,根據(jù)關(guān)聯(lián)規(guī)則挖掘提出的基本配穴規(guī)律與中醫(yī)經(jīng)絡(luò)理論相契合。
1.6針灸臨床決策支持系統(tǒng)構(gòu)建
針灸臨床決策支持系統(tǒng)對(duì)于實(shí)現(xiàn)針灸臨床決策模式的轉(zhuǎn)變有重大意義,基于數(shù)據(jù)挖掘方法,各學(xué)者在此方向進(jìn)行了有益的探索。任玉蘭等提出建立疾病癥狀、證候癥狀關(guān)系的樣本數(shù)據(jù)庫(kù)、概率數(shù)學(xué)模型;再通過(guò)遺傳算法進(jìn)行針灸治療最優(yōu)方案的選擇,構(gòu)建具有人工智能特征的針灸臨床循證診療決策輔助支持平臺(tái)。王佑林等利用復(fù)雜網(wǎng)絡(luò)的K核心思想并改進(jìn)來(lái)尋找針灸治療疾病所用穴位的主穴信息,使其更好地適應(yīng)中醫(yī)決策系統(tǒng)并提供支持。李云松等發(fā)現(xiàn)在決策系統(tǒng)中,使用一元字串和二元字串的特征更適合腧穴處方的自動(dòng)生成,提出了一種基于K近鄰方法的腧穴處方自動(dòng)生成算法,通過(guò)分析病歷庫(kù)中與目標(biāo)現(xiàn)病史最相似K條病歷的穴位配方,來(lái)自動(dòng)給出患者針灸治療的推薦方案。胡綠慧等提出使用Weka平臺(tái)進(jìn)行編程,分析穴位的支持度與置信度,找出適用于針灸臨床方案決策研究的最好方法,用以指導(dǎo)臨床醫(yī)生的方案決策。
2分析與展望
2.1數(shù)據(jù)挖掘結(jié)果能夠與傳統(tǒng)的中醫(yī)學(xué)理論相契
合并提供新知《席弘賦》云:“凡欲行針須審穴。”可見(jiàn)臨證選穴及配伍的重要性。查閱近幾年針灸數(shù)據(jù)挖掘的結(jié)果,不難發(fā)現(xiàn),針灸處方的配伍仍大量選用“原絡(luò)配穴”“俞募配穴”“八脈交會(huì)配穴”“合募配穴”“遠(yuǎn)近配穴”等傳統(tǒng)配穴方法,遵循著“循經(jīng)取穴”的規(guī)則,體現(xiàn)了“經(jīng)脈所過(guò),主治所及”“腧穴所在,主治所及”的規(guī)律。數(shù)據(jù)挖掘在驗(yàn)證傳統(tǒng)的中醫(yī)學(xué)理論的同時(shí),還能在海量的文獻(xiàn)中發(fā)掘出新知,如趙凌等挖掘偏頭痛文獻(xiàn)時(shí)即發(fā)現(xiàn)古代針灸治療該病多采用同名經(jīng)的配穴方法,發(fā)生疾病時(shí)即可在相聯(lián)系的手足同名經(jīng)的相應(yīng)部位針刺;趙華等挖掘田從豁教授治療痹癥經(jīng)驗(yàn)的結(jié)果提示上肢疼痛與寒凝、血瘀相關(guān),風(fēng)寒痹阻與下肢發(fā)涼相關(guān)。這些新的治療方法、不易發(fā)現(xiàn)的疾病、證候、癥狀之間的聯(lián)系,通過(guò)數(shù)據(jù)挖掘?yàn)榕R床提供了新的思路與治療模式。
2.2數(shù)據(jù)挖掘在針灸領(lǐng)域存在的不足及展望
二、數(shù)據(jù)挖掘的方法
1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類(lèi)問(wèn)題,回歸分析用來(lái)找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來(lái)描述一個(gè)變量的變化趨勢(shì)和別的變量值的關(guān)系的線(xiàn)性回歸,還有用來(lái)為某些事件發(fā)生的概率建模為預(yù)測(cè)變量集的對(duì)數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線(xiàn)的性能和自變量對(duì)最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。
2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡(jiǎn)單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無(wú)遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過(guò)關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對(duì)這些規(guī)則要進(jìn)行有效的評(píng)價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。
3.聚類(lèi)分析。聚類(lèi)分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類(lèi)和增量聚類(lèi)。聚類(lèi)方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià),此外,聚類(lèi)分析還用于對(duì)孤立點(diǎn)的檢測(cè)。并非由聚類(lèi)分析算法得到的類(lèi)對(duì)決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對(duì)數(shù)據(jù)的聚類(lèi)趨勢(shì)進(jìn)行檢驗(yàn)。
4.決策樹(shù)方法。決策樹(shù)學(xué)習(xí)是一種通過(guò)逼近離散值目標(biāo)函數(shù)的方法,通過(guò)把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來(lái)分類(lèi)實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類(lèi)。樹(shù)上的每個(gè)結(jié)點(diǎn)說(shuō)明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試,該結(jié)點(diǎn)的每一個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值,分類(lèi)實(shí)例的方法是從這棵樹(shù)的根結(jié)點(diǎn)開(kāi)始,測(cè)試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹(shù)枝向下移動(dòng)。決策樹(shù)方法是要應(yīng)用于數(shù)據(jù)挖掘的分類(lèi)方面。
5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對(duì)人腦或其他計(jì)算機(jī)來(lái)說(shuō)極為復(fù)雜的模式抽取及趨勢(shì)分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無(wú)指導(dǎo)聚類(lèi),無(wú)論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類(lèi)多種神經(jīng)元網(wǎng)絡(luò),具有非線(xiàn)形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。
6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過(guò)變異和重組當(dāng)前己知的最好假設(shè)來(lái)生成后續(xù)的假設(shè)。每一步,通過(guò)使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分,來(lái)更新當(dāng)前群體的一組假設(shè),來(lái)實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過(guò)程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過(guò)程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過(guò)程;變異(突變)是對(duì)某些個(gè)體的某些基因進(jìn)行變異的過(guò)程。在數(shù)據(jù)挖掘中,可以被用作評(píng)估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類(lèi)能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問(wèn)題。粗糙集用于從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)分類(lèi)規(guī)則的基本思想是將數(shù)據(jù)庫(kù)中的屬性分為條件屬性和結(jié)論屬性,對(duì)數(shù)據(jù)庫(kù)中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對(duì)條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對(duì)象的集合稱(chēng)為初等集合,形成知識(shí)的基本成分。任何初等集合的并集稱(chēng)為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類(lèi)、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。
8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來(lái)的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類(lèi)精確性,能有效的解決過(guò)學(xué)習(xí)問(wèn)題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個(gè)凸優(yōu)化問(wèn)題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類(lèi)、回歸、對(duì)未知事物的探索等方面。
事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問(wèn)題來(lái)選擇合適挖掘方法,很難說(shuō)哪種方法好,那種方法劣,而是視具體問(wèn)題而定。
三、結(jié)束語(yǔ)
目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問(wèn)題。隨著人們對(duì)數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。
參考文獻(xiàn):
隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫(kù)的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無(wú)法辨別隱藏在其中的能對(duì)決策提供支持的信息,而傳統(tǒng)的查詢(xún)、報(bào)表工具無(wú)法滿(mǎn)足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價(jià)值的潛在知識(shí),數(shù)據(jù)挖掘(DataMining)技術(shù)由此應(yīng)運(yùn)而生。
一、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過(guò)程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來(lái)可能發(fā)生的行為。數(shù)據(jù)挖掘的過(guò)程也叫知識(shí)發(fā)現(xiàn)的過(guò)程。
二、數(shù)據(jù)挖掘的方法
1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類(lèi)問(wèn)題,回歸分析用來(lái)找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來(lái)描述一個(gè)變量的變化趨勢(shì)和別的變量值的關(guān)系的線(xiàn)性回歸,還有用來(lái)為某些事件發(fā)生的概率建模為預(yù)測(cè)變量集的對(duì)數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線(xiàn)的性能和自變量對(duì)最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。
2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡(jiǎn)單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無(wú)遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過(guò)關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對(duì)這些規(guī)則要進(jìn)行有效的評(píng)價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。
3.聚類(lèi)分析。聚類(lèi)分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類(lèi)和增量聚類(lèi)。聚類(lèi)方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià),此外,聚類(lèi)分析還用于對(duì)孤立點(diǎn)的檢測(cè)。并非由聚類(lèi)分析算法得到的類(lèi)對(duì)決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對(duì)數(shù)據(jù)的聚類(lèi)趨勢(shì)進(jìn)行檢驗(yàn)。
4.決策樹(shù)方法。決策樹(shù)學(xué)習(xí)是一種通過(guò)逼近離散值目標(biāo)函數(shù)的方法,通過(guò)把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來(lái)分類(lèi)實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類(lèi)。樹(shù)上的每個(gè)結(jié)點(diǎn)說(shuō)明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試,該結(jié)點(diǎn)的每一個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值,分類(lèi)實(shí)例的方法是從這棵樹(shù)的根結(jié)點(diǎn)開(kāi)始,測(cè)試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹(shù)枝向下移動(dòng)。決策樹(shù)方法是要應(yīng)用于數(shù)據(jù)挖掘的分類(lèi)方面。
5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對(duì)人腦或其他計(jì)算機(jī)來(lái)說(shuō)極為復(fù)雜的模式抽取及趨勢(shì)分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無(wú)指導(dǎo)聚類(lèi),無(wú)論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類(lèi)多種神經(jīng)元網(wǎng)絡(luò),具有非線(xiàn)形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。
6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過(guò)變異和重組當(dāng)前己知的最好假設(shè)來(lái)生成后續(xù)的假設(shè)。每一步,通過(guò)使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分,來(lái)更新當(dāng)前群體的一組假設(shè),來(lái)實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過(guò)程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過(guò)程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過(guò)程;變異(突變)是對(duì)某些個(gè)體的某些基因進(jìn)行變異的過(guò)程。在數(shù)據(jù)挖掘中,可以被用作評(píng)估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類(lèi)能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問(wèn)題。粗糙集用于從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)分類(lèi)規(guī)則的基本思想是將數(shù)據(jù)庫(kù)中的屬性分為條件屬性和結(jié)論屬性,對(duì)數(shù)據(jù)庫(kù)中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對(duì)條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對(duì)象的集合稱(chēng)為初等集合,形成知識(shí)的基本成分。任何初等集合的并集稱(chēng)為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類(lèi)、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。
8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來(lái)的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類(lèi)精確性,能有效的解決過(guò)學(xué)習(xí)問(wèn)題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個(gè)凸優(yōu)化問(wèn)題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類(lèi)、回歸、對(duì)未知事物的探索等方面。
事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問(wèn)題來(lái)選擇合適挖掘方法,很難說(shuō)哪種方法好,那種方法劣,而是視具體問(wèn)題而定。
三、結(jié)束語(yǔ)
(1)傳統(tǒng)電網(wǎng)能量流由電網(wǎng)單方向流向客戶(hù),智能配電網(wǎng)的能量流可雙向流動(dòng)。
(2)傳統(tǒng)電網(wǎng)信息流傳輸慢,信息不完整,存在較多信息孤島,智能配電網(wǎng)可以實(shí)現(xiàn)信息全面集成,高速雙向?qū)Φ韧ㄐ?,支持分布式處理?/p>
(3)傳統(tǒng)電網(wǎng)的業(yè)務(wù)流程局限于部門(mén)內(nèi)部,智能配電網(wǎng)的業(yè)務(wù)流程貫穿多個(gè)部門(mén),支持互動(dòng)業(yè)務(wù)流程,全局角度的優(yōu)化決策。因此,涵蓋電源、電網(wǎng)、用戶(hù)的全流程,貫穿電網(wǎng)規(guī)劃、設(shè)計(jì)、建設(shè)、運(yùn)行維護(hù)、技術(shù)改造、退役的全過(guò)程,最終形成電力流、信息流、業(yè)務(wù)流的高度融合和一體化,將成為智能配電網(wǎng)發(fā)展、研究、建設(shè)的重點(diǎn)。
智能配電網(wǎng)的信息化建設(shè)已經(jīng)全面開(kāi)始,但我們?nèi)匀徊荒芎雎源嬖诘膯?wèn)題。
(1)對(duì)配網(wǎng)信息化的認(rèn)識(shí)和定位不清楚,應(yīng)用主體不明確,導(dǎo)致后期的應(yīng)用具體的受益者少或不明顯。
(2)對(duì)配電信息化系統(tǒng)缺乏統(tǒng)一細(xì)致的規(guī)劃,存在“盲人摸象”的現(xiàn)象,提不出完整而準(zhǔn)確的需求。
(3)容易套用調(diào)度自動(dòng)化的建設(shè)思路,過(guò)分強(qiáng)調(diào)實(shí)時(shí)應(yīng)用,而沒(méi)有針對(duì)配電信息量大面廣的特點(diǎn),忽視了對(duì)其它系統(tǒng)的相關(guān)數(shù)據(jù)利用和整合,造成配電系統(tǒng)的信息缺口很大,模型不完整,后期的應(yīng)用無(wú)法實(shí)用化。
(4)配電自動(dòng)化涉及供電企業(yè)內(nèi)部的生產(chǎn)管理環(huán)節(jié)較多,因此存在管理體制對(duì)自動(dòng)化基于實(shí)時(shí)歷史數(shù)據(jù)庫(kù)開(kāi)展配電網(wǎng)數(shù)據(jù)挖掘的應(yīng)用與研究文/楊劭煒邱佳杰葉偉寶當(dāng)前全球能源開(kāi)發(fā)利用正呈現(xiàn)多元化、清潔化的發(fā)展趨勢(shì),我國(guó)經(jīng)濟(jì)快速發(fā)展,用電需求急速增加,而煤炭、風(fēng)能、水能、太陽(yáng)能等傳統(tǒng)與新能源資源的分布與消費(fèi)呈逆向分布,因此,國(guó)家電網(wǎng)公司在2009年5月21日,提出了建設(shè)“堅(jiān)強(qiáng)智能電網(wǎng)”的發(fā)展戰(zhàn)略,并分三個(gè)階段逐步實(shí)現(xiàn)。國(guó)家電網(wǎng)“十二五”電網(wǎng)智能規(guī)劃中明確了“電網(wǎng)發(fā)展方式的轉(zhuǎn)變”是這一期間的核心,而作為“兩個(gè)薄弱點(diǎn)”之一的“配電網(wǎng)”將是重點(diǎn)需要解決的。本文以配電網(wǎng)為切入點(diǎn),引入數(shù)據(jù)挖掘技術(shù),圍繞最能體現(xiàn)配網(wǎng)管理水平的各類(lèi)業(yè)務(wù),既提高了傳統(tǒng)配電網(wǎng)業(yè)務(wù)的執(zhí)行效率,又能發(fā)揮信息技術(shù)強(qiáng)大的智能決策優(yōu)勢(shì)。摘要系統(tǒng)的不適應(yīng),或者說(shuō)是自動(dòng)化系統(tǒng)對(duì)不同的管理體制的適應(yīng)性不強(qiáng)。造成工作職責(zé)界定不清楚,運(yùn)行管理工作跟不上,系統(tǒng)應(yīng)用和數(shù)據(jù)維護(hù)工作很薄弱。另外,根據(jù)國(guó)網(wǎng)“十二五”規(guī)劃,國(guó)家電網(wǎng)公司明確要制定實(shí)施農(nóng)電發(fā)展戰(zhàn)略,大力加強(qiáng)農(nóng)網(wǎng)建設(shè)。本項(xiàng)目正是以縣公司這樣的基層供電公司為研究對(duì)象,綜合考慮配電網(wǎng)業(yè)務(wù)的復(fù)雜性,及縣公司覆蓋城網(wǎng)和農(nóng)網(wǎng)的特點(diǎn),力圖在建立一個(gè)有效配電網(wǎng)數(shù)據(jù)挖掘與分析模型的基礎(chǔ)上,依托先進(jìn)的技術(shù)手段,提高在縣公司對(duì)智能配電網(wǎng)的認(rèn)識(shí)和管理水平,并在可能的情況下,將研究成果在浙江省范圍內(nèi)的縣級(jí)供電企業(yè)進(jìn)行推廣。
2項(xiàng)目建設(shè)目標(biāo)
實(shí)現(xiàn)對(duì)配調(diào)圖形數(shù)據(jù)的智能化管理與各業(yè)務(wù)環(huán)節(jié)的正常流轉(zhuǎn);研究無(wú)線(xiàn)數(shù)據(jù)通信節(jié)點(diǎn)的接入及組網(wǎng)管理方式,接入包括可能的3G、GPRS、WIFI、RJ45、RS485、RS232等,基于星型、樹(shù)型等網(wǎng)絡(luò)結(jié)構(gòu),管理并維護(hù)多個(gè)節(jié)點(diǎn),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理;應(yīng)用有源電子標(biāo)簽的電子標(biāo)識(shí)系統(tǒng)來(lái)定位現(xiàn)場(chǎng)配網(wǎng)設(shè)備,解決管理人員在日常巡檢和維護(hù)中,突發(fā)狀況時(shí)的準(zhǔn)確定位及地理環(huán)境變遷后的配網(wǎng)設(shè)備查找;為移動(dòng)終端上各類(lèi)信息(地理背景、電力網(wǎng)架、電力用戶(hù)信息,配網(wǎng)設(shè)備臺(tái)帳等)提供圖形化的展示和管理;實(shí)現(xiàn)以文件或接口的方式導(dǎo)入電網(wǎng)拓?fù)?、電力用?hù)信息、設(shè)備臺(tái)帳信息等。項(xiàng)目主要研究?jī)?nèi)容:
(1)工作任務(wù)生成與流轉(zhuǎn)方式的研究。提出工作任務(wù)的概念,將其作為系統(tǒng)中業(yè)務(wù)流轉(zhuǎn)的唯一單元。設(shè)計(jì)并實(shí)現(xiàn)其具體流轉(zhuǎn)方式。
(2)無(wú)線(xiàn)數(shù)據(jù)網(wǎng)絡(luò)的研究。分析以無(wú)線(xiàn)數(shù)據(jù)網(wǎng)作為整個(gè)系統(tǒng)的通訊核心的技術(shù)可行性。研究無(wú)線(xiàn)數(shù)據(jù)通信節(jié)點(diǎn)的接入及組網(wǎng)管理方式,接入包括可能的3G、GPRS、WIFI、RJ45、RS485、RS232等,基于星型、樹(shù)型等網(wǎng)絡(luò)結(jié)構(gòu),管理并維護(hù)多個(gè)節(jié)點(diǎn),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。
(3)有源電子標(biāo)簽的研究與應(yīng)用。研究使用有源電子標(biāo)簽的電子標(biāo)識(shí)系統(tǒng)來(lái)定位現(xiàn)場(chǎng)配網(wǎng)設(shè)備的技術(shù)可行性,以解決管理人員在日常巡檢和維護(hù)中,對(duì)突發(fā)狀況時(shí)的準(zhǔn)確定位及地理環(huán)境變遷后的配網(wǎng)設(shè)備查找。
(4)移動(dòng)終端上配網(wǎng)信息可視化展現(xiàn)的研究。為移動(dòng)終端上各類(lèi)信息(地理背景、電力網(wǎng)架、電力用戶(hù)信息,配網(wǎng)設(shè)備臺(tái)帳等)提供圖形化的展示和管理。
(5)與相關(guān)系統(tǒng)數(shù)據(jù)接口的研究與實(shí)現(xiàn)。研究電網(wǎng)拓?fù)洹㈦娏τ脩?hù)信息、設(shè)備臺(tái)帳信息等數(shù)據(jù)的載入方式及其技術(shù)可行性。涉及系統(tǒng)包括:GIS,PMS,營(yíng)銷(xiāo)系統(tǒng)等。
3項(xiàng)目技術(shù)方案詳情
3.1系統(tǒng)架構(gòu)
(1)總體要求及架構(gòu)。系統(tǒng)將采用面向服務(wù)架構(gòu)(SOA),遵循IEC61970標(biāo)準(zhǔn)接口和CIM數(shù)據(jù)標(biāo)準(zhǔn),集成SCADA、市公司數(shù)據(jù)交換總線(xiàn)(IEB)、電力營(yíng)銷(xiāo)、氣象網(wǎng)站、負(fù)控管理等相關(guān)系統(tǒng),采用數(shù)據(jù)倉(cāng)庫(kù)技術(shù),有效解決多源頭復(fù)雜數(shù)據(jù)的采集、海量數(shù)據(jù)之上進(jìn)行快速準(zhǔn)確科學(xué)的數(shù)據(jù)分析的難題,貼近國(guó)內(nèi)供電企業(yè)電網(wǎng)運(yùn)行工況和負(fù)荷分析預(yù)測(cè)人員及電網(wǎng)規(guī)劃人員日常工作所需的基于省公司實(shí)時(shí)歷史數(shù)據(jù)庫(kù)開(kāi)展配電網(wǎng)數(shù)據(jù)挖掘系統(tǒng)。
(2)技術(shù)路線(xiàn)。①基于IEC、CIM等標(biāo)準(zhǔn),建立資源中心,通過(guò)IEB企業(yè)總線(xiàn)接收來(lái)自PMS、ACADA、電力營(yíng)銷(xiāo)、用電采集、氣象系統(tǒng)等的多維數(shù)據(jù);②采用C/A/S三層架構(gòu),保證平臺(tái)的穩(wěn)定性和時(shí)效性;③部署上滿(mǎn)足大范圍推廣應(yīng)用;
3.2集成框架
基于省公司實(shí)時(shí)歷史數(shù)據(jù)庫(kù)開(kāi)展配電網(wǎng)數(shù)據(jù)挖掘平臺(tái)集成了SCADA、市公司數(shù)據(jù)交換總線(xiàn)(IEB)、電力營(yíng)銷(xiāo)、氣象網(wǎng)站、負(fù)控管理等相關(guān)系統(tǒng)。集成框架如圖1所示。
4硬件架構(gòu)
平臺(tái)應(yīng)用采用單獨(dú)的應(yīng)用服務(wù)器獨(dú)立部署,需要配置相應(yīng)的軟硬件環(huán)境。應(yīng)用服務(wù)器通過(guò)F5實(shí)現(xiàn)均衡負(fù)載,當(dāng)用戶(hù)增加,已有服務(wù)器性能影響用戶(hù)體驗(yàn)時(shí),通過(guò)增加應(yīng)用服務(wù)器的方式提升系統(tǒng)整體性能。
5軟件架構(gòu)
基于省公司實(shí)時(shí)歷史數(shù)據(jù)庫(kù)開(kāi)展配電網(wǎng)數(shù)據(jù)挖掘平臺(tái)將提供6大業(yè)務(wù)分析功能及3個(gè)基礎(chǔ)管理功能,共約40個(gè)分析子功能項(xiàng),滿(mǎn)足各級(jí)負(fù)荷分析預(yù)測(cè)人員的日常工作所要。
1.1領(lǐng)域本體對(duì)特定專(zhuān)業(yè)領(lǐng)域中的概念及之間關(guān)系的描述,即為領(lǐng)域本體,它是對(duì)一個(gè)應(yīng)用領(lǐng)域的描述,具體來(lái)說(shuō),分為本體知識(shí)庫(kù)和領(lǐng)域本體模式兩種成分,進(jìn)而描述特定的領(lǐng)域知識(shí)和信息,即為領(lǐng)域本體模式,此外,模式描述了應(yīng)用領(lǐng)域的知識(shí)構(gòu)成或靜態(tài)信息。而所謂的顧客價(jià)值需求領(lǐng)域本體,描述的是邏輯關(guān)系、描述的對(duì)象是顧客價(jià)值需求目標(biāo)概念機(jī)需求行為概念,明確則是指概念及約束是顯式的定義,基于其具有計(jì)算機(jī)刻度的特點(diǎn),構(gòu)成了形式化,研究目的將領(lǐng)域體原語(yǔ)定義的具體情況如下:定義一:顧客價(jià)值需求領(lǐng)域本體的概念構(gòu)成,Concerpts={Concerpts1,Concerpts2,Concerpts3},式中,顧客機(jī)制需求特性概念用Concerpts1表示,顧客的價(jià)值需求決策行為概念用Concerpts2表示,如環(huán)境約束分析、方略設(shè)計(jì)、實(shí)施等;顧客的基本特征概念則用Concerpts3表示。定義二:顧客價(jià)值需求領(lǐng)域本體形式化為三元組:ODomain={Concerpts,Relations,Instances},式中,領(lǐng)域概念的集合用Concerpts表示,領(lǐng)域概念間的關(guān)系集合用Relations表示,而ODomain為領(lǐng)域本體,本體實(shí)例的集合則用Instances表示,形成三元組。定義三:顧客價(jià)值需求領(lǐng)域本體的關(guān)系集合表示的是概念集合中各個(gè)概念之間的關(guān)系,具體數(shù)來(lái),表現(xiàn)為n維笛卡爾積的子集。關(guān)系集合中存在5種關(guān)系,有Part-of:某個(gè)概念是另一個(gè)概念的屬性。Means-end:不同需求概念之間因果解構(gòu)關(guān)系。Subclass-of:概念之間的繼承關(guān)系。Drive-adjust:不同需求概念之間因果解構(gòu)關(guān)系。Attibute-of:某個(gè)概念是另一一個(gè)概念屬性。也就是行為感知影響目標(biāo)調(diào)整,且目標(biāo)驅(qū)動(dòng)行為,二者關(guān)系密切。定義四:領(lǐng)域模式在應(yīng)用域的實(shí)例,即顧客價(jià)值需求領(lǐng)域本體的實(shí)例。如“大學(xué)生的移動(dòng)產(chǎn)品需求”本體、“政府顧客的移動(dòng)產(chǎn)品需求”本體等。
1.2任務(wù)本體對(duì)特定任務(wù)或行為求解方法的描述即為任務(wù)本體,對(duì)其的設(shè)計(jì),應(yīng)當(dāng)以顧客需求管理領(lǐng)域決策信息及問(wèn)題的需求為基礎(chǔ),有文獻(xiàn)指出,顧客吸引、識(shí)別、保持及發(fā)展,為顧客生命周期管理涉及到的4個(gè)管理主題,如表1所示,也包括了上述主題的決策分析問(wèn)題。綜合數(shù)據(jù)挖掘的任務(wù)來(lái)看,其囊括了一個(gè)或多個(gè)挖掘子任務(wù)、挖掘算法等,結(jié)合本次研究,實(shí)施了對(duì)該領(lǐng)域的任務(wù)本體原語(yǔ)定義的設(shè)計(jì),如下:OTaske=(Taskea,Inputsa,Methodsa,Outputsa)上式中,挖掘任務(wù)本體用OTaske表示;α管理主題下Taskea挖掘任務(wù)的輸出變量用Inputsa表示,如興趣參量、聚類(lèi)變量、規(guī)則前、后件變量;α管理主題下的挖掘任務(wù)用Taskea,如顧客細(xì)分以及需求特征描述等;挖掘結(jié)果輸出表達(dá)形式或格式用Outputsa表示,如聚類(lèi)中心、“類(lèi)”聚類(lèi)變量均值、“類(lèi)”樣本數(shù)等;挖掘方法用Methodsa表示,如K-means聚類(lèi)。另外,α∈(識(shí)別顧客,吸引、保留和發(fā)展顧客)共同構(gòu)成了任務(wù)本體。
2對(duì)本體下顧客需求數(shù)據(jù)挖掘過(guò)程的改進(jìn)
結(jié)合現(xiàn)實(shí)發(fā)展中的相關(guān)問(wèn)題,在本體的顧客需求數(shù)據(jù)挖掘過(guò)程的改進(jìn)方面,主要體現(xiàn)了挖掘目和任務(wù)、方法的選擇及確定及數(shù)據(jù)源轉(zhuǎn)化、約束參數(shù)的選擇等。這種方式下,對(duì)目標(biāo)的搜索范圍進(jìn)行了有效的縮小,進(jìn)而在此基礎(chǔ)上提高了挖掘質(zhì)量和效率,如圖1所示。
2.1支持管理決策的挖掘任務(wù)首先要進(jìn)行的是對(duì)數(shù)據(jù)挖掘任務(wù)和目標(biāo)的確定,基于操作中驗(yàn)證或探索可支持實(shí)際管理決策的信息結(jié)構(gòu),具有較大的價(jià)值,其知識(shí)內(nèi)容包括了規(guī)則、規(guī)律、模式及關(guān)系等,結(jié)合文中研究主題,依據(jù)顧客需求相應(yīng)決策問(wèn)題來(lái)進(jìn)行具體數(shù)據(jù)挖掘任務(wù)的設(shè)置,在對(duì)挖掘任務(wù)和目標(biāo)的完善方面,有效地結(jié)合了領(lǐng)域知識(shí)的本體模型。在對(duì)應(yīng)概念及關(guān)系語(yǔ)義匹配方面,根據(jù)該領(lǐng)域需求目標(biāo)、行為信息的本體模型來(lái)進(jìn)行,繼而確定本次數(shù)據(jù)挖掘任務(wù)。
2.2挖掘數(shù)據(jù)空間及預(yù)處理在具體的實(shí)施過(guò)程中,以數(shù)據(jù)挖掘任務(wù)和領(lǐng)域本體模型為基礎(chǔ),指導(dǎo)完成數(shù)據(jù)集成、選擇以及預(yù)處理3個(gè)環(huán)節(jié),這便是挖掘數(shù)據(jù)空間及預(yù)處理,細(xì)分有以下內(nèi)容:(1)提取、歸并處理多數(shù)據(jù)庫(kù)運(yùn)行環(huán)境中顧客數(shù)據(jù),以及遺漏和洗清臟數(shù)據(jù)等;(2)基于數(shù)據(jù)來(lái)進(jìn)行數(shù)據(jù)的選擇方面的需求,應(yīng)依據(jù)數(shù)據(jù)挖掘任務(wù)需要分析的數(shù)據(jù)來(lái)實(shí)施,進(jìn)而有效減少了不相關(guān)或冗余的屬性,也得到了符合約束的數(shù)據(jù)挖掘有限數(shù)據(jù)基,實(shí)現(xiàn)了數(shù)據(jù)挖掘搜索效率的有效提高,使得相關(guān)屬性或遺漏等現(xiàn)象得到了有效避免;(3)基于顧客“需求行為”領(lǐng)域本體的概念語(yǔ)義即為預(yù)處理,旨在檢查轉(zhuǎn)載的數(shù)據(jù),確保其合法性,并及時(shí)修正其中的錯(cuò)誤,預(yù)處理其中的異常數(shù)據(jù)。
2.3挖掘方法算法及執(zhí)行流程依據(jù)本次研究的需要,在具體的執(zhí)行過(guò)程中,設(shè)定先明確數(shù)據(jù)挖掘的任務(wù)和目的,詳細(xì)可分為驗(yàn)證性、探索性挖兩種,前者由用戶(hù)事先給定假設(shè),繼而在挖掘中發(fā)現(xiàn)蘊(yùn)含的某些規(guī)則或規(guī)律,對(duì)所做的假設(shè)進(jìn)行驗(yàn)證;其次,對(duì)操作過(guò)程中的挖掘方法和算法進(jìn)行確定,而挖掘方法和感興趣參數(shù)的設(shè)置則要根據(jù)挖掘任務(wù)來(lái)進(jìn)行,如表1所示;最后,確定挖掘結(jié)果的表達(dá)方式,一般有神經(jīng)網(wǎng)絡(luò)、樹(shù)結(jié)構(gòu)以及規(guī)則(模板)等[6]。
2.4評(píng)價(jià)挖掘結(jié)果作為整個(gè)實(shí)施過(guò)程的最后一個(gè)環(huán)節(jié),對(duì)于挖掘結(jié)果的評(píng)價(jià)和詮釋?zhuān)瑢?duì)于整個(gè)操作過(guò)程具有十分重要的意義,在具體的評(píng)價(jià)過(guò)程中,不能有違背領(lǐng)域本體知識(shí)的行為,并要及時(shí)參與領(lǐng)域本體的概念關(guān)系,且還要采取相應(yīng)的方法來(lái)提高綜合評(píng)價(jià)的有效性,如置信度、支持度以及興趣度等等,在必要的情況下,實(shí)施方應(yīng)當(dāng)反饋調(diào)整參數(shù)或約束等,繼而形成對(duì)用戶(hù)感興趣知識(shí)的重新挖掘,對(duì)其進(jìn)行完善,基于本體用嚴(yán)格的邏輯語(yǔ)言表述過(guò)程中產(chǎn)生的新知識(shí),需及時(shí)在實(shí)踐過(guò)程中的檢驗(yàn)與完善,使得整個(gè)過(guò)程具有較高的可信度,收到良好的執(zhí)行效益。
2采用可視化圖形操作分析技術(shù)
可視化分析技術(shù)能夠整合各式不同的數(shù)據(jù)來(lái)源或數(shù)據(jù)倉(cāng)儲(chǔ)系統(tǒng),利用MicrosoftSQLServerAnalysisServices構(gòu)建多維結(jié)構(gòu)數(shù)據(jù)庫(kù)(Cube),而后存取、分析商業(yè)數(shù)據(jù),通過(guò)鼠標(biāo)的拖、拉、點(diǎn)、選,操作各種維度與量值,迅速產(chǎn)生各式的分析圖表與統(tǒng)計(jì)結(jié)果??梢暬膱D形操作能為用戶(hù)迅速提供決策報(bào)表與在線(xiàn)分析處理(OLAP)等重要分析功能。運(yùn)用專(zhuān)業(yè)工具所提供的報(bào)表(Reports)、實(shí)時(shí)查詢(xún)(AD-HocQuery)、聯(lián)機(jī)分析處理(OLAP)等重要商業(yè)智能的強(qiáng)大分析功能,使醫(yī)院獲得最全面、迅速的數(shù)據(jù)洞悉能力。具體功能如下:
(1)表定制及報(bào)表的整合,在報(bào)表靈活性和報(bào)表開(kāi)發(fā)易用性等方面具有突出的優(yōu)勢(shì),其報(bào)表是通過(guò)圖形界面下的鼠標(biāo)拖拽操作來(lái)直觀的完成的,無(wú)須編寫(xiě)任何腳本或者代碼,即可實(shí)現(xiàn)復(fù)雜格式的報(bào)表。
二、數(shù)據(jù)挖掘技術(shù)在財(cái)務(wù)分析中的應(yīng)用
財(cái)務(wù)分析的主要目的是改善經(jīng)營(yíng)管理,提高企業(yè)的經(jīng)濟(jì)效益,其主要目的是保證會(huì)計(jì)信息資料的正確可靠性,以保證企業(yè)財(cái)產(chǎn)的安全性、完整性。比如某生態(tài)園林企業(yè)需要投入大量資金完善生產(chǎn)基礎(chǔ)設(shè)施,并保證現(xiàn)場(chǎng)作業(yè)的有序,如有必要還要投資于企業(yè)產(chǎn)品周邊附屬產(chǎn)業(yè)的發(fā)展,因此財(cái)務(wù)決策的重要性不言而喻,而在財(cái)務(wù)決策中應(yīng)用數(shù)據(jù)挖掘技術(shù)十分必要。財(cái)務(wù)分析中應(yīng)用數(shù)據(jù)挖掘的基本流程包括問(wèn)題識(shí)別、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)開(kāi)采及結(jié)果表達(dá)與解釋等四個(gè)步驟,圖1可將財(cái)務(wù)分析數(shù)據(jù)挖掘的過(guò)程直觀的表達(dá)出來(lái):
(一)問(wèn)題識(shí)別
典型的財(cái)務(wù)決策包括投資決策、籌資決策、成本決策、銷(xiāo)售決策等,企業(yè)要進(jìn)行財(cái)務(wù)分析前必須識(shí)別決策問(wèn)題,明確需要達(dá)到的決策目標(biāo)等,再將決策目標(biāo)轉(zhuǎn)換為數(shù)據(jù)挖掘的目標(biāo),最后進(jìn)行準(zhǔn)確的數(shù)據(jù)定義。如企業(yè)需要投資企業(yè)產(chǎn)品周邊附屬產(chǎn)業(yè),則需要利用數(shù)據(jù)挖掘技術(shù)明確以下問(wèn)題:
(1)企業(yè)經(jīng)營(yíng)中可隨時(shí)支配的資金額度,需要財(cái)務(wù)人員建立數(shù)據(jù)庫(kù)模型,將可用于投資的資金情況準(zhǔn)確、詳細(xì)的計(jì)算出來(lái);
(2)編制投資方案,即與本企業(yè)實(shí)際情況相結(jié)合,考慮具體投資計(jì)劃,并對(duì)投資方案的可操作性進(jìn)行分析,比如上述園林生態(tài)企業(yè)需要投資進(jìn)口園林機(jī)械的項(xiàng)目,就需要在投資前對(duì)該項(xiàng)目的大小做出合理評(píng)估,了解該品牌園林機(jī)械在國(guó)際市場(chǎng)的占有份額、品質(zhì)、成本及銷(xiāo)售價(jià)格等信息;
(3)投資收益分析,投資的主要目的是獲得更高收益,因此在數(shù)據(jù)挖掘過(guò)程中,問(wèn)題識(shí)別時(shí)必須做出可靠的收益預(yù)算。
(二)數(shù)據(jù)準(zhǔn)備
在完成問(wèn)題識(shí)別后,需要根據(jù)不同的需求、從相關(guān)數(shù)據(jù)庫(kù)信息中選擇適用的數(shù)據(jù)信息,即進(jìn)行數(shù)據(jù)準(zhǔn)備,該過(guò)程需要收集大量與企業(yè)財(cái)務(wù)分析相關(guān)的數(shù)據(jù)信息,以保證數(shù)據(jù)挖掘的真實(shí)性、客觀性,比如花卉市場(chǎng)分布信息、裝飾裝潢市場(chǎng)信息、園林設(shè)計(jì)與市場(chǎng)銷(xiāo)售等信息。通常情況下,數(shù)據(jù)準(zhǔn)備又可分為數(shù)據(jù)集成、數(shù)據(jù)選擇及數(shù)據(jù)預(yù)處理等三個(gè)步驟,其中數(shù)據(jù)集成是把多數(shù)據(jù)庫(kù)運(yùn)行環(huán)境中的數(shù)據(jù)進(jìn)行合并處理,去除信息噪聲,剔除虛假數(shù)據(jù);而數(shù)據(jù)選擇則是分辨需要分析的數(shù)據(jù)集合,進(jìn)一步縮小數(shù)據(jù)處理的范圍,提高數(shù)據(jù)質(zhì)量,從而保證數(shù)據(jù)挖掘的有效性;數(shù)據(jù)預(yù)處理的主要目的是解決數(shù)據(jù)挖掘工具局限性的問(wèn)題。
(三)數(shù)據(jù)挖掘
當(dāng)上述準(zhǔn)備工作完成后即可進(jìn)行深入的數(shù)據(jù)挖掘處理,挖掘過(guò)程中需要注意,必須以財(cái)務(wù)分析核心思想為指導(dǎo),明確數(shù)據(jù)挖掘的目的性,數(shù)據(jù)挖掘的主要內(nèi)容包括:選擇合適的挖掘工具、具體的挖掘操作及證實(shí)發(fā)現(xiàn)的知識(shí)等,其中選擇合適的挖掘工具至關(guān)重要,限于篇幅此處對(duì)神經(jīng)網(wǎng)絡(luò)及決策樹(shù)兩種方法進(jìn)行簡(jiǎn)單介紹。神經(jīng)網(wǎng)絡(luò)是以自學(xué)習(xí)數(shù)學(xué)模型為基礎(chǔ)的,利用該方法可以很容易的解決具有上百個(gè)參數(shù)的問(wèn)題,為高復(fù)雜度的問(wèn)題提供一種相對(duì)簡(jiǎn)單的方法;視經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí),也可以是無(wú)指導(dǎo)聚類(lèi),不過(guò)輸入神經(jīng)網(wǎng)絡(luò)中的值均為數(shù)值型的。實(shí)際應(yīng)用中通常采用該方法進(jìn)行財(cái)務(wù)預(yù)警分析。決策樹(shù)法是現(xiàn)階段應(yīng)用最廣泛的歸納推理算法之一,其提供了一種展示在何種條件下會(huì)獲得對(duì)應(yīng)值的規(guī)則的方法,是一種簡(jiǎn)單的知識(shí)表示方法,在數(shù)據(jù)挖掘過(guò)程中,決策樹(shù)法主要用于數(shù)據(jù)挖掘的分類(lèi)。
(四)結(jié)果表達(dá)
結(jié)果表達(dá)即是在處理數(shù)據(jù)庫(kù)信息的基礎(chǔ)上客觀的表達(dá)出數(shù)據(jù)挖掘的結(jié)果,以為企業(yè)財(cái)務(wù)分析提供可靠依據(jù)。可以說(shuō)結(jié)果表達(dá)是數(shù)據(jù)挖掘的成果展示,其所表達(dá)的是最有價(jià)值的信息,如結(jié)果表達(dá)所提供的信息達(dá)不到?jīng)Q策的要求,則可重復(fù)挖掘過(guò)程,直至決策者滿(mǎn)意為止。
1.2分類(lèi)。它能將數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng),映射到給定類(lèi)別中的一個(gè)。分類(lèi)[3]定義了一種從屬性到類(lèi)別的映射關(guān)系,給定樣本的屬性值,根據(jù)已知的模式將其劃分到特定的類(lèi)中。
1.3聚類(lèi)分析。聚類(lèi)是根據(jù)一定的規(guī)則,按照相似性把樣本歸成若干類(lèi)別。在對(duì)樣本合理劃分后,對(duì)不同的類(lèi)進(jìn)行描述。聚類(lèi)通常用于將客戶(hù)細(xì)分成不同的客戶(hù)群,如有相同愛(ài)好的客戶(hù)群。
1.4時(shí)間序列。按照時(shí)間的順序把隨機(jī)事件變化發(fā)展的過(guò)錯(cuò)記錄下來(lái)就構(gòu)成了一個(gè)時(shí)間序列。對(duì)時(shí)間序列進(jìn)行觀察、研究,找尋它變化發(fā)展的規(guī)律,預(yù)測(cè)它將來(lái)的走勢(shì)就是時(shí)間序列分析。
1.5孤立點(diǎn)分析。孤立點(diǎn)在數(shù)學(xué)上是指坐標(biāo)滿(mǎn)足曲線(xiàn)方程,但并不落在曲線(xiàn)上的點(diǎn)。它也可以被看作是在數(shù)據(jù)集合中與大多數(shù)數(shù)據(jù)特征不一致的數(shù)據(jù)。對(duì)孤立點(diǎn)進(jìn)行分析極有可能發(fā)現(xiàn)重要的隱藏信息。
1.6遺傳算法。它是一類(lèi)借鑒生物界的進(jìn)化規(guī)律(適者生存,優(yōu)勝劣汰遺傳機(jī)制)演化而來(lái)的隨機(jī)化搜索方法;是一個(gè)以適應(yīng)度為目標(biāo)函數(shù),對(duì)種群個(gè)體施加遺傳操作,實(shí)現(xiàn)群體結(jié)構(gòu)重組,經(jīng)迭代而達(dá)到總體優(yōu)化的過(guò)程。目前,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于煙草行業(yè)的研究逐步受到重視。歐陽(yáng)秀君,劉文在《數(shù)據(jù)挖掘技術(shù)在煙草CRM中的應(yīng)用》一文中[4],主要探討如何將數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則、聚類(lèi)、分類(lèi)方法應(yīng)用于煙草CRM中。康江峰,陳輝[5]將基于數(shù)據(jù)挖掘的技術(shù)應(yīng)用于對(duì)煙草精準(zhǔn)營(yíng)銷(xiāo)策略的研究。王辛盟[6]采用數(shù)據(jù)挖掘技術(shù),利用SPSS統(tǒng)計(jì)軟件,以某煙草配送中心的訂單數(shù)據(jù)和客戶(hù)資料數(shù)據(jù)為數(shù)據(jù)源,用聚類(lèi)的方法對(duì)客戶(hù)群進(jìn)行細(xì)分。鄭陽(yáng)洋、劉希玉[7]采用基于多層次關(guān)聯(lián)規(guī)則挖掘技術(shù),對(duì)2007年山東省內(nèi)某地級(jí)市卷煙商業(yè)企業(yè)的銷(xiāo)售數(shù)據(jù)進(jìn)行分析,得到“消費(fèi)者在購(gòu)買(mǎi)品名為紅河(軟甲)的客戶(hù)中,有57%會(huì)同時(shí)購(gòu)買(mǎi)類(lèi)名為八喜的卷煙”的規(guī)則。但以上對(duì)于煙草行業(yè)的數(shù)據(jù)挖掘研究的方法主要集中在關(guān)聯(lián)規(guī)則、聚類(lèi)分析和分類(lèi)三種方法上,在接下來(lái)的研究中,我將探討如何將更多的數(shù)據(jù)挖掘方法應(yīng)用于煙草行業(yè)的數(shù)據(jù)分析上。
2數(shù)據(jù)挖掘技術(shù)在煙草行業(yè)中的應(yīng)用
2.1聚類(lèi)分析在卷煙銷(xiāo)售中的應(yīng)用為了便于日常卷煙銷(xiāo)售及統(tǒng)計(jì),通常根據(jù)卷煙的屬性對(duì)進(jìn)卷煙行分類(lèi),常見(jiàn)的卷煙分類(lèi)方法如下:一是按照價(jià)位段劃分,5元以下、5-10元、10元以上等;二是按照利潤(rùn)貢獻(xiàn)度,分為一類(lèi)煙、二類(lèi)煙、三類(lèi)煙、四類(lèi)煙和五類(lèi)煙;三是按照卷煙品牌劃分,泰山系列、黃鶴樓系列、七匹狼系列等;四是按照產(chǎn)地劃分,魯產(chǎn)煙、滬產(chǎn)煙、外產(chǎn)煙等;五是按照焦油含量劃分,低焦油卷煙和高焦油卷煙。以上就卷煙的某一單一屬性對(duì)卷煙類(lèi)別進(jìn)行區(qū)分,極大的方便卷煙的銷(xiāo)售管理工作,然而,消費(fèi)者在選擇卷煙時(shí),往往會(huì)考慮多方面的屬性,因此單一屬性的卷煙分類(lèi)無(wú)法解釋消費(fèi)者偏好。因此需要引入基于多屬性的卷煙分類(lèi)方法,由于卷煙規(guī)格多且本身具有多重屬性,基于主觀判別分類(lèi)方法難以滿(mǎn)足分類(lèi)要求,需借助統(tǒng)計(jì)學(xué)的方法對(duì)卷煙進(jìn)行科學(xué)分類(lèi)。聚類(lèi)分析指將物理或抽象對(duì)象的集合分組成為由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)的分析過(guò)程,同一類(lèi)別的樣本表現(xiàn)出較高的相似性。因此,可將聚類(lèi)分析用于解決上述卷煙分類(lèi)問(wèn)題,根據(jù)多屬性相似程度將卷煙分成幾個(gè)類(lèi)別,消費(fèi)者在同一類(lèi)別中的香煙偏好無(wú)顯著差異,即同一類(lèi)別中的香煙具有較高的替代效應(yīng)。在實(shí)際銷(xiāo)售過(guò)程中,當(dāng)某一牌號(hào)的卷煙斷貨、緊俏時(shí),可推薦此牌號(hào)所在類(lèi)別的其它牌號(hào)的卷煙給消費(fèi)者作為有效替代。
2.2時(shí)間序列用于卷煙銷(xiāo)售趨勢(shì)預(yù)測(cè)卷煙銷(xiāo)售市場(chǎng)季節(jié)性特別顯著,主要表現(xiàn)為兩個(gè)方面:一是市場(chǎng)以節(jié)假日為節(jié)點(diǎn),節(jié)前卷煙銷(xiāo)售迅猛,節(jié)后消費(fèi)趨于平淡;二是夏季是旅游市場(chǎng)的旺盛,旅游業(yè)帶動(dòng)外來(lái)人口流動(dòng)增加,卷煙銷(xiāo)售量也隨同增加。同時(shí),卷煙市場(chǎng)也受經(jīng)濟(jì)、人口結(jié)構(gòu)等方面因素影響,使得卷煙銷(xiāo)售量存在明顯的非線(xiàn)性特征,波動(dòng)范圍比較大,傳統(tǒng)線(xiàn)性預(yù)測(cè)模型難以準(zhǔn)確預(yù)測(cè)。為了提高卷煙銷(xiāo)售預(yù)測(cè)精度,建立一個(gè)基于時(shí)間序列、能夠精確預(yù)測(cè)卷煙銷(xiāo)售量的模型已經(jīng)成為一種必然趨勢(shì)。時(shí)間序列由四個(gè)影響成分所組成,分別是長(zhǎng)期趨勢(shì)、循環(huán)變動(dòng)、季節(jié)變動(dòng)、不規(guī)則變動(dòng)。這四個(gè)影響成分與卷煙銷(xiāo)售市場(chǎng)的變動(dòng)規(guī)律相吻合。通過(guò)建立卷煙銷(xiāo)售時(shí)間序列模型,對(duì)以往銷(xiāo)售的歷史數(shù)據(jù)進(jìn)行分析,能夠有效地預(yù)測(cè)未來(lái)卷煙銷(xiāo)售市場(chǎng)的走勢(shì)和發(fā)展規(guī)律,更好地掌握卷煙市場(chǎng)的供需關(guān)系。在此基礎(chǔ)上,做好備貨工作,設(shè)立合理庫(kù)存,實(shí)現(xiàn)有效的貨源供應(yīng)。通過(guò)對(duì)區(qū)域市場(chǎng)變化趨勢(shì)的預(yù)測(cè)并結(jié)合客戶(hù)實(shí)時(shí)經(jīng)營(yíng)狀況,能夠?qū)蛻?hù)的需求總量做出相適應(yīng)的預(yù)測(cè),確保做好客戶(hù)的合理定量工作,保障不同零售客戶(hù)需求。預(yù)測(cè)結(jié)果還可為制定公平合理的貨源投放政策提供依據(jù),使得各類(lèi)貨源能夠投放至有相應(yīng)銷(xiāo)售能力的客戶(hù)手中,更好的滿(mǎn)足消費(fèi)者的需求。
2.3孤立點(diǎn)分析用于煙草專(zhuān)賣(mài)執(zhí)法數(shù)據(jù)挖掘中的孤立點(diǎn)分析方法可以通過(guò)計(jì)算數(shù)據(jù)點(diǎn)之間的距離,稠密度等來(lái)模擬用戶(hù)之間的屬性差異,由此找到那些屬性特征與正常點(diǎn)差異非常大的用戶(hù)數(shù)據(jù)點(diǎn)。人們普遍認(rèn)為孤立點(diǎn)的存在極有可能是度量或執(zhí)行錯(cuò)誤所導(dǎo)致的,因其不符合數(shù)據(jù)的一般模型,所以在研究普遍現(xiàn)象時(shí),人們總是試圖使孤立點(diǎn)的影響最小化,而盡可能排除它們。然而,孤立點(diǎn)可能隱藏著比一般的數(shù)據(jù)更有價(jià)值的信息。近些年來(lái),孤立點(diǎn)挖掘作為一個(gè)重要的研究課題,已被廣泛用于信用卡詐騙監(jiān)測(cè)、市場(chǎng)內(nèi)部交易偵測(cè)、工業(yè)設(shè)備故障探測(cè)等領(lǐng)域。在已建立的煙草分銷(xiāo)數(shù)據(jù)庫(kù)中儲(chǔ)存著大量客戶(hù)訂單信息,這些訂單信息包含多個(gè)維度,如用戶(hù)ID、商品編號(hào)、訂購(gòu)數(shù)量、需求數(shù)量、同一品牌訂貨間隔等等??衫霉铝Ⅻc(diǎn)挖掘算法對(duì)客戶(hù)訂單數(shù)據(jù)進(jìn)行分析,建立客戶(hù)評(píng)估監(jiān)測(cè)模型,找到以下“孤立點(diǎn)”:訂單金額高的,敏感牌號(hào)訂購(gòu)量大的,敏感牌號(hào)訂購(gòu)頻繁的,以往訂購(gòu)敏感牌號(hào)頻率低但最近一段時(shí)間頻繁訂購(gòu)的,按照商圈不具備高端敏感牌號(hào)銷(xiāo)路的卻頻繁訂購(gòu)等等。這類(lèi)訂單“異?!钡目蛻?hù),或者稱(chēng)為“孤立點(diǎn)”,可以被認(rèn)為是存在相當(dāng)大的“違規(guī)”可能性,我們的專(zhuān)賣(mài)執(zhí)法人員應(yīng)該對(duì)這一類(lèi)的零售戶(hù)采取進(jìn)一步的跟蹤調(diào)查。孤立點(diǎn)數(shù)據(jù)分析,勢(shì)必成為專(zhuān)賣(mài)執(zhí)法的又一利器。
2.4遺傳算法用于車(chē)輛配送線(xiàn)路優(yōu)化卷煙商業(yè)企業(yè)的銷(xiāo)售收益主要來(lái)自于訂單,銷(xiāo)售成本主要產(chǎn)生在物流配送的環(huán)節(jié)。所以,在假設(shè)銷(xiāo)售量不變的情況下,如何優(yōu)化線(xiàn)路配置,降低成本,最大化公司利潤(rùn),在當(dāng)前煙草行業(yè)面臨巨大的挑戰(zhàn)和壓力下,顯得尤為重要。因此,采用科學(xué)的、合理的方法來(lái)確定配送線(xiàn)路將是車(chē)輛優(yōu)化調(diào)度工作的重中之重,是物流系統(tǒng)優(yōu)化、物流科學(xué)化的關(guān)鍵。煙草商業(yè)企業(yè)已有的線(xiàn)路優(yōu)化系統(tǒng)中儲(chǔ)存有客戶(hù)商店位置、道路情況等信息,可以在此基礎(chǔ)上,利用遺傳算法對(duì)配送線(xiàn)路問(wèn)題進(jìn)行優(yōu)化。將一系列實(shí)際中車(chē)輛配送的約束條件,轉(zhuǎn)換成二進(jìn)制編碼(染色體)并隨機(jī)產(chǎn)生初始種群,通過(guò)模擬達(dá)爾文的遺傳選擇和自然淘汰的生物進(jìn)化過(guò)程,并借助于自然遺傳學(xué)的遺傳算子進(jìn)行組合交叉和變異,逐代演化產(chǎn)生出越來(lái)越好的近似解,末代種群中的最優(yōu)個(gè)體經(jīng)過(guò)解碼,可以作為最終問(wèn)題的近似最優(yōu)解,用以實(shí)現(xiàn)對(duì)車(chē)輛的優(yōu)化調(diào)度,即合理地進(jìn)行配貨優(yōu)化、貨物配裝優(yōu)化,特別是配送路線(xiàn)優(yōu)化。從而達(dá)到提高里程利用率,降低行駛費(fèi)用,減少車(chē)輛空駛里程,增加貨運(yùn)量,節(jié)約燃料,降低大修費(fèi)等,為企業(yè)帶來(lái)更大的經(jīng)濟(jì)效益。另外,車(chē)輛優(yōu)化調(diào)度在減少?gòu)U氣排放量,降低城市空氣污染方面也起到積極作用。
1.2模糊集理論的應(yīng)用要點(diǎn)該方法通過(guò)模糊集合與模糊推理兩種方法,其研究測(cè)試的對(duì)象是各類(lèi)不確定性因素,屬于傳統(tǒng)集合理論的創(chuàng)新。模糊集理論在設(shè)備狀態(tài)監(jiān)測(cè)和故障診斷中的應(yīng)用,主要包含了兩個(gè)方面。一方面,是在相關(guān)數(shù)據(jù)概念的形成時(shí),采用不準(zhǔn)確和較為模糊的語(yǔ)言變量,根據(jù)人們習(xí)慣,對(duì)設(shè)備狀態(tài)的變化及變量變化狀態(tài)進(jìn)行描述。具有較強(qiáng)的直觀性,且相關(guān)人員在接受該類(lèi)概念時(shí),也可以更方便的理解接受;另一方面,該方法通過(guò)提煉模糊性規(guī)則,在建模時(shí)模糊化,使得機(jī)械設(shè)備的控制、預(yù)測(cè)以及故障診斷等過(guò)程擁有更為廣闊的空間。
1.3基于實(shí)例分析的方案優(yōu)化及調(diào)整該種方法擁有較為簡(jiǎn)單的思路,在對(duì)設(shè)備未來(lái)運(yùn)行情況進(jìn)行預(yù)測(cè)時(shí),系統(tǒng)會(huì)匹配與設(shè)備目前情況相似的實(shí)際案例,并從以往的解決方法中選出最佳的解決方案,再結(jié)合設(shè)備實(shí)際情況進(jìn)行相應(yīng)調(diào)整。此類(lèi)方法的應(yīng)用范圍較廣,且得到的計(jì)算結(jié)果也相對(duì)準(zhǔn)確,但同時(shí)也具有一定缺陷,即無(wú)法全面整合以往設(shè)備數(shù)據(jù)及解決規(guī)律,缺乏充足的繼承性。該方法進(jìn)行故障診斷的基本理念是,在選紅棗解決方法的過(guò)程中,利用歷史診斷方法成功案例為奠基,進(jìn)行全面的推理工作,并采用類(lèi)比和聯(lián)想法,較為全面的對(duì)故障進(jìn)行診斷。
1.4多種數(shù)據(jù)挖掘法的聯(lián)合應(yīng)用除上述幾種數(shù)據(jù)挖掘技術(shù)外,實(shí)際工作中還涵蓋了以傳統(tǒng)數(shù)據(jù)統(tǒng)計(jì)為基礎(chǔ)的統(tǒng)計(jì)分析方法、人工神經(jīng)網(wǎng)絡(luò)元技術(shù)、等多種方法,考慮到每一種方法或多或少具有局限性,故為了有效提高各類(lèi)方法的應(yīng)用效果,可以將各類(lèi)方法進(jìn)行配合使用,代表性的算法組合類(lèi)型如表1所示。
以遺傳算法和模糊集理論的配合采用為例。由于模糊算法,主要是利用了最大隸屬原理和閥值原理,故可以按照不同故障的發(fā)生原因以及故障征兆的相互聯(lián)系,在綜合考慮的基礎(chǔ)上對(duì)機(jī)械設(shè)備故障的可能原因進(jìn)行全面分析。而該方法在運(yùn)用的過(guò)程中,會(huì)對(duì)各類(lèi)故障征兆進(jìn)行約簡(jiǎn)化從而得到較為普遍的規(guī)律,但是所得到的規(guī)律也可能存在不可靠問(wèn)題。故在實(shí)際應(yīng)用模糊集理論的同時(shí),配合采用遺傳算法,通過(guò)對(duì)模糊集理論所得到的結(jié)論及規(guī)則進(jìn)行全面優(yōu)化,使得診斷的結(jié)果更為準(zhǔn)確與高效。上述案例方法在渦輪機(jī)故障診斷過(guò)程中進(jìn)行應(yīng)用時(shí),可先建立完善的渦輪機(jī)故障集,在此基礎(chǔ)上采用模糊集理論對(duì)渦輪機(jī)故障進(jìn)行診斷,配合遺傳算法對(duì)渦輪機(jī)故障規(guī)律進(jìn)行優(yōu)化,使得最終故障診斷結(jié)果更為準(zhǔn)確。除遺傳算法與模糊集理論課進(jìn)行配合使用外,其他各類(lèi)方法也可以根據(jù)設(shè)備實(shí)際情況進(jìn)行搭配,使得最終診斷結(jié)果更為準(zhǔn)確有效。