畢業(yè)論文題目:數(shù)據(jù)挖掘在工商管理中的運(yùn)用
網(wǎng)絡(luò)經(jīng)濟(jì)的關(guān)鍵在于能夠?yàn)樯唐返墓⿷?yīng)商及其合作者之間提供一個(gè)交流的平臺(tái),但是即便是最權(quán)威的搜索引擎也只能夠搜索到三分之一的web網(wǎng)頁(yè),并且這些Web都是沒(méi)有結(jié)構(gòu)的、動(dòng)態(tài)的、復(fù)雜的形式出現(xiàn)。人們要從各種各樣的文本網(wǎng)站中尋找自己想要的信息進(jìn)而變得更加困難。網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)就是用來(lái)解決這一問(wèn)題的好辦法,利用數(shù)據(jù)挖掘技術(shù)能夠有效發(fā)現(xiàn)在web網(wǎng)頁(yè)中隱藏著的對(duì)用戶(hù)有力的數(shù)據(jù)信息,在對(duì)數(shù)據(jù)的分析中總結(jié)出規(guī)律。如何實(shí)現(xiàn)用戶(hù)對(duì)于Web上的有效數(shù)據(jù)的深度挖掘,使其成為工商管理領(lǐng)域中的重要應(yīng)用,成為了當(dāng)代許多網(wǎng)絡(luò)工作者所關(guān)注的話題。
一、數(shù)據(jù)挖掘概述
(一)數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(DataMining)指的是,在大量的、不規(guī)則的、隨機(jī)的、復(fù)雜的、有噪聲的實(shí)際應(yīng)用數(shù)據(jù)中,獲得一些信息和知識(shí),能夠?qū)τ脩?hù)祈禱潛在作用的效果的過(guò)程。將數(shù)據(jù)挖掘用通俗的話來(lái)描述就是在數(shù)據(jù)庫(kù)中發(fā)現(xiàn)潛在有用的知識(shí)發(fā)現(xiàn)(KDDKnowledgeDiscoveryinDatabase)。在這個(gè)定義中主要包含了以下幾方面的含義:首先數(shù)據(jù)源的特性是大量、隨機(jī)、不規(guī)則、噪聲;信息是客戶(hù)所感興趣的對(duì)象;選取的知識(shí)必須是在可接受、可理解、可運(yùn)用的范圍內(nèi)的,并不是全部符合要求的都可以,對(duì)于問(wèn)題要有一定的針對(duì)性。也就是說(shuō)對(duì)于所發(fā)現(xiàn)的知識(shí)的篩選是有一定的約束和限制條件的,同時(shí)也要符合用戶(hù)的理解和學(xué)習(xí)能力,最好還能夠用通俗的語(yǔ)言來(lái)表達(dá)最終的結(jié)果。
(二)Web數(shù)據(jù)挖掘
Web數(shù)據(jù)挖掘?qū)嶋H上是屬于數(shù)據(jù)挖掘的范疇的。概括的來(lái)說(shuō),Web數(shù)據(jù)挖掘的數(shù)據(jù)庫(kù)特定的就是Web服務(wù)器上的數(shù)據(jù)文件,從中發(fā)現(xiàn)用戶(hù)感興趣并有所應(yīng)用潛能的知識(shí)。Web數(shù)據(jù)挖掘主要針對(duì)的就是頁(yè)面內(nèi)容、頁(yè)面之間的結(jié)構(gòu)、用戶(hù)訪問(wèn)信息、電子商務(wù)等內(nèi)在信息,通過(guò)數(shù)據(jù)挖掘技術(shù)來(lái)獲得有價(jià)值的信息。Web數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)庫(kù)存在著很大的差異,傳統(tǒng)的數(shù)據(jù)庫(kù)都是在一定的數(shù)學(xué)模型范圍之內(nèi)的,通過(guò)模型來(lái)描述其中的數(shù)據(jù);但是web數(shù)據(jù)庫(kù)相對(duì)來(lái)講就要復(fù)雜許多,沒(méi)有通用的模型來(lái)描述數(shù)據(jù),每個(gè)網(wǎng)頁(yè)都有其獨(dú)特的數(shù)據(jù)描述方式,丙炔數(shù)據(jù)自身都是可變的、動(dòng)態(tài)的。因而,Web數(shù)據(jù)雖然具有一定的結(jié)構(gòu)性,不能用架構(gòu)化的形式來(lái)表達(dá),也可以稱(chēng)其為半結(jié)構(gòu)化的數(shù)據(jù)。Web數(shù)據(jù)的最大特點(diǎn)就是半結(jié)構(gòu)化,加上Web數(shù)據(jù)的信息量極大,導(dǎo)致整一個(gè)數(shù)據(jù)庫(kù)成為一個(gè)巨大的異構(gòu)數(shù)據(jù)庫(kù)。
二、網(wǎng)絡(luò)數(shù)據(jù)挖掘的類(lèi)型
(一)網(wǎng)絡(luò)內(nèi)容挖掘
網(wǎng)絡(luò)內(nèi)容挖掘的對(duì)象是網(wǎng)頁(yè)的內(nèi)容、數(shù)據(jù)、文檔,這通常也是網(wǎng)頁(yè)在急性搜索的時(shí)候需要考察的訪問(wèn)對(duì)象。由于網(wǎng)絡(luò)信息繁多,按照信息源的不同可以劃分為Gopher、FTP、Usenet等已經(jīng)隱藏到WWW形式之后的資源,我們稱(chēng)之為WWW信息資源,存儲(chǔ)于數(shù)據(jù)庫(kù)管理信息系統(tǒng)中的數(shù)據(jù),以及不能直接訪問(wèn)的私人數(shù)據(jù)。按照網(wǎng)絡(luò)資源的形式又可以劃分為文本、圖像、音頻、視頻等數(shù)據(jù)。
(二)網(wǎng)絡(luò)結(jié)構(gòu)挖掘
網(wǎng)絡(luò)結(jié)構(gòu)挖掘的對(duì)象就是Web潛在的鏈接結(jié)構(gòu)模式。這種類(lèi)型最早出現(xiàn)在引文分析,在建立web自身的鏈接結(jié)構(gòu)模型的時(shí)候借鑒了網(wǎng)頁(yè)鏈接和被鏈接數(shù)量以及對(duì)象。在網(wǎng)頁(yè)歸類(lèi)的時(shí)候往往會(huì)采用這種模式,還能夠得到不同網(wǎng)頁(yè)間相似度及關(guān)聯(lián)度的相關(guān)數(shù)據(jù)。網(wǎng)絡(luò)結(jié)構(gòu)挖掘能夠幫助用戶(hù)在相關(guān)領(lǐng)域中找到最有分量的網(wǎng)站。
(三)網(wǎng)絡(luò)用法挖掘
網(wǎng)絡(luò)用法挖掘的目的在于掌握用戶(hù)的一系列網(wǎng)絡(luò)行為數(shù)據(jù)。網(wǎng)絡(luò)內(nèi)容挖掘、網(wǎng)絡(luò)結(jié)構(gòu)挖掘針對(duì)的都是網(wǎng)上的原始數(shù)據(jù),而網(wǎng)絡(luò)用法挖掘針對(duì)的是用戶(hù)在上網(wǎng)過(guò)程中的人機(jī)交互的第二手?jǐn)?shù)據(jù),主要有用戶(hù)的網(wǎng)頁(yè)游覽記錄、代理服務(wù)器日志記錄、網(wǎng)頁(yè)維護(hù)信息、用戶(hù)簡(jiǎn)介、注冊(cè)信息、聊天記錄、交易信息等等。
三、網(wǎng)絡(luò)經(jīng)濟(jì)環(huán)境下數(shù)據(jù)挖掘在工商管理中的運(yùn)用步驟
(一)識(shí)別網(wǎng)站訪問(wèn)者的特征信息
企業(yè)對(duì)電子商務(wù)網(wǎng)站的數(shù)據(jù)進(jìn)行挖掘的第一步,就是要明確訪問(wèn)者的特點(diǎn),找出訪問(wèn)者使用的條款特征。訪問(wèn)者特征主要有入口統(tǒng)計(jì)、心理狀態(tài)和技術(shù)手段等要素。人口統(tǒng)計(jì)并不是一成不變的,比如家庭地址、收入、購(gòu)買(mǎi)力等因素都會(huì)不斷改變。心理狀態(tài)指的是在心理調(diào)研中展現(xiàn)出的個(gè)性類(lèi)型,比如對(duì)商品的選擇去世、價(jià)格優(yōu)惠心理、技術(shù)興趣等。隨著訪問(wèn)者數(shù)量的增加,相關(guān)數(shù)據(jù)也會(huì)不斷累積。條款的交互信息主要包括購(gòu)買(mǎi)歷史、廣告歷史和優(yōu)選信息。網(wǎng)站統(tǒng)計(jì)信息是指每次會(huì)話的相關(guān)要素。公司信息主要包括訪問(wèn)者對(duì)接的服務(wù)器所包含的一系列要素信息。
(二)制定目標(biāo)
開(kāi)展網(wǎng)上交易的最大優(yōu)勢(shì)在于企業(yè)對(duì)于訪問(wèn)者的反應(yīng)有著更好的前瞻性。當(dāng)廠商的目標(biāo)是明確且具象的時(shí)候,就能夠通過(guò)數(shù)據(jù)挖掘技術(shù)得到較好的效果。企業(yè)通?梢栽O(shè)定以下的目標(biāo):網(wǎng)頁(yè)訪問(wèn)者的增加量;類(lèi)此網(wǎng)頁(yè)訪問(wèn)的瀏覽時(shí)間增加;每次結(jié)賬的平均利潤(rùn);退換貨的減少;品牌知名度效應(yīng);回頭客的數(shù)量等等。
(三)問(wèn)題描述
開(kāi)展電子商務(wù)的企業(yè)最關(guān)鍵要面對(duì)的一個(gè)問(wèn)題就是如何進(jìn)行商品的傳播,要實(shí)現(xiàn)網(wǎng)頁(yè)的個(gè)性化又要將商品的信息完整的展現(xiàn)給顧客,就需要了解同一類(lèi)訪問(wèn)者的共有特征、估計(jì)貨物丟失的數(shù)據(jù)并預(yù)測(cè)未來(lái)行為。所有這一切都涉及尋找并支持各種不同的隱含模式。
(四)關(guān)聯(lián)分析
對(duì)顧客大量的交易數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,能夠發(fā)現(xiàn)顧客購(gòu)買(mǎi)組合商品的趨勢(shì)。關(guān)聯(lián)分析指的是在一次瀏覽或者會(huì)話中所涉及到的商品,也叫做市場(chǎng)分析。若電子商務(wù)網(wǎng)站能夠?qū)⑦@些商品放在同一個(gè)網(wǎng)頁(yè)中,就能夠提高顧客同時(shí)購(gòu)買(mǎi)這些商品的概率。如果在關(guān)聯(lián)的一組商品中有某一項(xiàng)商品正在進(jìn)行促銷(xiāo),就能夠帶動(dòng)其他組合產(chǎn)品的銷(xiāo)量。關(guān)聯(lián)也能夠用在靜態(tài)的網(wǎng)站目錄網(wǎng)頁(yè)。在這種情況下,網(wǎng)站排序的主要依據(jù)是廠商選擇的且是網(wǎng)站所要查看的第一頁(yè)內(nèi)容,將其以及其相關(guān)的商品信息放在網(wǎng)頁(yè)的首頁(yè)。
(五)聚類(lèi)
聚類(lèi)指的是將具有相同特征的商品歸為一類(lèi),將特征平均,以形成一個(gè)“特征矢量”。聚類(lèi)技術(shù)能夠確定一組數(shù)據(jù)有多少類(lèi),并用其中一個(gè)聚類(lèi)來(lái)表示其余大多數(shù)數(shù)據(jù)。通常在企業(yè)分析訪問(wèn)者類(lèi)型的時(shí)候使用聚類(lèi)技術(shù)。
(六)決策樹(shù)
決策樹(shù)描繪的是都想決定在做出的一系列過(guò)程中的問(wèn)題或數(shù)據(jù)點(diǎn)。比如做出購(gòu)買(mǎi)電視機(jī)這一決定就要經(jīng)歷對(duì)于電視機(jī)的需求、電視機(jī)的品牌、尺寸等等問(wèn)題,最終確定好買(mǎi)哪一臺(tái)電視機(jī)為止。決策樹(shù)能夠較一個(gè)決策過(guò)程進(jìn)行系統(tǒng)的排序,以便選出最優(yōu)的路徑來(lái)盡可能減少?zèng)Q策的步驟,提高決定的質(zhì)量和速度。許多企業(yè)將決策樹(shù)體系添加到自己的產(chǎn)品選擇系統(tǒng)中,能夠幫助訪問(wèn)者解決特定問(wèn)題。
(七)估計(jì)和預(yù)測(cè)
估計(jì)是對(duì)未知量的判斷,預(yù)測(cè)是根據(jù)當(dāng)前的趨勢(shì)做出將來(lái)的判斷。估計(jì)和預(yù)測(cè)使用的算法類(lèi)似。估計(jì)能夠?qū)蛻?hù)空白的項(xiàng)目做到預(yù)判。如果網(wǎng)站想知道某個(gè)訪問(wèn)者的收入,就可以通過(guò)與收入密切相關(guān)的量估計(jì)得到,最后通過(guò)與其有相同特征的訪問(wèn)者的收入來(lái)衡量這個(gè)訪問(wèn)者的收入和信用值。預(yù)測(cè)是對(duì)未來(lái)事項(xiàng)的判斷。尤其是在某些個(gè)性化網(wǎng)頁(yè)中顯得尤為重要。企業(yè)通過(guò)數(shù)據(jù)的匯總增進(jìn)對(duì)客戶(hù)的了解。即使是對(duì)以往事件的分析中也可以得到有效的信息。預(yù)測(cè)能夠?qū)υL問(wèn)者的特征作出總結(jié)和匯總,以便企業(yè)能夠找出更有針對(duì)性的組合商品來(lái)滿(mǎn)足客戶(hù)的需求。Web數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)庫(kù)存在著很大的差異,最大特點(diǎn)就是半結(jié)構(gòu)化,加上Web數(shù)據(jù)的信息量極大,導(dǎo)致整一個(gè)數(shù)據(jù)庫(kù)成為一個(gè)巨大的異構(gòu)數(shù)據(jù)庫(kù)。能夠幫助用戶(hù)在特性是大量、隨機(jī)、不規(guī)則、噪聲的信息中發(fā)現(xiàn)感興趣的對(duì)象。