久久无码高潮喷水抽搐,极品馒头泬19p,久久人人爽精品玩人妻av,精品国产成人国产在线视,精品视频一区二区三区在线观看

最新更新最新專題

您的位置:首頁 > ppt下載 > PPT課件 > 課件PPT > 數(shù)據(jù)挖掘ppt王燦

數(shù)據(jù)挖掘ppt王燦下載

素材大小:
102 KB
素材授權(quán):
免費(fèi)下載
素材格式:
.ppt
素材上傳:
lipeier
上傳時(shí)間:
2019-07-15
素材編號:
235903
素材類別:
課件PPT

素材預(yù)覽

數(shù)據(jù)挖掘ppt王燦

這是數(shù)據(jù)挖掘ppt王燦,包括了電子商務(wù)與數(shù)據(jù)挖掘——完美結(jié)合,電子商務(wù)為數(shù)據(jù)挖掘提供海量數(shù)據(jù),豐富的記錄信息,“干凈的數(shù)據(jù)”,投資收益容易衡量,對電子商務(wù)網(wǎng)站的Web數(shù)據(jù)挖掘,Web Usage Mining的作用,Web Usage Mining的基本過程,課后思考等內(nèi)容,歡迎點(diǎn)擊下載。

數(shù)據(jù)挖掘ppt王燦是由紅軟PPT免費(fèi)下載網(wǎng)推薦的一款課件PPT類型的PowerPoint.

電子商務(wù)與數(shù)據(jù)挖掘 基于WEB日志的用戶訪問模式挖掘 電子商務(wù)與數(shù)據(jù)挖掘——完美結(jié)合 在電子商務(wù)中進(jìn)行成功的數(shù)據(jù)挖掘得益于: 電子商務(wù)提供海量的數(shù)據(jù) 如果一個(gè)電子商務(wù)網(wǎng)站平均每個(gè)小時(shí)賣出五件物品,那么它一個(gè)月的平均點(diǎn)擊量是160萬次。 豐富的記錄信息 良好的WEB站點(diǎn)設(shè)計(jì)將有助于獲得豐富的信息 干凈的數(shù)據(jù) 從電子商務(wù)站點(diǎn)收集的都是電子數(shù)據(jù),無需人工輸入或者是從歷史系統(tǒng)進(jìn)行整合 研究成果容易轉(zhuǎn)化 在電子商務(wù)中,很多知識發(fā)現(xiàn)都可以進(jìn)行直接應(yīng)用 投資收益容易衡量 電子商務(wù)為數(shù)據(jù)挖掘提供海量數(shù)據(jù) “點(diǎn)擊流”(Clickstreams)將會產(chǎn)生電子商務(wù)挖掘的大量數(shù)據(jù) Yahoo!在2000年每天被訪問的頁面數(shù)是10億,如此大的訪問量將會產(chǎn)生巨大的Web日志(記載頁面訪問的情況),每個(gè)小時(shí)產(chǎn)生的Web日志量就達(dá)到10GB! 即便是一個(gè)小的電子商務(wù)站點(diǎn),也會在斷時(shí)間內(nèi)產(chǎn)生進(jìn)行數(shù)據(jù)挖掘所需的大量數(shù)據(jù) 計(jì)算一下,如果你的站點(diǎn)一個(gè)小時(shí)賣出5件物品,一個(gè)月會有多少頁面訪問: 5件×24小時(shí)×30天/%2(轉(zhuǎn)化率,表示訪問的人中買東西的人的比率)×9頁面(平均買一件物品要訪問9個(gè)頁面)=1,600,000頁面 豐富的記錄信息 如果你的電子商務(wù)站點(diǎn)設(shè)計(jì)的好,你將可以獲得各種商務(wù)的或者是用戶訪問的信息: 商品和商品的屬性 商品的歸類信息(當(dāng)同時(shí)展示多種商品是,歸類信息是非常有用的) 促銷信息 關(guān)于訪問的信息(比如:訪問計(jì)數(shù)) 關(guān)于客戶額信息 (可以通過登陸/注冊來獲得) “干凈的數(shù)據(jù)” 信息直接從網(wǎng)站上提取 無需從歷史系統(tǒng)中集成,避免很多錯(cuò)誤 可以通過良好的站點(diǎn)設(shè)計(jì),直接獲得跟數(shù)據(jù)挖掘有關(guān)的數(shù)據(jù) 而不是再來分析、計(jì)算、預(yù)處理要用的數(shù)據(jù) 直接收集的電子數(shù)據(jù)——可靠 無需人工數(shù)據(jù)輸入,避免了很多錯(cuò)誤 可以通過良好的站點(diǎn)設(shè)計(jì),良好的控制數(shù)據(jù)采樣的顆粒度 顆粒度控制在客戶級別或者是session級別,而不是頁面級別 有趣的“生日現(xiàn)象” 一個(gè)銀行通過對客戶數(shù)據(jù)統(tǒng)計(jì)發(fā)現(xiàn),它的5%的客戶都是在同一天出生的(同年同月同日)! 為什么? 如何解釋? 研究成果容易轉(zhuǎn)化 歷史上的數(shù)據(jù)挖掘研究有過許多的知識發(fā)現(xiàn),但是這些知識發(fā)現(xiàn)卻很少在實(shí)際的商業(yè)應(yīng)用中產(chǎn)生什么效果 要應(yīng)用這些發(fā)現(xiàn)的知識可能意味著要進(jìn)行復(fù)雜的系統(tǒng)更改、流程更改或是改變?nèi)藗兊霓k事習(xí)慣,這在現(xiàn)實(shí)中是非常困難的。 在電子商務(wù)中,很多知識發(fā)現(xiàn)都可以進(jìn)行直接應(yīng)用 改變站點(diǎn)的設(shè)計(jì)(改變布局,進(jìn)行個(gè)性化設(shè)計(jì)等) 開始有目標(biāo)的促銷 根據(jù)對廣告效果的統(tǒng)計(jì)數(shù)據(jù)改變廣告策略 可以很容易的提供捆綁銷售 投資收益容易衡量 使用數(shù)據(jù)挖掘成果的革新帶來的收益如何衡量? 在傳統(tǒng)的商業(yè)中衡量投資收益需要長期的測量和觀察,Paco Underhill在《購物的科學(xué)》一書中提及,一個(gè)超市為了衡量他們的促銷策略帶來的投資收益,每年要花14,000個(gè)小時(shí)查看錄像帶。 在電子商務(wù)中,衡量革新的投資收益是非常容易的 銷售變化的報(bào)表可以自動產(chǎn)生 客戶對電子郵件和電子調(diào)查的反饋都可以在幾天內(nèi)得到,而不必等個(gè)幾個(gè)月 電子商務(wù)乃至整個(gè)互聯(lián)網(wǎng)都是傳統(tǒng)商業(yè)的理想試驗(yàn)室。 對電子商務(wù)網(wǎng)站的Web數(shù)據(jù)挖掘 通常在一個(gè)電子商務(wù)網(wǎng)站上應(yīng)用的數(shù)據(jù)挖掘技術(shù)是Web數(shù)據(jù)挖掘。 我們可以在一個(gè)電子商務(wù)網(wǎng)站挖掘些什么東西? 內(nèi)容挖掘 (Web Content Mining) 結(jié)構(gòu)挖掘 (Web Structure Mining) 使用挖掘 (Web Usage Mining) Web Content Mining 對Web頁面內(nèi)容進(jìn)行挖掘,從Web數(shù)據(jù)中發(fā)現(xiàn)信息。 自動地從數(shù)以百萬計(jì)的Web站點(diǎn)和在線數(shù)據(jù)庫中搜索和獲取信息和資料; 盡管人們可以直接從網(wǎng)上通過抓取建立索引,實(shí)現(xiàn)檢索服務(wù)來獲得資源,但是大量的“隱藏”信息只能通過內(nèi)容挖掘來自動挖掘。 Web Structure Mining Web Structure Mining是對Web頁面之間的結(jié)構(gòu)進(jìn)行挖掘。 在整個(gè)Web空間,有用的知識不僅包含在頁面的內(nèi)容中,而且也包含在頁面的結(jié)構(gòu)中。 Web結(jié)構(gòu)挖掘主要針對的就是頁面的超鏈接結(jié)構(gòu),如果有較多的超鏈接指向它,那么該頁面就是重要的,發(fā)現(xiàn)的這種知識可用來改進(jìn)搜索路徑等。 Web Usage Mining 與Web Content Mining和Web Structure Mining不同的是,Web Usage Mining的挖掘?qū)ο笫怯脩艉途W(wǎng)絡(luò)交互過程中抽取出來的二手?jǐn)?shù)據(jù),這些數(shù)據(jù)主要是用戶在訪問Web時(shí)在Web日志里留下的信息,以及其它一些交互信息, 日志信息包括訪問日期、時(shí)間、用戶IP地址、服務(wù)器IP地址、方法、所請求URL資源、服務(wù)器響應(yīng)狀態(tài)、用戶代理、發(fā)送字節(jié)等。 Web Usage Mining就是對系統(tǒng)日志信息,以及用戶的注冊數(shù)據(jù)等進(jìn)行挖掘,以發(fā)現(xiàn)有用的模式和知識。 Web Usage Mining的作用 通過對電子商務(wù)網(wǎng)站應(yīng)用Web Usage Mining數(shù)據(jù)挖掘技術(shù),可以 提高站點(diǎn)的質(zhì)量 改善WEB緩存,緩解網(wǎng)絡(luò)交通,提高性能 在電子商務(wù)中還可捕捉到大量的采購過程的細(xì)節(jié),為更加深入的分析提供了可能 Web日志 (1) 典型的日志文件片斷 uplherc.upl.com - - [01/Aug/1995:00:01:38 -0400] "GET/shuttle/missions/sts-71/images/images.html HTTP/1.0" 200 8529 133.43.96.45 - - [01/Aug/1995:00:01:39 -0400] "GET/shuttle/missions/sts-72/mission-sts-72.html HTTP/1.0" 200 3804 133.68.18.180 - - [01/Aug/1995:00:01:48 -0400] "GET /persons/nasa-cm/jmd.html HTTP/1.0" 200 4067 Web日志 (2) 第三項(xiàng):記錄瀏覽者進(jìn)行身份驗(yàn)證時(shí)提供的名字;對于不需要用戶身份驗(yàn)證的網(wǎng)站,這個(gè)字段都是空白-; 第四項(xiàng):請求的時(shí)間; 第五項(xiàng):告訴我們服務(wù)器收到的是一個(gè)什么樣的請求。該項(xiàng)信息的典型格式是“METHOD RESOURCE PROTOCOL”,即“方法 資源 協(xié)議”;這是Web日志中最有用的信息,在上面的示例中 METHOD是GET RESOURCE是指瀏覽者向服務(wù)器請求的文檔,或URL PROTOCOL通常是HTTP,后面再加上版本號。 Web日志 (3) 第六項(xiàng):狀態(tài)代碼。它告訴我們請求是否成功,或者遇到了什么樣的錯(cuò)誤。大多數(shù)時(shí)候,這項(xiàng)值是200,它表示服務(wù)器已經(jīng)成功地響應(yīng)瀏覽器的請求,一切正常。 第七項(xiàng):發(fā)送給客戶端的總字節(jié)數(shù)。 Web Usage Mining的基本過程 進(jìn)行Web Usage Mining主要是通過對系統(tǒng)日志信息的數(shù)據(jù)挖掘 Web 服務(wù)器日志 Error Logs Cookies Web Usage Mining的基本實(shí)現(xiàn)過程 預(yù)處理 模式發(fā)現(xiàn) 模式分析 預(yù)處理 通過預(yù)處理,使挖掘過程更有效、更容易 數(shù)據(jù)清洗 其目的在于把日志文件中一些與數(shù)據(jù)分析、挖掘無關(guān)的項(xiàng)清除掉; 比如:剔除用戶請求方法中不是GET的記錄; 用戶識別 日志文件只是記錄了主機(jī)或代理服務(wù)器的IP地址,要識別用戶,需要Cookie技術(shù)和用一些啟發(fā)規(guī)則來幫助識別; 路徑補(bǔ)充 確認(rèn)Web日志中是否有重要的頁面訪問記錄被遺漏; 事件識別 事件識別是與要挖掘什么樣的知識有關(guān),將用戶會話針對挖掘活動的特定需要進(jìn)行事件定義。 模式發(fā)現(xiàn) 在經(jīng)過預(yù)處理后的數(shù)據(jù)上應(yīng)用各種數(shù)據(jù)挖掘的功能和算法,挖掘出有用的模式和規(guī)則的過程。 Web Usage Mining中用到的Web日志分析及用戶行為模式的挖掘方法包括: 關(guān)聯(lián)分析 分類和預(yù)測 聚類分析 序列模式 統(tǒng)計(jì)分析 Web Usage Mining——關(guān)聯(lián)分析(1) 通過分析用戶訪問網(wǎng)頁間的潛在聯(lián)系而歸納出的一種規(guī)則; 如80%的用戶訪問Web頁面/company/product1時(shí),也訪問了/company/product 2; 常用算法 Apriori算法或其變形算法,頻繁模式樹(FP-樹)算法等等,挖掘出訪問頁面中頻繁的在一起被訪問的頁面集 比如可以通過 Web Usage Mining——關(guān)聯(lián)分析(2) 可以使用通過關(guān)聯(lián)分析挖掘出來的頻繁項(xiàng)集(頁面集)來 預(yù)取可能請求的頁面,以減少等待時(shí)間, 對于頻繁項(xiàng)集(頁面集){A,B},在用戶訪問A時(shí),將頁面B調(diào)入緩存中,從而改善Web緩存,緩解網(wǎng)絡(luò)交通,提高性能 促進(jìn)網(wǎng)上商務(wù) 對于頻繁項(xiàng)集{A,B},如果分別代表兩個(gè)產(chǎn)品的頁面,則說明這兩個(gè)產(chǎn)品間存在相關(guān)性,可以利用這點(diǎn)在電子商務(wù)的實(shí)踐中給出更有效的促銷策略或廣告策略 Web Usage Mining——分類和預(yù)測 分類和預(yù)測功能可以用來提取描述重要數(shù)據(jù)類的模型,并使用模型預(yù)測來判定未知數(shù)據(jù)的類標(biāo)號,從而預(yù)測未來的數(shù)據(jù)趨勢。 常用算法:判定歸納樹、貝葉斯分類、k-最近鄰分類等 應(yīng)用:可以根據(jù)用戶的個(gè)人資料或者其特定的訪問模式,將其歸入某一特定的類 可以根據(jù)用戶對某類產(chǎn)品的訪問情況,或者時(shí)根據(jù)其購物情況,或者根據(jù)其拋棄購物車的情況,來決定用戶的分類(e.g. 對電子產(chǎn)品感興趣的用戶),并對相應(yīng)的分類使用相應(yīng)的促銷策略。 Web Usage Mining——聚類分析(1) 聚類:將對象的集合分組成為由類似的對象組成的多個(gè)類的過程。(與分類的區(qū)別?) 常用聚類算法:劃分方法、層次的方法、基于密度的方法等等。 在Web Usage Mining應(yīng)用中包含著兩種聚類。 頁聚類 將內(nèi)容相關(guān)的頁面歸在一個(gè)網(wǎng)頁組,對網(wǎng)上搜索引擎及提供上網(wǎng)幫助很有用 用戶聚類 將具有相似訪問特性的用戶歸在一起,在電子商務(wù)的市場分割和為用戶提供個(gè)性化服務(wù)中,能發(fā)揮巨大作用 Web Usage Mining——聚類分析(2) 聚類分析可以喜好類似的用戶,從而動態(tài)地為用戶定制觀看的內(nèi)容或提供瀏覽建議。 比如:購買推薦系統(tǒng)或動態(tài)促銷系統(tǒng) 作用: 1)方便用戶查詢和瀏覽 2)增強(qiáng)廣告的作用 3)促進(jìn)網(wǎng)上銷售 4)提高用戶忠誠度 Web Usage Mining——統(tǒng)計(jì)分析(1) 統(tǒng)計(jì)分析 通過求出現(xiàn)率、求平均、求中值等,統(tǒng)計(jì)最常訪問的網(wǎng)頁,每頁平均訪問的時(shí)間,瀏覽路徑的平均長度等,以獲得用戶訪問站點(diǎn)的基本信息。 還能提供有限的低層次的錯(cuò)誤分析,比如檢測未授權(quán)入口點(diǎn),找出最常見不變的URL等。 可以用來計(jì)算客戶對某頁面的訪問次數(shù),停留時(shí)間等,得到訪問次數(shù)最多的頁面(或產(chǎn)品、URL等) Web Usage Mining——統(tǒng)計(jì)分析(1) 常用的電子商務(wù)網(wǎng)站用戶訪問數(shù)據(jù)統(tǒng)計(jì)(節(jié)選) 平均一個(gè)用戶 訪問8-10個(gè)頁面 在站點(diǎn)上花5分鐘 每個(gè)頁面上花35秒 平均一個(gè)購物的用戶 訪問50個(gè)頁面 在站點(diǎn)上花30分鐘 這是經(jīng)過大量的數(shù)據(jù)統(tǒng)計(jì)得出的結(jié)果,具有高度一致性。 Web Usage Mining——序列模式 序列模式試圖找出頁面依照時(shí)間順序出現(xiàn)的內(nèi)在模式 序列模式可以用來做用戶的瀏覽趨勢分析,即一組數(shù)據(jù)項(xiàng)之后出現(xiàn)另一組數(shù)據(jù)項(xiàng),從而形成一組按時(shí)間排序的會話,以預(yù)測未來的訪問模式,這將有助于針對特別用戶群安排特定內(nèi)容。 趨勢分析 訪問模式的相似性分析 模式分析 在挖掘出一系列用戶訪問模式和規(guī)則后,還需要進(jìn)一步觀察發(fā)現(xiàn)的規(guī)則、模式和統(tǒng)計(jì)值。 確定下一步怎么辦?是發(fā)布模型?還是對數(shù)據(jù)挖掘過程進(jìn)行進(jìn)一步的調(diào)整,產(chǎn)生新的模型。 經(jīng)過模式分析得到有價(jià)值的模式,即我們感興趣的規(guī)則、模式,采用可視化技術(shù),以圖形界面的方式提供給使用者。 課后思考 除了用戶訪問模式,電子商務(wù)中還能挖掘其他什么東西? 基于Web日志的用戶訪問模式挖掘有什么缺點(diǎn)?BFn紅軟基地

數(shù)據(jù)結(jié)構(gòu)查找ppt:這是數(shù)據(jù)結(jié)構(gòu)查找ppt,包括了基本概念與術(shù)語,靜態(tài)查找表,動態(tài)查找表,哈希表查找,小結(jié)與習(xí)題等內(nèi)容,歡迎點(diǎn)擊下載。

數(shù)據(jù)結(jié)構(gòu)ppt最短路徑:這是數(shù)據(jù)結(jié)構(gòu)ppt最短路徑,包括了最短路徑的定義,Dijkstra算法,F(xiàn)loyd算法,F(xiàn)loyd算法——C++描述等內(nèi)容,歡迎點(diǎn)擊下載。

數(shù)據(jù)庫答辯ppt:這是數(shù)據(jù)庫答辯ppt,包括了數(shù)據(jù)庫用戶管理和安全設(shè)置,數(shù)據(jù)庫日志、作業(yè)與警報(bào)管理,復(fù)雜數(shù)據(jù)庫備份和數(shù)據(jù)庫維護(hù),收獲與體會等內(nèi)容,歡迎點(diǎn)擊下載。

PPT分類Classification

Copyright:2009-2024 紅軟網(wǎng) rsdown.cn 聯(lián)系郵箱:rsdown@163.com

湘ICP備2024053236號-1