-
- 素材大。
- 2.4 MB
- 素材授權(quán):
- 免費(fèi)下載
- 素材格式:
- .ppt
- 素材上傳:
- ppt
- 上傳時(shí)間:
- 2018-05-15
- 素材編號:
- 186556
- 素材類別:
- 公司管理PPT
-
素材預(yù)覽
這是一個關(guān)于數(shù)據(jù)挖掘技術(shù)PPT,包括了數(shù)據(jù)挖掘概述,數(shù)據(jù)預(yù)處理,數(shù)據(jù)挖掘算法-分類與預(yù)測,數(shù)據(jù)挖掘算法-聚類,數(shù)據(jù)挖掘算法-關(guān)聯(lián)分析,序列模式挖掘,數(shù)據(jù)挖掘軟件,數(shù)據(jù)挖掘應(yīng)用等內(nèi)容,自動化前沿第四講 數(shù)據(jù)挖掘技術(shù)及其應(yīng)用 宋執(zhí)環(huán)浙江大學(xué)工業(yè)控制研究所 主要內(nèi)容 數(shù)據(jù)挖掘概述數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘算法-分類與預(yù)測數(shù)據(jù)挖掘算法-聚類數(shù)據(jù)挖掘算法-關(guān)聯(lián)分析序列模式挖掘數(shù)據(jù)挖掘軟件數(shù)據(jù)挖掘應(yīng)用一、數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘--從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),是統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的綜合。數(shù)據(jù)挖掘是從數(shù)據(jù)中自動地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu);數(shù)據(jù)挖掘大部分的價(jià)值在于利用數(shù)據(jù)挖掘技術(shù)改善預(yù)測模型。 數(shù)據(jù)挖掘與KDD 知識發(fā)現(xiàn)(KD)輸出的是規(guī)則 數(shù)據(jù)挖掘(DM)輸出的是模型 共同點(diǎn)兩種方法輸入的都是學(xué)習(xí)集(learning sets) 目的都是盡可能多的自動化數(shù)據(jù)挖掘過程 數(shù)據(jù)挖掘過程并不能完全自動化,只能半自動化 異常檢測異常檢測是數(shù)據(jù)挖掘中一個重要方面,用來發(fā)現(xiàn)”小的模式”(相對于聚類),即數(shù)據(jù)集中間顯著不同于其它數(shù)據(jù)的對象。異常探測應(yīng)用電信和信用卡欺騙貸款審批藥物研究氣象預(yù)報(bào)金融領(lǐng)域客戶分類網(wǎng)絡(luò)入侵檢測故障檢測與診斷等 什么是異常(outlier)?Hawkins(1980)給出了異常的本質(zhì)性的定義:異常是在數(shù)據(jù)集中與眾不同的數(shù)據(jù),使人懷疑這些數(shù)據(jù)并非隨機(jī)偏差,而是產(chǎn)生于完全不同的機(jī)制。聚類算法對異常的定義:異常是聚類嵌于其中的背景噪聲。異常檢測算法對異常的定義:異常是既不屬于聚類也不屬于背景噪聲的點(diǎn),歡迎點(diǎn)擊下載數(shù)據(jù)挖掘技術(shù)PPT哦。
數(shù)據(jù)挖掘技術(shù)PPT是由紅軟PPT免費(fèi)下載網(wǎng)推薦的一款公司管理PPT類型的PowerPoint.
自動化前沿第四講 數(shù)據(jù)挖掘技術(shù)及其應(yīng)用 宋執(zhí)環(huán)浙江大學(xué)工業(yè)控制研究所 主要內(nèi)容 數(shù)據(jù)挖掘概述數(shù)據(jù)預(yù)處理數(shù)據(jù)挖掘算法-分類與預(yù)測數(shù)據(jù)挖掘算法-聚類數(shù)據(jù)挖掘算法-關(guān)聯(lián)分析序列模式挖掘數(shù)據(jù)挖掘軟件數(shù)據(jù)挖掘應(yīng)用一、數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘概念數(shù)據(jù)挖掘--從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),是統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的綜合。數(shù)據(jù)挖掘是從數(shù)據(jù)中自動地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu);數(shù)據(jù)挖掘大部分的價(jià)值在于利用數(shù)據(jù)挖掘技術(shù)改善預(yù)測模型。 數(shù)據(jù)挖掘與KDD 知識發(fā)現(xiàn)(KD)輸出的是規(guī)則 數(shù)據(jù)挖掘(DM)輸出的是模型 共同點(diǎn)兩種方法輸入的都是學(xué)習(xí)集(learning sets) 目的都是盡可能多的自動化數(shù)據(jù)挖掘過程 數(shù)據(jù)挖掘過程并不能完全自動化,只能半自動化 異常檢測異常檢測是數(shù)據(jù)挖掘中一個重要方面,用來發(fā)現(xiàn)”小的模式”(相對于聚類),即數(shù)據(jù)集中間顯著不同于其它數(shù)據(jù)的對象。異常探測應(yīng)用電信和信用卡欺騙貸款審批藥物研究氣象預(yù)報(bào)金融領(lǐng)域客戶分類網(wǎng)絡(luò)入侵檢測故障檢測與診斷等 什么是異常(outlier)? Hawkins(1980)給出了異常的本質(zhì)性的定義:異常是在數(shù)據(jù)集中與眾不同的數(shù)據(jù),使人懷疑這些數(shù)據(jù)并非隨機(jī)偏差,而是產(chǎn)生于完全不同的機(jī)制。 聚類算法對異常的定義:異常是聚類嵌于其中的背景噪聲。異常檢測算法對異常的定義:異常是既不屬于聚類也不屬于背景噪聲的點(diǎn)。他們的行為與正常的行為有很大不同。異常檢測方法的分類基于統(tǒng)計(jì)(statistical-based)的方法基于距離 (distance-based)的方法基于偏差(deviation-based)的方法基于密度(density-based)的方法高維數(shù)據(jù)的異常探測數(shù)據(jù)挖掘系統(tǒng)的特征數(shù)據(jù)的特征知識的特征算法的特征數(shù)據(jù)的特征大容量 POS數(shù)據(jù)(某個超市每天要處理高達(dá)2000萬筆交易)衛(wèi)星圖象(NASA的地球觀測衛(wèi)星以每小時(shí)50GB的速度發(fā)回?cái)?shù)據(jù))互聯(lián)網(wǎng)數(shù)據(jù)含噪音(不完全、不正確)異質(zhì)數(shù)據(jù)(多種數(shù)據(jù)類型混合的數(shù)據(jù)源,來自互聯(lián)網(wǎng)的數(shù)據(jù)是典型的例子)系統(tǒng)的特征知識發(fā)現(xiàn)系統(tǒng)需要一個前處理過程數(shù)據(jù)抽取數(shù)據(jù)清洗數(shù)據(jù)選擇數(shù)據(jù)轉(zhuǎn)換知識發(fā)現(xiàn)系統(tǒng)是一個自動/半自動過程知識發(fā)現(xiàn)系統(tǒng)要有很好的性能知識(模式)的特征知識發(fā)現(xiàn)系統(tǒng)能夠發(fā)現(xiàn)什么知識?計(jì)算學(xué)習(xí)理論COLT(Computational Learning Theory)以FOL為基礎(chǔ)的以發(fā)現(xiàn)關(guān)系為目的的歸納邏輯程序設(shè)計(jì)現(xiàn)行的知識發(fā)現(xiàn)系統(tǒng)只能發(fā)現(xiàn)特定模式的知識規(guī)則分類關(guān)聯(lián)知識表示:規(guī)則 IF 條件 THEN 結(jié)論條件和結(jié)論的粒度(抽象度)可以有多種單值區(qū)間模糊值規(guī)則可以有確信度精確規(guī)則概率規(guī)則知識表示:分類樹數(shù)據(jù)挖掘算法的特征構(gòu)成數(shù)據(jù)挖掘算法的三要素模式記述語言:反映了算法可以發(fā)現(xiàn)什么樣的知識模式評價(jià):反映了什么樣的模式可以稱為知識模式探索:包括針對某一特定模式對參數(shù)空間的探索和對模式空間的探索數(shù)據(jù)挖掘的主要方法分類(Classification)聚類(Clustering) 相關(guān)規(guī)則(Association Rule) 回歸(Regression) 其他數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)挖掘系統(tǒng)第一代數(shù)據(jù)挖掘系統(tǒng) 支持一個或少數(shù)幾個數(shù)據(jù)挖掘算法,這些算法設(shè)計(jì)用來挖掘向量數(shù)據(jù)(vector-valued data),這些數(shù)據(jù)模型在挖掘時(shí)候,一般一次性調(diào)進(jìn)內(nèi)存進(jìn)行處理。許多這樣的系統(tǒng)已經(jīng)商業(yè)化。第二代數(shù)據(jù)挖掘系統(tǒng) 目前的研究,是改善第一代數(shù)據(jù)挖掘系統(tǒng),開發(fā)第二代數(shù)據(jù)挖掘系統(tǒng)。第二代數(shù)據(jù)挖掘系統(tǒng)支持?jǐn)?shù)據(jù)庫和數(shù)據(jù)倉庫,和它們具有高性能的接口,具有高的可擴(kuò)展性。例如,第二代系統(tǒng)能夠挖掘大數(shù)據(jù)集、更復(fù)雜的數(shù)據(jù)集、以及高維數(shù)據(jù)。這一代系統(tǒng)通過支持?jǐn)?shù)據(jù)挖掘模式(data mining schema)和數(shù)據(jù)挖掘查詢語言(DMQL)增加系統(tǒng)的靈活性。 數(shù)據(jù)挖掘系統(tǒng)第三代數(shù)據(jù)挖掘系統(tǒng) 第三代的特征是能夠挖掘Internet/Extranet的分布式和高度異質(zhì)的數(shù)據(jù),并且能夠有效地和操作型系統(tǒng)集成。這一代數(shù)據(jù)挖掘系統(tǒng)關(guān)鍵的技術(shù)之一是提供對建立在異質(zhì)系統(tǒng)上的多個預(yù)言模型以及管理這些預(yù)言模型的元數(shù)據(jù)提供第一級別(first class)的支持。 第四代數(shù)據(jù)挖掘系統(tǒng) 第四代數(shù)據(jù)挖掘系統(tǒng)能夠挖掘嵌入式系統(tǒng)、移動系統(tǒng)、和普遍存在(ubiquitous)計(jì)算設(shè)備產(chǎn)生的各種類型的數(shù)據(jù) 。二、數(shù)據(jù)預(yù)處理為什么需要預(yù)處理數(shù)據(jù)不完整含觀測噪聲不一致包含其它不希望的成分?jǐn)?shù)據(jù)清理通過填寫空缺值,平滑噪聲數(shù)據(jù),識別刪除孤立點(diǎn),并解決不一致來清理數(shù)據(jù)。污染數(shù)據(jù)形成的原因?yàn)E用縮寫詞數(shù)據(jù)輸入錯誤數(shù)據(jù)中的內(nèi)嵌控制信息不同的慣用語重復(fù)記錄丟失值拼寫變化不同的計(jì)量單位過時(shí)的編碼含有各種噪聲數(shù)據(jù)清理的重要性污染數(shù)據(jù)的普遍存在,使得在大型數(shù)據(jù)庫中維護(hù)數(shù)據(jù)的正確性和一致性成為一個及其困難的任務(wù)。垃圾進(jìn)、垃圾出數(shù)據(jù)清理處理內(nèi)容格式標(biāo)準(zhǔn)化異常數(shù)據(jù)清除錯誤糾正重復(fù)數(shù)據(jù)的清除數(shù)據(jù)規(guī)約數(shù)據(jù)集的壓縮表示,但是能和原始數(shù)據(jù)集達(dá)到相同或基本相同的分析結(jié)果主要策略: 數(shù)據(jù)聚集維規(guī)約數(shù)據(jù)壓縮數(shù)值規(guī)約空缺值忽略元組人工填寫空缺值使用固定值使用屬性平均值使用最有可能值噪聲數(shù)據(jù)如何平滑數(shù)據(jù),去掉噪聲數(shù)據(jù)平滑技術(shù)分箱聚類計(jì)算機(jī)和人工檢查相結(jié)合回歸分箱箱的深度:表示不同的箱里有相同個數(shù)的數(shù)據(jù)。箱的寬度:每個箱值的取值區(qū)間是個常數(shù)。平滑方法: 按箱平均值平滑按箱中值平滑按箱邊界值平滑聚類每個簇中的數(shù)據(jù)用其中心值代替忽略孤立點(diǎn)先通過聚類等方法找出孤立點(diǎn)。這些孤立點(diǎn)可能包含有用的信息。人工再審查這些孤立點(diǎn) 回歸通過構(gòu)造函數(shù)來符合數(shù)據(jù)變化的趨勢,這樣可以用一個變量預(yù)測另一個變量。線性回歸多線性回歸數(shù)據(jù)集成將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放在一個一直得數(shù)據(jù)存貯中。實(shí)體識別 實(shí)體和模式的匹配冗余:某個屬性可以由別的屬性推出。相關(guān)分析相關(guān)性rA,B . rA,B>0,正相關(guān)。A隨B的值得增大而增大 rA,B>0,正相關(guān)。AB無關(guān) rA,B>0,正相關(guān)。A隨B的值得增大而減少重復(fù) 同一數(shù)據(jù)存儲多次數(shù)據(jù)值沖突的檢測和處理數(shù)據(jù)變換平滑聚集數(shù)據(jù)概化規(guī)范化屬性構(gòu)造(特征構(gòu)造) 最小 最大規(guī)范化 小數(shù)定標(biāo)規(guī)范化 屬性構(gòu)造由給定的屬性構(gòu)造和添加新的屬性,以幫助提高精度和對高維數(shù)據(jù)結(jié)構(gòu)的理解 數(shù)據(jù)立方體聚集尋找感興趣的維度進(jìn)行再聚集維規(guī)約刪除不相關(guān)的屬性(維)來減少數(shù)據(jù)量。屬性子集選擇找出最小屬性集合,使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性的原分布如何選?貪心算法逐步向前選擇逐步后向刪除向前選擇和后向刪除相結(jié)合判定樹歸納數(shù)據(jù)壓縮有損,無損小波變換將數(shù)據(jù)向量D轉(zhuǎn)換成為數(shù)值上不同的小波系數(shù)的向量D’. 對D’進(jìn)行剪裁,保留小波系數(shù)最強(qiáng)的部分。 數(shù)值規(guī)約回歸和對數(shù)線形模型線形回歸對數(shù)線形模型直方圖等寬等深 V-最優(yōu) maxDiff 數(shù)值規(guī)約 聚類多維索引樹 : 對于給定的數(shù)據(jù)集合,索引樹動態(tài)的劃分多維空間。選樣簡單選擇n個樣本,不放回簡單選擇n個樣本,放回聚類選樣分層選樣 離散化和概念分層離散化技術(shù)用來減少給定連續(xù)屬性的個數(shù)通常是遞歸的。大量時(shí)間花在排序上。對于給定的數(shù)值屬性,概念分層定義了該屬性的一個離散化的值。分箱直方圖分析 數(shù)值數(shù)據(jù)離散化聚類分析基于熵的離散化通過自然劃分分段 3-4-5規(guī)則如果一個區(qū)間最高有效位上包括3 6 9 個不同的值,劃分為3個等寬區(qū)間。 7個不同值,按2-3-3劃分為3個區(qū)間最高位包含2,4,8個不同值,劃分為4個等寬區(qū)間最高位包含1 ,5,10個不同值,劃分為5個等寬區(qū)間最高分層一般在第5個百分位到第95個百分位上進(jìn)行分類數(shù)據(jù)的概念分層生成分類數(shù)據(jù)是離散數(shù)據(jù)。一個分類屬性可能有有限個不同的值。方法 由用戶和專家在模式級顯式的說明屬性的部分序通過顯式的數(shù)據(jù)分組說明分層結(jié)構(gòu)的一部分說明屬性集,但不說明他們的偏序只說明部分的屬性集三、數(shù)據(jù)挖掘算法 -分類與預(yù)測分類 VS. 預(yù)測分類:預(yù)測分類標(biāo)號(或離散值)根據(jù)訓(xùn)練數(shù)據(jù)集和類標(biāo)號屬性,構(gòu)建模型來分類現(xiàn)有數(shù)據(jù),并用來分類新數(shù)據(jù)預(yù)測:建立連續(xù)函數(shù)值模型,比如預(yù)測空缺值典型應(yīng)用信譽(yù)證實(shí)目標(biāo)市場醫(yī)療診斷性能預(yù)測數(shù)據(jù)分類:兩步過程第一步,建立一個模型,描述預(yù)定數(shù)據(jù)類集和概念集假定每個元組屬于一個預(yù)定義的類,由一個類標(biāo)號屬性確定基本概念訓(xùn)練數(shù)據(jù)集:由為建立模型而被分析的數(shù)據(jù)元組形成訓(xùn)練樣本:訓(xùn)練數(shù)據(jù)集中的單個樣本(元組)學(xué)習(xí)模型可以用分類規(guī)則、判定樹或數(shù)學(xué)公式的形式提供第二步,使用模型,對將來的或未知的對象進(jìn)行分類首先評估模型的預(yù)測準(zhǔn)確率對每個測試樣本,將已知的類標(biāo)號和該樣本的學(xué)習(xí)模型類預(yù)測比較模型在給定測試集上的準(zhǔn)確率是正確被模型分類的測試樣本的百分比測試集要獨(dú)立于訓(xùn)練樣本集,否則會出現(xiàn)“過分適應(yīng)數(shù)據(jù)”的情況第一步:建立模型第二步:用模型進(jìn)行分類準(zhǔn)備分類和預(yù)測的數(shù)據(jù)通過對數(shù)據(jù)進(jìn)行預(yù)處理,可以提高分類和預(yù)測過程的準(zhǔn)確性、有效性和可伸縮性數(shù)據(jù)清理消除或減少噪聲,處理空缺值,從而減少學(xué)習(xí)時(shí)的混亂相關(guān)性分析數(shù)據(jù)中的有些屬性可能與當(dāng)前任務(wù)不相關(guān);也有些屬性可能是冗余的;刪除這些屬性可以加快學(xué)習(xí)步驟,使學(xué)習(xí)結(jié)果更精確數(shù)據(jù)變換可以將數(shù)據(jù)概化到較高層概念,或?qū)?shù)據(jù)進(jìn)行規(guī)范化比較分類方法使用下列標(biāo)準(zhǔn)比較分類和預(yù)測方法預(yù)測的準(zhǔn)確率:模型正確預(yù)測新數(shù)據(jù)的類編號的能力速度:產(chǎn)生和使用模型的計(jì)算花銷魯棒性:給定噪聲數(shù)據(jù)或有空缺值的數(shù)據(jù),模型正確預(yù)測的能力可伸縮性:對大量數(shù)據(jù),有效的構(gòu)建模型的能力可解釋性:學(xué)習(xí)模型提供的理解和洞察的層次用判定樹歸納分類什么是判定樹?類似于流程圖的樹結(jié)構(gòu)每個內(nèi)部節(jié)點(diǎn)表示在一個屬性上的測試每個分枝代表一個測試輸出每個樹葉節(jié)點(diǎn)代表類或類分布判定樹的生成由兩個階段組成判定樹構(gòu)建開始時(shí),所有的訓(xùn)練樣本都在根節(jié)點(diǎn)遞歸的通過選定的屬性,來劃分樣本 (必須是離散值)樹剪枝許多分枝反映的是訓(xùn)練數(shù)據(jù)中的噪聲和孤立點(diǎn),樹剪枝試圖檢測和剪去這種分枝判定樹的使用:對未知樣本進(jìn)行分類通過將樣本的屬性值與判定樹相比較判定歸納樹算法判定歸納樹算法(一個貪心算法)自頂向下的分治方式構(gòu)造判定樹樹以代表訓(xùn)練樣本的單個根節(jié)點(diǎn)開始使用分類屬性(如果是量化屬性,則需先進(jìn)行離散化)遞歸的通過選擇相應(yīng)的測試屬性,來劃分樣本,一旦一個屬性出現(xiàn)在一個節(jié)點(diǎn)上,就不在該節(jié)點(diǎn)的任何后代上出現(xiàn)測試屬性是根據(jù)某種啟發(fā)信息或者是統(tǒng)計(jì)信息來進(jìn)行選擇(如:信息增益)遞歸劃分步驟停止的條件給定節(jié)點(diǎn)的所有樣本屬于同一類沒有剩余屬性可以用來進(jìn)一步劃分樣本——使用多數(shù)表決沒有剩余的樣本貝葉斯分類貝葉斯分類利用統(tǒng)計(jì)學(xué)中的貝葉斯定理,來預(yù)測類成員的概率,即給定一個樣本,計(jì)算該樣本屬于一個特定的類的概率。 樸素貝葉斯分類:假設(shè)每個屬性之間都是相互獨(dú)立的,并且每個屬性對非類問題產(chǎn)生的影響都是一樣的。后向傳播分類后向傳播是一種神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法;神經(jīng)網(wǎng)絡(luò)是一組連接的輸入/輸出單元,每個連接都與一個權(quán)相連。在學(xué)習(xí)階段,通過調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán),使得能夠預(yù)測輸入樣本的正確標(biāo)號來學(xué)習(xí)。優(yōu)點(diǎn)預(yù)測精度總的來說較高健壯性好,訓(xùn)練樣本中包含錯誤時(shí)也可正常工作輸出可能是離散值、連續(xù)值或者是離散或量化屬性的向量值對目標(biāo)進(jìn)行分類較快缺點(diǎn)訓(xùn)練(學(xué)習(xí))時(shí)間長蘊(yùn)涵在學(xué)習(xí)的權(quán)中的符號含義很難理解很難根專業(yè)領(lǐng)域知識相整合其他分類方法 k-最臨近分類給定一個未知樣本,k-最臨近分類法搜索模式空間,找出最接近未知樣本的k個訓(xùn)練樣本;然后使用k個最臨近者中最公共的類來預(yù)測當(dāng)前樣本的類標(biāo)號基于案例的推理樣本或案例使用復(fù)雜的符號表示,對于新案例,先檢測是否存在同樣的訓(xùn)練案例;如果找不到,則搜索類似的訓(xùn)練案例遺傳算法結(jié)合生物進(jìn)化思想的算法粗糙集方法模糊集方法允許在分類規(guī)則中定義“模糊的”臨界值或邊界什么是預(yù)測?預(yù)測是構(gòu)造和使用模型評估無樣本類,或評估給定樣本可能具有的屬性或值空間。預(yù)測和分類的異同相同點(diǎn)兩者都需要構(gòu)建模型都用模型來估計(jì)未知值預(yù)測當(dāng)中主要的估計(jì)方法是回歸分析線性回歸和多元回歸非線性回歸不同點(diǎn)分類法主要是用來預(yù)測類標(biāo)號(分類屬性值)預(yù)測法主要是用來估計(jì)連續(xù)值(量化屬性值)回歸方法線性回歸:Y = + X 其中和是回歸系數(shù),可以根據(jù)給定的數(shù)據(jù)點(diǎn),通過最小二乘法來求得 多元回歸:Y = + 1X1 + 2 X2 線性回歸的擴(kuò)展,設(shè)計(jì)多個預(yù)測變量,可以用最小二乘法求得上式中的,1 和2 非線性回歸:Y = + 1X1 + 2 X22+ 3 X33 對不呈線性依賴的數(shù)據(jù)建模使用多項(xiàng)式回歸建模方法,然后進(jìn)行變量變換,將非線性模型轉(zhuǎn)換為線性模型,然后用最小二乘法求解評估分類法的準(zhǔn)確性導(dǎo)出分類法后,再使用訓(xùn)練數(shù)據(jù)評估分類法,可能錯誤的導(dǎo)致樂觀的估計(jì)保持方法給定數(shù)據(jù)隨機(jī)劃分為兩個集合:訓(xùn)練集(2/3)和測試集(1/3) 訓(xùn)練集導(dǎo)出分類法,測試集對其準(zhǔn)確性進(jìn)行評估隨機(jī)子選樣:保持方法的一個變形,將保持方法重復(fù)k次,然后取準(zhǔn)確率的平均值 k-折交叉確認(rèn)初始數(shù)據(jù)被劃分為k個不相交的,大小大致相同的子集S1,S2…Sk 進(jìn)行k次訓(xùn)練和測試,第i次時(shí),以Si做測試集,其他做訓(xùn)練集準(zhǔn)確率為k次迭代正確分類數(shù)除以初始數(shù)據(jù)集樣本總數(shù)提高分類法的準(zhǔn)確性 Bagging技術(shù)和boosting技術(shù)都通過將T個學(xué)習(xí)得到的分類法C1,C2…CT組合起來,從而創(chuàng)造一個改進(jìn)的分類法C* Bagging技術(shù)對訓(xùn)練集S進(jìn)行T次迭代,每次通過放回取樣選取樣本集St,通過學(xué)習(xí)St得到分類法Ct 對于未知樣本X,每個分類法返回其類預(yù)測,作為一票 C*統(tǒng)計(jì)得票,并將得票最高的預(yù)測賦予X Boosting技術(shù)每個訓(xùn)練樣本賦予一個權(quán)值 Ct的權(quán)值取決于其錯誤率四、數(shù)據(jù)挖掘算法-聚類聚類分析什么是聚類分析? 聚類分析中的數(shù)據(jù)類型主要聚類分析方法分類劃分方法(Partitioning Methods)分層方法基于密度的方法基于表格的方法基于模型(Model-Based)的聚類方法異常分析總結(jié) 什么是聚類分析? 簇(Cluster):一個數(shù)據(jù)對象的集合在同一個類中,對象之間0具有相似性;不同類的對象之間是相異的。聚類分析把一個給定的數(shù)據(jù)對象集合分成不同的簇;聚類是一種無監(jiān)督分類法: 沒有預(yù)先指定的類別;典型的應(yīng)用作為一個獨(dú)立的分析工具,用于了解數(shù)據(jù)的分布; 作為其它算法的一個數(shù)據(jù)預(yù)處理步驟;聚類的常規(guī)應(yīng)用 模式識別空間數(shù)據(jù)分析 在GIS中,通過聚類發(fā)現(xiàn)特征空間來建立主題索引;在空間數(shù)據(jù)挖掘中,檢測并解釋空間中的簇;圖象處理經(jīng)濟(jì)學(xué) (尤其是市場研究方面) WWW 文檔分類分析WEB日志數(shù)據(jù)來發(fā)現(xiàn)相似的訪問模式應(yīng)用聚類分析的例子市場銷售: 幫助市場人員發(fā)現(xiàn)客戶中的不同群體,然后用這些知識來開展一個目標(biāo)明確的市場計(jì)劃;土地使用: 在一個陸地觀察數(shù)據(jù)庫中標(biāo)識那些土地使用相似的地區(qū);保險(xiǎn): 對購買了汽車保險(xiǎn)的客戶,標(biāo)識那些有較高平均賠償成本的客戶;城市規(guī)劃: 根據(jù)類型、價(jià)格、地理位置等來劃分不同類型的住宅;地震研究: 根據(jù)地質(zhì)斷層的特點(diǎn)把已觀察到的地震中心分成不同的類;聚類方法性能評價(jià)一個好的聚類方法要能產(chǎn)生高質(zhì)量的聚類結(jié)果——簇,這些簇要具備以下兩個特點(diǎn):高的簇內(nèi)相似性低的簇間相似性 聚類結(jié)果的好壞取決于該聚類方法采用的相似性評估方法以及該方法的具體實(shí)現(xiàn);聚類方法的好壞還取決與該方法是能發(fā)現(xiàn)某些還是所有的隱含模式;聚類方法性能評價(jià)可伸縮性能夠處理不同類型的屬性能發(fā)現(xiàn)任意形狀的簇在決定輸入?yún)?shù)的時(shí)候,盡量不需要特定的領(lǐng)域知識;能夠處理噪聲和異常對輸入數(shù)據(jù)對象的順序不敏感能處理高維數(shù)據(jù)能產(chǎn)生一個好的、能滿足用戶指定約束的聚類結(jié)果結(jié)果是可解釋的、可理解的和可用的兩種數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)矩陣 (two modes) 差異度矩陣 (one mode) 評價(jià)聚類質(zhì)量差異度/相似度矩陣: 相似度通常用距離函數(shù)來表示;有一個單獨(dú)的質(zhì)量評估函數(shù)來評判一個簇的好壞;對不同類型的變量,距離函數(shù)的定義通常是不同的,這在下面有詳細(xì)討論;根據(jù)實(shí)際的應(yīng)用和數(shù)據(jù)的語義,在計(jì)算距離的時(shí)候,不同的變量有不同的權(quán)值相聯(lián)系;很難定義“足夠相似了”或者“足夠好了” 只能憑主觀確定;聚類分析中的數(shù)據(jù)類型區(qū)間標(biāo)度變量(Interval-scaled variables): 二元變量(Binary variables): 標(biāo)稱型,序數(shù)型和比例型變量(Nominal, ordinal, and ratio variables): 混合類型變量(Variables of mixed types): 區(qū)間標(biāo)度變量數(shù)據(jù)標(biāo)準(zhǔn)化計(jì)算絕對偏差的平均值: 其中計(jì)算標(biāo)準(zhǔn)度量值 (z-score) 使用絕對偏差的平均值比使用標(biāo)準(zhǔn)偏差更健壯(robust)計(jì)算對象之間的相異度通常使用距離來衡量兩個對象之間的相異度。常用的距離度量方法有: 明考斯基距離( Minkowski distance): 其中 i = (xi1, xi2, …, xip) 和 j = (xj1, xj2, …, xjp) 是兩個p維的數(shù)據(jù)對象, q是一個正整數(shù)。當(dāng)q = 1時(shí), d 稱為曼哈坦距離( Manhattan distance) 計(jì)算對象之間的相異度當(dāng)q=2時(shí), d 就成為歐幾里德距離: 距離函數(shù)有如下特性: d(i,j) 0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j) d(i,k) + d(k,j) 可以根據(jù)每個變量的重要性賦予一個權(quán)重序數(shù)型變量一個序數(shù)型變量可以是離散的也可以是連續(xù)的 離散的序數(shù)型變量類似于標(biāo)稱變量,除了它的M個狀態(tài)是以有意義的序列排序的,比如職稱連續(xù)的序數(shù)型變量類似于區(qū)間標(biāo)度變量,但是它沒有單位,值的相對順序是必要的,而其實(shí)際大小并不重要。序數(shù)型變量相異度的計(jì)算 與區(qū)間標(biāo)度變量的計(jì)算方法相類似將xif 用它對應(yīng)的秩代替 將每個變量的值域映射到[0.0,1.0]上,使得每個變量都有相同的權(quán)重。這通過用zif來替代rif來實(shí)現(xiàn) 用前面所述的區(qū)間標(biāo)度變量的任一種距離計(jì)算方法來計(jì)算 比例標(biāo)度型變量比例標(biāo)度型變量(Ratio-scaled variable) : 總是取正的度量值,有一個非線性的標(biāo)度,近似的遵循指數(shù)標(biāo)度,比如 AeBt or Ae-Bt 計(jì)算相異度的方法: 采用與處理區(qū)間標(biāo)度變量相同的方法 — 不是一個好的選擇進(jìn)行對數(shù)變換,對變換得到的值在采用與處理區(qū)間標(biāo)度變量相同的方法 yif = log(xif) 將其作為連續(xù)的序數(shù)型數(shù)據(jù),將其秩作為區(qū)間標(biāo)度的值來對待;旌项愋偷淖兞恳粋數(shù)據(jù)庫可能包含了所有這6中類型的變量 用以下公式計(jì)算對象i,j之間的相異度. 其中,p為對象中的變量個數(shù) 如果xif或xjf 缺失(即對象i或?qū)ο骿沒有變量f的值),或者xif = xjf =0,且變量f是不對稱的二元變量,則指示項(xiàng)δij(f)=0;否則δij(f)=1 混合類型的變量 f 是二元變量或標(biāo)稱變量: if xif = xjf dij(f) = 0, else dij(f) = 1 f 是區(qū)間標(biāo)度變量: dij(f) = | xif-xjf |/maxhxhf-minhxhf 其中h遍取變量f的所有非空缺對象 f 是序數(shù)型或比例標(biāo)度型計(jì)算秩 rif 計(jì)算 zif并將其作為區(qū)間標(biāo)度變量值對待 主要聚類方法 Partitioning algorithms: Construct various partitions and then evaluate them by some criterion Hierarchy algorithms: Create a hierarchical decomposition of the set of data (or objects) using some criterion Density-based: based on connectivity and density functions Grid-based: based on a multiple-level granularity structure Model-based: A model is hypothesized for each of the clusters and the idea is to find the best fit of that model to each other 五、數(shù)據(jù)挖掘算法-關(guān)聯(lián)什么是關(guān)聯(lián)挖掘? 關(guān)聯(lián)規(guī)則:基本概念規(guī)則度量:支持度與可信度關(guān)聯(lián)規(guī)則挖掘:路線圖關(guān)聯(lián)規(guī)則挖掘—一個例子關(guān)鍵步驟:挖掘頻繁集多層關(guān)聯(lián)規(guī)則項(xiàng)通常具有層次底層的項(xiàng)通常支持度也低某些特定層的規(guī)則可能更有意義交易數(shù)據(jù)庫可以按照維或?qū)泳幋a可以進(jìn)行共享的多維挖掘挖掘多層關(guān)聯(lián)規(guī)則自上而下,深度優(yōu)先的方法:先找高層的“強(qiáng)”規(guī)則:牛奶 ® 面包 [20%, 60%]. 再找他們底層的“弱”規(guī)則:酸奶 ® 黃面包 [6%, 50%]. 多層關(guān)聯(lián)規(guī)則的變種層次交叉的關(guān)聯(lián)規(guī)則: 酸奶 ® 面包房 黃面包不同種分層方法間的關(guān)聯(lián)規(guī)則:酸奶 ® 面包房面包多層關(guān)聯(lián)規(guī)則支持度不變: 在各層之間使用統(tǒng)一的支持度 + 一個最小支持度閾值. 如果一個項(xiàng)集的父項(xiàng)集不具有最小支持度,那他本身也不可能滿足最小支持度。 – 底層項(xiàng)不會成為頻繁集,如果支持度太高 丟失底層關(guān)聯(lián)規(guī)則太低 生成太多的高層關(guān)聯(lián)規(guī)則支持度遞減: 隨著層次的降低支持度遞減 4種搜索策略:層與層獨(dú)立用k-項(xiàng)集跨層過濾用項(xiàng)跨層過濾用項(xiàng)進(jìn)行可控跨層過濾支持度不變支持度遞減多層關(guān)聯(lián):冗余過濾由于“祖先”關(guān)系的原因,有些規(guī)則可能是多余的。例子牛奶 白面包 [support = 8%, confidence = 70%] 酸奶 白面包 [support = 2%, confidence = 72%] 我們稱第一個規(guī)則是第二個規(guī)則的祖先參考規(guī)則的祖先,如果他的支持度與我們“預(yù)期”的支持度近似的話,我們就說這條規(guī)則是冗余的。多層挖掘:深度優(yōu)先自頂向下,深度優(yōu)先的方法:先挖掘高層頻繁項(xiàng): 牛奶 (15%), 面包 (10%) 再挖掘他們底層的相對較弱的頻繁項(xiàng): 酸奶 (5%), 白面包 (4%) 跨層時(shí)對支持度的不同處理方法,對應(yīng)了不同的算法: 層之間支持度不變:如果t的祖先是非頻繁的,則不用考慮t 支持度隨層遞減:則只考慮那些其祖先是頻繁的/不可忽略的項(xiàng)數(shù)據(jù)挖掘查詢的逐步精化為什么要逐步精化挖掘操作的代價(jià)可能高或低,結(jié)果可能細(xì)致或粗糙在速度和質(zhì)量之間折衷:逐步精化超集覆蓋特征:預(yù)存儲所有正面答案—允許進(jìn)一步正確性驗(yàn)證,而不必驗(yàn)證已經(jīng)錯誤的 2或多步挖掘:先執(zhí)行粗糙的、容易的操作 (超集覆蓋) 然后在減少后的候選集上進(jìn)行計(jì)算量大的算法 (Koperski & Han, SSD’95). 逐步求精空間關(guān)聯(lián)規(guī)則挖掘逐步求精空間關(guān)聯(lián)規(guī)則挖掘空間關(guān)聯(lián)規(guī)則的兩步算法:步驟 1: 粗糙空間計(jì)算 (用于過濾) 用 MBR 或 R-tree 做粗糙估計(jì)步驟 2: 細(xì)致空間算法 (用于精化) 只計(jì)算已經(jīng)通過空間計(jì)算的對象多維關(guān)聯(lián)規(guī)則:概念單維規(guī)則: buys(X, “milk”) buys(X, “bread”) 多維規(guī)則: 2個以上維/謂詞維間關(guān)聯(lián)規(guī)則 (維詞不重復(fù)) age(X,”19-25”) occupation(X,“student”) buys(X,“coke”) 混合維關(guān)聯(lián)規(guī)則 (維詞重復(fù)) age(X,”19-25”) buys(X, “popcorn”) buys(X, “coke”) 類別屬性有限個值, 值之間無順序關(guān)系數(shù)量屬性數(shù)字的,值之間隱含了順序關(guān)系挖掘多維關(guān)聯(lián)的技術(shù)搜索頻繁k-維詞集合:如: {age, occupation, buys} 是一個3-維詞集合。按照對 age 處理方式的不同,分為: 1. 用靜態(tài)方法把數(shù)值屬性離散化數(shù)值屬性可用預(yù)定義的概念層次加以離散化。 2. 帶數(shù)量的關(guān)聯(lián)規(guī)則根據(jù)數(shù)據(jù)的分布動態(tài)的把數(shù)值屬性離散化到不同的“箱”。 3. 基于距離的關(guān)聯(lián)規(guī)則用數(shù)據(jù)點(diǎn)之間的距離動態(tài)的離散化數(shù)值屬性的靜態(tài)離散化帶數(shù)量的關(guān)聯(lián)規(guī)則 ARCS (關(guān)聯(lián)規(guī)則聚集系統(tǒng)) ARCS 流程 1. 分箱 2. 查找頻繁維詞 集合 3. 聚集 4. 優(yōu)化 ARCS的局限性基于距離的關(guān)聯(lián)規(guī)則挖掘分箱的方法沒有體現(xiàn)數(shù)據(jù)間隔的語義 基于距離的分割是更有“意義”的離散化方法,考慮:區(qū)間內(nèi)密度或點(diǎn)的個數(shù)區(qū)間內(nèi)點(diǎn)的“緊密程度聚集和距離度量聚集和距離度量 六、序列模式挖掘序列模式概念序列模式的概念最早是由Agrawal和Srikant 提出的序列模式定義:給定一個由不同序列組成的集合,其中,每個序列由不同的元素按順序有序排列,每個元素由不同項(xiàng)目組成,同時(shí)給定一個用戶指定的最小支持度閾值,序列模式挖掘就是找出所有的頻繁子序列,即該子序列在序列集中的出現(xiàn)頻率不低于用戶指定的最小支持度閾值序列模式實(shí)例例1:在兩年前購買了Ford 牌轎車的顧客,很有可能在今年采取貼舊換新的購車行動例2:在購買了自行車和購物籃的所有客戶中,有70%的客戶會在兩個月后購買打氣筒例3:工業(yè)過程控制領(lǐng)域:過程變量采樣值時(shí)時(shí)間序列;變量之間的關(guān)系是動態(tài)的;系統(tǒng)故障模式;等等 序列模式應(yīng)用領(lǐng)域應(yīng)用領(lǐng)域:客戶購買行為模式預(yù)測 Web訪問模式預(yù)測疾病診斷自然災(zāi)害預(yù)測 DNA序列分析工業(yè)控制序列模式表示符號化表示:項(xiàng)目集(Itemset)是各種項(xiàng)目組成的集合序列(Sequence)是不同項(xiàng)目集(ItemSet)的有序排列,序列s可以表示為s = ,sj(1 <= j <= l)為項(xiàng)目集(Itemset),也稱為序列s的元素序列的元素(Element)可表示為(x1x2…xm), xk(1 <= k <= m)為不同的項(xiàng)目,如果一個序列只有一個項(xiàng)目,則括號可以省略一個序列包含的所有項(xiàng)目的個數(shù)稱為序列的長度。長度為l的序列記為l-序列序列模式表示符號化表示:設(shè) = , = ,如果存在整數(shù)1 <= j1 < j2 <…< jn <= m,使得a1 bj1,a2 bj2,…, an bjn,則稱序列為序列的子序列,又稱序列包含序列,記為 序列在序列數(shù)據(jù)庫S中的支持?jǐn)?shù)為序列數(shù)據(jù)庫S中包含序列的序列個數(shù),記為Support() 給定支持度閾值,如果序列在序列數(shù)據(jù)庫中的支持?jǐn)?shù)不低于,則稱序列為序列模式長度為l的序列模式記為l-模式序列模式表示例子:設(shè)序列數(shù)據(jù)庫如下圖所示,并設(shè)用戶指定的最小支持度min-support = 2。序列模式挖掘問題描述:給定序列數(shù)據(jù)庫和最小支持度閾值,序列模式挖掘就是要找出序列數(shù)據(jù)庫中所有的序列模式 系統(tǒng)規(guī)定:由于同一個元素中的項(xiàng)目之間排列沒有順序,為了表達(dá)的唯一性,我們將同一個元素內(nèi)部的不同項(xiàng)目按照字典順序排列序列模式挖掘算法序列模式挖掘的主要算法 GSP(Generalized Sequential Patterns)算法:類似于Apriori算法 PrefixSpan(Prefix-project Sequential Pattern mining)算法:采用分治的思想,不斷產(chǎn)生序列數(shù)據(jù)庫的多個更小的投影數(shù)據(jù)庫,然后在各個投影數(shù)據(jù)庫上進(jìn)行序列模式挖掘序列模式挖掘算法上述算法存在的主要問題:缺少時(shí)間限制:用戶可能需要指定序列模式的相鄰元素之間的時(shí)間間隔。例如,一個序列模式可能會發(fā)現(xiàn)客戶在購買了物品A后的第三年購買物品B。我們需要的卻是給定時(shí)間間隔內(nèi)用戶的購買意向事務(wù)的定義過于嚴(yán)格:一個事務(wù)中包含在客戶的一次購買行為中所購買的所有物品?赡苄枰付ㄒ粋滑動時(shí)間窗口,客戶在滑動時(shí)間窗口的時(shí)間段內(nèi)的所有的購買行為均作為一個事務(wù)缺少分類層次:只能在項(xiàng)目的原始級別上進(jìn)行挖掘七、數(shù)據(jù)挖掘軟件 八、數(shù)據(jù)挖掘應(yīng)用 數(shù)據(jù)挖掘應(yīng)用—— 時(shí)間序列模式挖掘工業(yè)過程變量時(shí)間序列生產(chǎn)過程的類型連續(xù)過程:工藝參數(shù)(設(shè)定值)均為常量。批量過程:工藝參數(shù)(設(shè)定值)通常為變量。工藝參數(shù)的數(shù)據(jù)類型數(shù)值型、邏輯型、枚舉型產(chǎn)品質(zhì)量的數(shù)據(jù)類型邏輯型:只判斷產(chǎn)品的好壞數(shù)值型:給出產(chǎn)品質(zhì)量好壞的程度 批量型生產(chǎn)過程連續(xù)型生產(chǎn)過程數(shù)據(jù)挖掘?qū)ο蟮幕緲?gòu)成樣本的抽。ㄅ可a(chǎn)過程)連續(xù)生產(chǎn)過程的樣本抽取連續(xù)過程 批量過程 關(guān)于生產(chǎn)質(zhì)量改變的模式假設(shè)生產(chǎn)質(zhì)量不良的原因是工藝參數(shù)設(shè)計(jì)或控制有問題:設(shè)計(jì)階段:工藝參數(shù)設(shè)計(jì)有錯誤;控制階段:工藝參數(shù)未能控制在設(shè)計(jì)值;上述因素都可通過生產(chǎn)過程中工藝參數(shù)的時(shí)間序列實(shí)測樣本反映出來。工藝參數(shù)的時(shí)間序列中某些特征的改變,引起生產(chǎn)質(zhì)量從量變到質(zhì)變。時(shí)間序列的特征,可以用模式來描述。時(shí)間序列的模式改變,是生產(chǎn)質(zhì)量不良的原因。數(shù)據(jù)挖掘的目的,就是要尋找引起生產(chǎn)質(zhì)量不良的工藝參數(shù)模式。 時(shí)間序列的模式抽取目的:將時(shí)間序列樣本集合轉(zhuǎn)換為特征模式樣本集合,每一種模式(或若干種模式的一種組合)用一個整數(shù)來編碼,從而將數(shù)據(jù)挖掘的對象從時(shí)間序列空間轉(zhuǎn)換為整數(shù)空間。 其中,mi 為 xi (t) 所包含的特征模式的集合。注意: mi 不再是時(shí)間序列 mi 可能是多元素的集合,即 xi(t) 可包含多種模式時(shí)間序列的模式抽取時(shí)間序列分析理論中已給出一類模式抽取的方法:根據(jù)時(shí)間序列建立 ARMA模型;蚶斫鉃榘褧r(shí)間序列空間映射到 ARMA模型中的參數(shù)空間,也稱為時(shí)間序列的 ARMA特征空間。這一方法的優(yōu)點(diǎn)是:成熟有嚴(yán)密的數(shù)學(xué)基礎(chǔ)缺點(diǎn)是: ARMA特征沒有物理意義,難以據(jù)其改進(jìn)產(chǎn)品質(zhì)量。時(shí)間序列的模式抽。ㄓ形锢硪饬x的)模式抽取問題:給定(有物理意義的)模式集合,尋找時(shí)間序列中存在的模式種類。給定模式集合的方法:有先驗(yàn)知識 —— 根據(jù)先驗(yàn)知識構(gòu)造與產(chǎn)品質(zhì)量有關(guān)的模式類沒有先驗(yàn)知識 —— 窮舉構(gòu)造所有可能的有物理意義的模式只有部分先驗(yàn)知識 —— 上述兩種方法的組合尋找時(shí)間序列中模式的方法:給出模式的特征給出計(jì)算特征匹配的指標(biāo)在時(shí)間序列中進(jìn)行特征匹配常見的有物理意義的特征模式統(tǒng)計(jì)模式均值、方差(標(biāo)準(zhǔn)差)、最大值、最小值、中間值、局部極值出現(xiàn)頻率趨勢模式單調(diào)性(單增、單減)、變化性(最大、最小、平均、中值)、凹凸性偏差模式與標(biāo)準(zhǔn)值(設(shè)定值)之間的偏差(最大、最小、平均、中值)累積模式時(shí)間累計(jì)、絕對值時(shí)間累計(jì)、偏差值時(shí)間累計(jì)、平均值時(shí)間累計(jì)數(shù)據(jù)挖掘的兩種應(yīng)用方式質(zhì)量分類模型的挖掘給定特征模式樣本的集合 {(mi, yi)}i=1,2,,n , 構(gòu)造分類器 f (m),滿足 f (mi) = yi 。在復(fù)雜情況下,可構(gòu)造分類決策樹。這是一個類別已知( yi, i=1, 2, , n 已知)情況下的分類模型建立問題。質(zhì)量分析結(jié)論的挖掘給定特征模式樣本的集合 {(mi, yi)}i=1,2,,n , 建立質(zhì)量指標(biāo) yi 與特征模式 mi 之間的相關(guān)關(guān)系。該相關(guān)關(guān)系直接作為結(jié)論提供給用戶。一個示例:加熱爐生產(chǎn)質(zhì)量數(shù)據(jù)挖掘生產(chǎn)工藝:間歇式加熱過程(均熱爐) 一個示例:加熱爐生產(chǎn)質(zhì)量數(shù)據(jù)挖掘質(zhì)量指標(biāo):鋼錠內(nèi)裂影響質(zhì)量的因素(先驗(yàn)知識):各加熱段之間切換時(shí)溫度變化太快;各加熱段的溫度設(shè)定值相差太大;燃料燃燒不充分;加熱時(shí)間太短;某些鋼種的鋼錠特別容易裂;大型鋼錠比小型鋼錠容易裂。 一個示例:加熱爐生產(chǎn)質(zhì)量數(shù)據(jù)挖掘參加挖掘的工藝參數(shù)(共7個參數(shù)):爐膛溫度(500℃ — 1700 ℃,采樣周期:1 sec)煙道成分(1% — 10% ,采樣周期:1 min)加熱時(shí)間(0.6 hr — 2.2 hr)鋼錠鋼種(高碳、中碳、低碳、鎮(zhèn)靜、沸騰、硅鋼)鋼錠規(guī)格(0.5 T、 1.0 T、 1.5 T、 2.0 T)燃料流量(1000 m3/hr — 2000 m3/hr ,采樣周期:1 sec)翻板開度(0% — 100%)一個示例:加熱爐生產(chǎn)質(zhì)量數(shù)據(jù)挖掘時(shí)間序列的模式抽取(共10個特征模式,均有物理意義)爐膛溫度:各加熱段的平均溫度、各加熱段之間的最大溫差、各加熱段內(nèi)的最大溫度波動;煙道成分:各加熱段的平均煙道氣含氧量;加熱時(shí)間:各加熱段的加熱時(shí)間;鋼錠鋼種:鋼種;鋼錠規(guī)格:規(guī)格;燃料流量:各加熱段的平均流量、各加熱段內(nèi)的最大流量波動;翻板開度:各加熱段的翻板開度。一個示例:加熱爐生產(chǎn)質(zhì)量數(shù)據(jù)挖掘樣本抽。好考訜嵋粻t鋼錠的生產(chǎn)歷史數(shù)據(jù)記錄為一組樣本。數(shù)據(jù)挖掘步驟:數(shù)據(jù)清洗:去除野值、數(shù)據(jù)平滑(移動平均)模式抽取:所有樣本各抽取10個特征模式若用于質(zhì)量預(yù)測:主元分析:去除次要特征模式;分類分析:建立質(zhì)量分類模型(決策樹); 若用于質(zhì)量分析:主元分析:去除次要特征模式;相關(guān)分析:計(jì)算主要特征模式與鋼錠內(nèi)裂之間的相關(guān)度;結(jié)果驗(yàn)證:用測試樣本集對挖掘結(jié)果進(jìn)行測試結(jié)果輸出:輸出質(zhì)量分類決策樹或質(zhì)量相關(guān)分析結(jié)果。 謝謝!
大數(shù)據(jù)數(shù)據(jù)挖掘ppt:這是大數(shù)據(jù)數(shù)據(jù)挖掘ppt,包括了大數(shù)據(jù)平臺生態(tài)系統(tǒng),應(yīng)用與研究,軟件著作權(quán),大數(shù)據(jù)是什么?數(shù)據(jù)挖掘是什么,解決方案-比賽任務(wù)等內(nèi)容,歡迎點(diǎn)擊下載。
數(shù)據(jù)挖掘課件ppt:這是數(shù)據(jù)挖掘課件ppt,包括了華院分析公司簡介,華院分析為客戶提供數(shù)據(jù)挖掘整體解決方案,華院分析團(tuán)隊(duì)介紹,在中國移動集團(tuán)內(nèi)部的主要工作介紹,虛增放號與不穩(wěn)定的用戶群體進(jìn)一步增大了銷售成本等內(nèi)容,歡迎點(diǎn)擊下載。
數(shù)據(jù)挖掘ppt王燦:這是數(shù)據(jù)挖掘ppt王燦,包括了電子商務(wù)與數(shù)據(jù)挖掘——完美結(jié)合,電子商務(wù)為數(shù)據(jù)挖掘提供海量數(shù)據(jù),豐富的記錄信息,“干凈的數(shù)據(jù)”,投資收益容易衡量,對電子商務(wù)網(wǎng)站的Web數(shù)據(jù)挖掘,Web Usage Mining的作用,Web Usage Mining的基本過程,課后思考等內(nèi)容,歡迎點(diǎn)擊下載。