-
- 素材大小:
- 1 MB
- 素材授權(quán):
- 免費(fèi)下載
- 素材格式:
- .ppt
- 素材上傳:
- lipeier
- 上傳時(shí)間:
- 2020-01-09
- 素材編號(hào):
- 249369
- 素材類別:
- 課件PPT
-
素材預(yù)覽
這是大數(shù)據(jù)數(shù)據(jù)挖掘ppt,包括了大數(shù)據(jù)平臺(tái)生態(tài)系統(tǒng),應(yīng)用與研究,軟件著作權(quán),大數(shù)據(jù)是什么?數(shù)據(jù)挖掘是什么,解決方案-比賽任務(wù)等內(nèi)容,歡迎點(diǎn)擊下載。
大數(shù)據(jù)數(shù)據(jù)挖掘ppt是由紅軟PPT免費(fèi)下載網(wǎng)推薦的一款課件PPT類型的PowerPoint.
基于大數(shù)據(jù)平臺(tái)的數(shù)據(jù)挖掘的研究與應(yīng)用 曹水根 研究與應(yīng)用 賽題背景: 阿里巴巴旗下電商擁有海量的買家和賣家交易場景下的數(shù)據(jù)。利用數(shù)據(jù)挖掘技術(shù),我們能對(duì)未來的商品需求量進(jìn)行準(zhǔn)確地預(yù)測,從而幫助商家自動(dòng)化很多供應(yīng)鏈過程中的決策。這些以大數(shù)據(jù)驅(qū)動(dòng)的供應(yīng)鏈能夠幫助商家大幅降低運(yùn)營成本,提升用戶的體驗(yàn),對(duì)整個(gè)電商行業(yè)的效率提升起到重要作用。 解決方案-比賽任務(wù) 評(píng)測成本: 在本賽題中,參賽者需要提供對(duì)于每個(gè)商品在未來兩周的全國最優(yōu)目標(biāo)庫存和分倉區(qū)域最優(yōu)目標(biāo)庫存的預(yù)測。我們會(huì)提供每一個(gè)商品的補(bǔ)少成本(A)和補(bǔ)多成本(B),然后根據(jù)用戶預(yù)測的目標(biāo)庫存值跟實(shí)際的需求的差異來計(jì)算總的成本。參賽者的目標(biāo)是讓總的成本最低。 解決方案-比賽任務(wù) 賽題數(shù)據(jù): 我們提供商品從20141010到20151227的全國和區(qū)域分倉數(shù)據(jù)。參賽者需給出后面兩周(20151228-20160110)的全國和區(qū)域分倉目標(biāo)庫存。 商品在全國的特征包括商品的本身的一些分類:類目、品牌等,還有歷史的一些用戶行為特征:瀏覽人數(shù)、加購物車人數(shù),購買人數(shù)。注意我們要預(yù)測的未來需求是“非聚劃算支付件數(shù)”(qty_alipay_njhs)。 數(shù)據(jù)預(yù)處理 采樣與過濾 加權(quán)采樣: 以加權(quán)方式生成采樣數(shù)據(jù);權(quán)重列必須為double或int類型,按照該列的value大小采樣;如col的值是1.2和1.0;則value=1.2所屬樣本的被采樣的概率就大一些。 隨機(jī)采樣: 以隨機(jī)方式生成采樣數(shù)據(jù),每次采樣是各自獨(dú)立的。 過濾與映射: 對(duì)數(shù)據(jù)按照過濾表達(dá)式進(jìn)行篩選。"過濾條件"中填寫where語句后面的sql腳本即可;"映射規(guī)則"可以rename字段名稱。 分層采樣 : 根據(jù)用戶指定的分組字段分層采樣樣本 數(shù)據(jù)合并 JOIN: 類似sql join的功能,將兩張表通過一個(gè)字段關(guān)聯(lián)合成一張表;同時(shí)用戶可以rename輸出的字段名稱 合并列: 將兩張表的數(shù)據(jù)按列合并,需要表的行數(shù)保持一致,否則報(bào)錯(cuò)。 UNION: 類似sql union的功能,將兩張表的數(shù)據(jù)按行合并,左、右表選擇輸出的字段保持完全一致;"去重"是union,不"去重"是union all。 增加序列號(hào) 在數(shù)據(jù)表第一列追加ID列。 缺失值填充 忽略元組 人工填寫缺失值 使用全局常量(如Unknown)填寫缺失值 使用屬性的中心度量(如均值或者中位數(shù))填充缺失值 使用與給定元組屬同一類的所以樣本的屬性均值或中心值 使用最可能的值填充缺失值 拆分 按照比例拆分樣本集,如設(shè)置0.6,切分成60:40兩個(gè)樣本集 歸一化 min-max 標(biāo)準(zhǔn)化 也稱為離差標(biāo)準(zhǔn)化,是對(duì)原始數(shù)據(jù)的線性變換,使結(jié)果值映射到[0 - 1]之間。轉(zhuǎn)換函數(shù)如下: 其中max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值。這種方法有個(gè)缺陷就是當(dāng)有新數(shù)據(jù)加入時(shí),可能導(dǎo)致max和min的變化,需要重新定義。 標(biāo)準(zhǔn)化 Z-score標(biāo)準(zhǔn)化方法 這種方法給予原始數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation)進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化。經(jīng)過處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1,轉(zhuǎn)化函數(shù)為: 結(jié)合賽題的實(shí)際情況所做的一些具體的數(shù)據(jù)預(yù)處理步驟 特征工程 菜鳥-需求預(yù)測與分倉規(guī)劃項(xiàng)目的特征工程 特征變換 特征變換 隨機(jī)森林 特征重要性評(píng)估 特征重要性評(píng)估 特征選擇與生成 統(tǒng)計(jì)分析 機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí) 評(píng)估 評(píng)估 軟件著作權(quán) 總結(jié) 1、找工作要早作準(zhǔn)備 2、大數(shù)據(jù)工作類型
數(shù)據(jù)挖掘課件ppt:這是數(shù)據(jù)挖掘課件ppt,包括了華院分析公司簡介,華院分析為客戶提供數(shù)據(jù)挖掘整體解決方案,華院分析團(tuán)隊(duì)介紹,在中國移動(dòng)集團(tuán)內(nèi)部的主要工作介紹,虛增放號(hào)與不穩(wěn)定的用戶群體進(jìn)一步增大了銷售成本等內(nèi)容,歡迎點(diǎn)擊下載。
數(shù)據(jù)挖掘ppt王燦:這是數(shù)據(jù)挖掘ppt王燦,包括了電子商務(wù)與數(shù)據(jù)挖掘——完美結(jié)合,電子商務(wù)為數(shù)據(jù)挖掘提供海量數(shù)據(jù),豐富的記錄信息,“干凈的數(shù)據(jù)”,投資收益容易衡量,對(duì)電子商務(wù)網(wǎng)站的Web數(shù)據(jù)挖掘,Web Usage Mining的作用,Web Usage Mining的基本過程,課后思考等內(nèi)容,歡迎點(diǎn)擊下載。
大數(shù)據(jù)挖掘ppt:這是大數(shù)據(jù)挖掘ppt,包括了數(shù)據(jù)挖掘概覽,數(shù)據(jù)預(yù)處理,分類(Classification),聚類(Cluster),關(guān)聯(lián)規(guī)則(Association Rule),回歸(Regression)等內(nèi)容,歡迎點(diǎn)擊下載。