數(shù)據(jù)分析領(lǐng)域中最為人稱道的七種降維方法
2015-09-30 23:51:48 來源: 浙江易網(wǎng)科技股份有限公司(杭州)
近來由于數(shù)據(jù)記錄和屬性規(guī)模的急劇增長,大數(shù)據(jù)處理平臺和并行數(shù)據(jù)分析算法也隨之出現(xiàn)。
近來由于數(shù)據(jù)記錄和屬性規(guī)模的急劇增長,大數(shù)據(jù)處理平臺和并行數(shù)據(jù)分析算法也隨之出現(xiàn)。于此同時(shí),這也推動(dòng)了數(shù)據(jù)降維處理的應(yīng)用。實(shí)際上,數(shù)據(jù)量有時(shí)過猶不及。有時(shí)在數(shù)據(jù)分析應(yīng)用中大量的數(shù)據(jù)反而會(huì)產(chǎn)生更壞的性能。
最新的一個(gè)例子是采用 2009 KDD Challenge 大數(shù)據(jù)集來預(yù)測客戶流失量。 該數(shù)據(jù)集維度達(dá)到 15000 維。 大多數(shù)數(shù)據(jù)挖掘算法都直接對數(shù)據(jù)逐列處理,在數(shù)據(jù)數(shù)目一大時(shí),導(dǎo)致算法越來越慢。該項(xiàng)目的最重要的就是在減少數(shù)據(jù)列數(shù)的同時(shí)保證丟失的數(shù)據(jù)信息盡可能少。
以該項(xiàng)目為例,我們開始來探討在當(dāng)前數(shù)據(jù)分析領(lǐng)域中最為數(shù)據(jù)分析人員稱道和接受的數(shù)據(jù)降維方法。
缺失值比率 (Missing Values Ratio)
該方法的是基于包含太多缺失值的數(shù)據(jù)列包含有用信息的可能性較少。因此,可以將數(shù)據(jù)列缺失值大于某個(gè)閾值的列去掉。閾值越高,降維方法更為積極,即降維越少。

最新報(bào)道
- “易網(wǎng)情深”呂洋波: 不想創(chuàng)業(yè)的碼農(nóng)不是好...09/14
- 15家大數(shù)據(jù)公司被調(diào)查,行業(yè)面臨大清洗?...09/14
- 萬億規(guī)模大數(shù)據(jù)變現(xiàn)的中國路徑選擇...09/14
- 大數(shù)據(jù)時(shí)代,選擇易網(wǎng)就是選擇了財(cái)富...09/14
- 易網(wǎng)股份新三板掛牌上市 2016年1-2月營收29...09/14
- 易網(wǎng)科技與浙大網(wǎng)新建立戰(zhàn)略合作伙伴關(guān)系...09/14
- 呂洋波:易網(wǎng)科技會(huì)成功09/14
- 易網(wǎng)CEO呂洋波09/14
最新新聞
- 易網(wǎng)股份的核心競爭力09/14
- 浙江易網(wǎng)科技股份有限公司的大數(shù)據(jù)...09/14
- 浙江易網(wǎng)董事長呂洋波一文講透區(qū)塊鏈技術(shù)原...09/14
- 易網(wǎng)股份新三板掛牌上市 2015年1-12月營業(yè)...09/14
- 易網(wǎng)CEO呂洋波的“經(jīng)濟(jì)學(xué)”09/14
- 商企通CEO呂洋波:學(xué)習(xí)騰訊的“微創(chuàng)新”...09/14
- 首次公開《時(shí)尚周末》專訪易網(wǎng)CEO呂洋波的...09/14
- 易網(wǎng)CEO呂洋波(商企通在線客服)...09/14
最新動(dòng)態(tài)