文檔庫

最新最全的文檔下載
當前位置:文檔庫 > 數據挖掘作業答案

數據挖掘作業答案

數據挖掘作業答案

第二章數據準備

5.推出在[-1,1]區間上的數據的最?。畲髽藴驶?。

解:標準化相當于按比例縮放,假如將在[minA,maxA]間的屬性A的值v映射到區間[new_minA,new_maxA],根據同比關系得:

(v-minA)/(v’-new_minA)=(maxA-minA)/(new_maxA-new_minA)

化簡得:v’=(v-minA)* (new_maxA-new_minA)/ (maxA-minA)+ new_minA

6.已知一維數據集X={-5.0 , 23.0 , 1

7.6 , 7.23 , 1.11},用下述方法對其進行標準化:

a) 在[-1,1]區間進行小數縮放。

解:X’={-0.050 ,0.230 ,0.176 ,0.0723 ,0.0111}

b) 在[0,1]區間進行最?。畲髽藴驶?。

解:X’={0 , 1 , 0.807 ,0.437 ,0.218 }

c) 在[-1,1]區間進行最?。畲髽藴驶?。

解:X’={-1 , 1 , 0.614 , -0.126 , 0.564}

d) 標準差標準化。

解:mean=8.788 sd=11.523

X’={-1.197 , 1.233 , 0.765 , -0.135 , -0.666}

e) 比較上述標準化的結果,并討論不同技術的優缺點。

解:小數縮放標準化粒度過大(以10為倍數),但計算簡單;最小-最大值標準化需要搜索整個數據集確定最小最大數值,而且最小最大值的專家估算可能會導致標準化值的無意識的集中。標準差標準化對距離測量非常效,但會把初始值轉化成了未被認可的形式。

8.已知一個帶有丟失值的四維樣本。

X1={0,1,1,2}

X2={2,1,*,1}

X3={1,*,*,-1}

X4={*,2,1,*}

如果所有屬性的定義域是[0,1,2],在丟失值被認為是“無關緊要的值”并且都被所給的定義域的所有可行值替換的情況下,“人工”樣本的數量是多少?

解:X1 “人工”樣本的數量為 1

X2 “人工”樣本的數量為 3

X3 “人工”樣本的數量為9

X4 “人工”樣本的數量為9

所以“人工”樣本的數量為1×3×9×9=243

10.數據庫中不同病人的子女數以矢量形式給出:

C={3,1,0,2,7,3,6,4,-2,0,0,10,15,6}

a)應用標準統計參數——均值和方差,找出C中的異常點:

mean=3.9286 sd=4.4153

在3個標準差下的閾值:

閾值=均值±3*標準差=3.928±3*4.4153=[-9.318,17.174]

贵州省快快3走势图