• <var id="czqhk"></var>
  • <label id="czqhk"><rt id="czqhk"></rt></label>
  • <code id="czqhk"><label id="czqhk"></label></code>

    習題及參考答案 下載本文

    取對數:d(p,q)??log(s(p,q))

    第3章分類與回歸

    3.1 簡述決策樹分類的主要步驟。

    答:決策樹生成的過程如下:

    (1)對數據源進行數據預處理, 得到訓練集和測試集;

    (2)對訓練集進行訓練;

    (3)對初始決策樹進行樹剪枝;

    (4)由所得到的決策樹提取分類規則;

    (5)使用測試數據集進行預測,評估決策樹模型;

    3.2 給定決策樹,選項有:(1)將決策樹轉換成規則,然后對結果規則剪枝,或(2)對決策樹剪

    枝,然后將剪枝后的樹轉換成規則。相對于(2),(1)的優點是什么? 答:相對于(2),(1)的優點是:由于第一種方法已經將決策樹轉換成規則,通過規則,可以

    很快速的評估決策樹以及其子樹緊湊程度,不能提高規則的估計準確率的任何條件都可以減掉,從而泛化規則;

    3.3 計算決策樹算法在最壞情況下的時間復雜度是重要的。給定數據集D,具有m個屬性和

    |D|個訓練記錄,證明決策樹生長的計算時間最多為m?D?log(D)。

    答:假設訓練集擁有|D|實例以及m個屬性。我們需要對樹的尺寸做一個假設,假設樹的深

    度是由log |D| 決定,即O(log |D|)。考慮一個屬性在樹的所有節點上所要做的工作量。

    當然不必在每一個節點上考慮所有的實例。但在樹的每一層,必須考慮含有|D|個實例的整個數據集。由于樹有log |D|個不同的層,處理一個屬性需要的工作量是D?log(D)。在每個節點上所有屬性都要被考慮,因此總的工作量為m?D?log(D)。

    3.4 考慮表3-23所示二元分類問題的數據集。

    表3-23 習題3.4數據集 A B 類標號 T T T T T F F F T T F T T F T F F F T F + + + - + - - - - - (1) 計算按照屬性A和B劃分時的信息增益。決策樹歸納算法將會選擇那個屬性? (2) 計算按照屬性A和B劃分時Gini系數。決策樹歸納算法將會選擇那個屬性?

    第 9 頁 共 27 頁

    答:

    按照屬性A和B劃分時,數據集可分為如下兩種情況: A=T A=F 0 3 B=T B=F 1 5 + 4 - 3 + 3 - 1 (1)

    劃分前樣本集的信息熵為 E=-0.4log20.4-0.6log20.6=0.9710

    按照屬性A劃分樣本集分別得到的兩個子集(A取值T和A取值F)的信息熵分別為:

    EA?T??EA?F??4733log2log24733?3703log2log23703?0.9852

    ??0

    ?E?710EA?T?310EA?F?0.2813 按照屬性A劃分樣本集得到的信息增益為:?

    按照屬性B劃分樣本集分別得到的兩個子集(B取值T和B取值F)的信息熵分別為:

    EB?T??EB?F??3416log2log23416?1456log2log21456?0.8113

    ?E?410EB?T?610EB?F?0.2565??0.6500 按照屬性B劃分樣本集得到的信息增益為:?因此,決策樹歸納算法將會選擇屬性A。 (2)

    劃分前的Gini值為G=1-0.42-0.62=0.48 按照屬性A劃分時Gini指標:

    GA?T?4??3??1???????0.4898?7??7??3??0??1???????0

    ?3??3?2222

    GA?FGini增益??G?710GA?T?310GA?F?0.1371

    按照屬性B劃分時Gini指標:

    GB?T?1??3??1???????0.3750?4??4??1??5??1???????0.2778?6??6?2222

    GB?FGini增益??G?410GB?T?610GB?F?0.1633因此,決策樹歸納算法將會選擇屬性B。

    3.5 證明:將結點劃分為更小的后續結點之后,結點熵不會增加。

    證明:根據定義可知,熵值越大,類分布越均勻;熵值越小,類分布越不平衡。假設原有的

    結點屬于各個類的概率都相等,熵值為1,則分出來的后續結點在各個類上均勻分布,

    此時熵值為1,即熵值不變。假設原有的結點屬于個各類的概率不等,因而分出來的

    第 10 頁 共 27 頁

    后續結點不均勻地分布在各個類上,則此時的分類比原有的分類更不均勻,故熵值減少。

    3.6 為什么樸素貝葉斯稱為“樸素”?簡述樸素貝葉斯分類的主要思想。 答:樸素貝葉斯之所以稱之為樸素是因為,它假設屬性之間是相互獨立的。

    樸素貝葉斯分類的主要思想為:利用貝葉斯定理,計算未知樣本屬于某個類標號值的概率,根據概率值的大小來決定未知樣本的分類結果。

    (通過某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,即該對象屬于某一類的概率,選擇具有最大后驗概率的類作為該對象所屬的類。)

    3.7 考慮表3-24數據集,請完成以下問題:

    表3-24 習題3.7數據集

    記錄號 1 2 3 4 5 6 7 8 9 A 0 0 0 0 0 1 1 1 1 B 0 0 1 1 0 0 0 0 1 C 0 1 1 1 1 1 1 1 1 類 + - - - + + - - + |?)10 1 0 1 + (1) 估計條件概率P(A|?),P(B|?),P(C|?),P(A|?),P(B|?),P(C。

    (2) 根據(1)中的條件概率,使用樸素貝葉斯方法預測測試樣本(A=0,B=1,C=0)的類

    標號;

    (3) 使用Laplace估計方法,其中p=1/2,l=4,估計條件概率P(A|?),P(B|?),P(C|?),

    P(A|?),P(B|?),P(C|?)。 (4) 同(2),使用(3)中的條件概率

    (5) 比較估計概率的兩種方法,哪一種更好,為什么? 答:(1) P(A|?)=3/5

    P(B|?)=1/5

    =2/5

    P(B|?)=2/5

    P(A|?)P(C|?)=1

    (2) 假設P(A=0,B=1,C=0)=K

    則K屬于兩個類的概率為:

    P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(+)/K

    =P(A=0|+)P(B|+)P(C=0|+)×P(+)/K=0.4×0.2×0.2×0.5/K=0.008/K P(-|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(-)/K

    =P(A=0|-)P(B|-)P(C=0|-)×P(-)/K=0.4×0.2×0×0.5/K=0/K 則得到,此樣本的類標號是+。

    第 11 頁 共 27 頁

    (3) P(A|+)=(3+2)/(5+4)=5/9

    P(A|-)=(2+2)/(5+4)=4/9 P(B|+)=(1+2)/(5+4)=1/3 P(B|-)=(2+2)/(5+4)=4/9 P(C|-)=(0+2)/(5+4)=2/9 (4) 假設P(A=0,B=1,C=0)=K

    則K屬于兩個類的概率為:

    P(+|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(+)/K =P(A=0|+)P(B|+)P(C=0|+)×P(+)/K =(4/9) ×(1/3) ×(1/3) ×0.5/K=0.0247/K P(-|A=0,B=1,C=0)=P(A=0,B=1,C=0)×P(-)/K =P(A=0|-)P(B|-)P(C=0|-)×P(-)/K =(5/9) ×(4/9) ×(2/9) ×0.5/K=0.0274/K 則得到,此樣本的類標號是-。

    (5) 當條件概率為0的時候,條件概率的預測用Laplace估計方法比較好,因為我們不想整個條件概率計算結果為0.

    3.8 考慮表3-25中的一維數據集。

    表3-25 習題3.8數據集

    X 0.5 3.0 4.5 4.6 4.9 5.2 5.3 5.5 7.0 9.5 Y - - + + + - - + - - 根據1-最近鄰、3-最近鄰、5-最近鄰、9-最近鄰,對數據點x=5.0分類,使用多數表決。 答: 1-最近鄰:+ 3-最近鄰:-

    5-最近鄰:+ 9-最近鄰:-

    3.9 表3-26的數據集包含兩個屬性X與Y,兩個類標號“+”和“-”。每個屬性取三個不同

    值策略:0,1或2。“+”類的概念是Y=1,“-”類的概念是X=0 and X=2。

    表3-26 習題3.9數據集 X 0 1 2 1 2 0 1 2 Y 0 0 0 1 1 2 2 2 實例數 + 0 0 0 10 10 0 0 0 - 100 0 100 0 100 100 0 100 第 12 頁 共 27 頁





    免费的中国黄网站大全-恋母情结浩君全彩漫画-无翼乌之漫画漫画大全-大飞网