Table of Contents

Rozhodovací stromy

Princip

Popis stromu

Tvorba rozhodovacího stromu

  1. Projdi trénovací množinu a najdi nejlepší atribut pro rozdělení
  2. Rozděl množinu podle hodnoty atributu
  3. Rekurzivně zpracuj každou část

Algoritmus

BuildTree(Node t, Training database D, Split Selection Method  SSSS )

 Apply  SSSS to D to find splitting criterion
 if (t is not a leaf node)
    Create children nodes of t
    Partition D into children partitions
    Recurse on each partition
 endif

Kriterium volby testovacího atributu

Entropie

Entropie v booleovské klasifikaci

<m>E(S) = − p_+ log_2 p_+ − p_-log_2 p_-</m>

Entropie nabývající m různých hodnot

<m>E(S) = - sum{i=1}{m}{p_i log_2 p_i}</m> ,

kde <m>p_i</m> je pravděpodobnost, že vzorek patří do třídy C

Informační zisk (gain)

<m>G(S,A) = E(S) - sum{v in V(A)}{}{} delim{|}{S_v}{|}/delim{|}{S}{|}E(S_v)</m> ,

kde <m>V(A)</m> je množina možných hodnot <m>A</m>,
<m>S_v</m> je podmnožina <m>S</m>, kde vzorky mají hodnotu atributu <m>A = v</m>.

Algoritmy

ID3 (C4.5, C5 (See5))

CHAID

Princip

Algoritmus

CART / C&RT

<m>div_{Gini} = 1 – sum{}{}{p^{2}_{i}}</m>

,kde <m>p_i</m> jsou relativní četnosti v uzlech

Princip

  1. strom necháme vyrůst do maximální šíře ⇒ vede k přeučení
  2. zpětně odstraníme listy a větve, které podle vhodně zvoleného statistického kriteria nelze považovat za významné (většinou se používá cross-validation)

QUEST

GUIDE

MARS

TreeNet, rozhodovací lesy