- 의사결정 트리는 지니 계수, 엔트로피 또는 분산과 같은 측정값을 사용하여 불순도를 최소화하도록 선택된 재귀적 분할을 통해 예측을 모델링합니다.
- 정보 이득은 각 노드에서 특징과 임계값 선택을 안내하여 트리가 회귀와 분류 모두를 처리할 수 있도록 합니다.
- max_depth, min_samples_split, min_information_gain과 같은 하이퍼파라미터는 과적합과 트리의 복잡성을 제어합니다.
- 단일 트리의 작동 방식을 이해하는 것은 성능을 안정화하고 향상시키는 랜덤 포레스트와 같은 앙상블 알고리즘으로 넘어가기 전에 필수적입니다.
의사결정 트리 회귀 모델을 처음부터 직접 구현하는 것은 트리 기반 모델의 사고방식과 머신러닝에서 그토록 인기 있는 이유를 진정으로 이해하고 싶다면 해볼 수 있는 가장 놀라운 경험 중 하나입니다. 트리를 불가사의한 블랙박스로 취급하는 대신, 회귀 및 분류 문제 모두에서 각 분할이 어떻게 선택되는지, 불순도가 어떻게 측정되는지, 그리고 리프 노드에서 수치 예측이 어떻게 생성되는지를 확인할 수 있습니다.
이 가이드에서는 의사결정 트리의 핵심 개념, 트리에서 사용하는 비용 함수, 최적의 분할을 찾는 방법, 그리고 반복문, 조건문, 간단한 통계와 같은 기본 개념만을 사용하여 회귀 및 분류를 모두 지원하는 기본적인 트리를 코딩하는 방법을 살펴보겠습니다. 이 과정에서 회귀 트리와 분류 트리를 비교하고, 이론을 Python 및 R과 같은 도구(예: rpart 및 tree)를 사용한 실제 구현과 연결하며, 의사 결정 트리가 랜덤 포레스트와 같은 더 큰 앙상블 내에서 어떤 위치를 차지하는지 간략하게 살펴보겠습니다.
의사결정 트리는 무엇이며, 왜 그렇게 직관적일까요?
의사결정 트리는 기본적으로 최상위 결정부터 최하위 노드의 최종 예측에 이르기까지 일련의 예/아니오 질문(또는 간단한 규칙)의 흐름입니다. 일반적인 지도 학습 환경에서 목표는 목표 변수를 예측하는 것입니다. Y 여러 예측 변수(특징, 공변량)를 사용하여 트리는 "체중이 103 이하인가?" 또는 "국가가 {미국, 영국, 캐나다} 중 하나인가?"와 같은 일련의 질문을 학습하여 데이터를 점진적으로 더 동질적인 그룹으로 나눕니다.
좀 더 쉽게 이해하기 위해, 키와 몸무게만으로 누군가의 비만 여부를 예측하고 싶다고 가정해 보세요. 그리고 누가 비만이고 누가 비만이 아닌지를 알려주는 레이블이 지정된 데이터셋이 있다고 생각해 보세요. 학습 트리는 "몸무게가 100kg 이상이면 비만으로 예측한다"와 같은 규칙을 발견할 수 있지만, 이 규칙은 완벽하지 않습니다. 100kg 이상인 사람 중에도 비만이 아닌 사람이 있고, 그보다 작은 사람 중에도 비만인 사람이 있기 때문입니다. 따라서 학습 트리는 키나 더 세분화된 몸무게 기준치와 같은 추가 질문(하위 분기)을 계속 추가하여 초기 대략적인 예측을 "정밀하게 조정"합니다.
트리의 각 내부 노드는 결정 규칙에 해당하고, 각 분기는 해당 규칙의 결과 중 하나에 해당하며, 각 리프 노드는 예측값이 일정한 특징 공간의 영역에 해당합니다. 분류 문제에서 리프 노드는 클래스 레이블(또는 레이블에 대한 확률 분포)을 반환하고, 회귀 문제에서 리프 노드는 일반적으로 해당 영역에 속하는 목표값들의 평균을 반환합니다.
의사결정 트리의 주요 장점 중 하나는 회귀와 분류를 모두 자연스럽게 처리하고, 해석하기 쉬우며, 복잡한 전처리 없이도 정량적 및 정성적(범주형) 예측 변수 모두에서 작동한다는 점입니다. 특징이나 목표 변수에 대해 특정 분포를 가정할 필요가 없으므로, 고전적인 선형 가정이 종종 위반되는 실제 시나리오에서 트리 구조는 매우 매력적입니다.
분류 트리와 회귀 트리 비교
분류 트리와 회귀 트리의 구조는 동일하지만, 응답 변수 Y의 특성과 분할에 사용되는 비용 함수는 두 유형 간에 차이가 있습니다. Y가 양적 변수(예: 판매량, 기대 수명, 연료 소비량)일 때는 회귀 트리를 사용하고, Y가 질적 또는 범주형 변수(예: 생존 여부, 비만 여부)일 때는 분류 트리를 사용합니다.
회귀 트리에서 일반적인 목표는 반응 변수가 상수로 근사될 수 있는 영역으로 특징 공간을 분할하는 것이며, 이 상수는 종종 해당 영역 내 관측값의 평균입니다. 일반적인 결정 규칙은 "x이다"라는 형태를 갖습니다.k ≤ c?”, 여기서 xk 는 공변량 중 하나이고 c는 임계값입니다. 이러한 규칙은 공간을 반복적으로 초직사각형으로 분할하며, 동일한 초직사각형 내의 모든 점은 동일한 예측값 ŷ를 공유합니다.
분류 트리에서 분할 기준은 여전히 "특징 ≤ 임계값?" 또는 "범주 집합 S에 속하는가?"이지만, 분할의 품질은 결과적으로 생성되는 자식 노드가 클래스 레이블 측면에서 얼마나 순수한지에 따라 측정됩니다. 리프 노드 예측은 일반적으로 해당 노드 내의 다수 클래스를 기반으로 하며, 모델은 가능한 한 단일 클래스만 포함하는 리프 노드를 생성하려고 합니다.
대상 유형의 차이에도 불구하고 코딩 관점에서는 단일의 일반적인 트리 구조를 구현하고 회귀 또는 분류 수행 여부에 따라 서로 다른 불순도 또는 손실 측정값을 간단히 입력할 수 있습니다. 나중에 정보 이득을 계산할 때, 분류(엔트로피 기반)와 회귀(분산 기반) 공식이 본질적으로 유사하다는 것을 알게 될 것입니다.
의사결정 트리의 불순물 및 비용 함수
모든 의사결정 트리 알고리즘의 핵심에는 특정 분할이 데이터를 의미 있는 그룹으로 얼마나 잘 분리하는지를 평가하는 비용 함수가 있습니다. 이 비용 함수는 불순도 측면에서 표현됩니다. 노드의 모든 샘플이 동일한 클래스에 속하거나(분류의 경우) 거의 동일한 수치 값을 가질 때(회귀의 경우) 해당 노드는 순수한 것으로 간주됩니다.
특정 특징을 기준으로 후보 분할을 선택할 때마다 알고리즘은 생성된 자식 노드를 살펴보고 "각 자식 노드의 레이블(또는 값)이 얼마나 혼합되어 있는가?"라는 질문을 던집니다. 좋은 분할이란 자식 노드가 부모 노드보다 불순물이 훨씬 적은 분할을 의미하며, 이는 각 자식 노드 내의 데이터가 목표 노드에 대해 더 동질적이라는 것을 뜻합니다.
분류 트리에서 불순도는 일반적으로 지니 계수나 엔트로피와 같은 기준으로 측정되는데, 이 두 가지 모두 해당 노드에서 무작위로 선택된 관측치가 다수 클래스를 예측했을 때 잘못 분류될 가능성을 나타냅니다. 회귀 트리에서 불순도는 일반적으로 제곱 오차 또는 분산으로 측정되며, 이는 노드 내에서 목표값이 얼마나 퍼져 있는지를 반영합니다.
지니 지수: 분류 트리의 불순도 측정
지니 계수는 계산이 간단하고 실제 적용에서 효과가 좋기 때문에 분류 트리의 불순도 측정에 가장 일반적으로 사용되는 지표 중 하나입니다. 개념적으로, 이는 해당 노드의 레이블 분포에 따라 레이블을 예측했을 때, 노드에서 무작위로 선택된 관측치가 잘못 분류될 확률을 측정합니다.
노드에 확률이 P인 클래스가 포함되어 있는 경우1, P2, …, Pn지니 계수는 Gini = 1 − Σ (P)로 계산됩니다.i)². 노드가 완벽하게 순수할 때(모든 관측치가 동일한 클래스에 속할 때), 확률 중 하나가 1이고 나머지는 모두 0이므로 제곱합은 1이고 지니 계수는 0이 되어 완전한 순수성을 나타냅니다.
반면에 지니 계수는 노드 내부에 클래스가 고르게 혼합되어 있을 때, 예를 들어 P를 사용하는 이진 문제에서 최대값을 나타냅니다.1 = P2 = 0.5이므로 지니 계수는 1 − (0.5² + 0.5²) = 0.5가 됩니다. 그러한 상황에서는 노드에 각 클래스의 절반씩이 포함되어 있기 때문에 해당 분포에서 다수 클래스를 예측하는 것은 최악의 결과가 됩니다.
코드로 지니 계수를 구현할 때는 일반적으로 노드의 레이블 벡터를 가져와 각 클래스의 빈도를 계산하고, 빈도를 확률로 변환한 다음, 1 − Σ p² 공식을 적용합니다. 여러 개의 후보 분할에 대해 이 작업을 수행하면 어떤 분할이 가중 평균 지니 불순도가 더 낮은 자식 노드를 생성하는지 비교할 수 있으며, 이는 트리가 최적의 분할을 결정하는 데 필요한 요소입니다.
엔트로피: 분류 불순도에 대한 또 다른 관점
엔트로피는 정보 이론과 ID3, C4.5와 같은 초기 트리 알고리즘에서 널리 사용되는 대안적인 불순도 측정 방법으로, 노드의 클래스 분포에 포함된 무작위성 또는 불확실성의 정도를 나타냅니다. 지니 계수는 오분류 확률에 초점을 맞추는 반면, 엔트로피는 분포가 혼합된 경우 특정 클래스를 관찰할 때 발생하는 "놀라움"을 정량화합니다.
주어진 클래스 확률 p1, …, pc 노드 S의 엔트로피는 E(S) = − Σ p로 정의됩니다.i log₂(pi). 노드가 순수하면 확률 중 하나가 1이고 나머지는 모두 0이므로 합이 0이 됩니다(log₂(1) = 0이기 때문). 따라서 엔트로피는 0이 되어 불확실성이 없음을 나타냅니다.
노드에 클래스가 균일하게 분포되어 있을 때 엔트로피가 최대화됩니다. 이진 문제의 경우 p는 다음과 같습니다.1 = 피2 = 0.5일 때 엔트로피는 1비트이며, 이는 두 클래스에 대해 가능한 가장 높은 값입니다. 이 값은 최대 불확실성에 해당하며, 이는 해당 분포 하에서 노드가 가능한 한 가장 불순한 상태임을 의미합니다.
지니 계수와 엔트로피는 서로 다른 공식과 수치 범위(지니 계수는 두 클래스에 대해 0~0.5, 엔트로피는 0~1)를 사용하지만, 본질적으로 동일한 개념을 측정하므로 실제로 매우 유사한 트리 구조를 나타내는 경우가 많습니다. 같은 노드에서 두 값을 모두 계산하면 지니 계수가 높을수록 엔트로피가 높고 그 반대도 마찬가지라는 것을 알 수 있습니다. 이것이 바로 많은 라이브러리에서 성능에 큰 변화 없이 둘 중 하나를 선택할 수 있도록 하는 이유입니다.
정보 획득 및 최적의 분할 선택
트리 알고리즘은 여러 후보 중에서 최적의 분할을 선택하기 위해 정보 이득이라는 지표를 사용합니다. 이 지표는 노드를 자식 노드로 분할할 때 불순도가 얼마나 감소하는지를 측정합니다. 직관적으로, 자식 그룹이 부모 그룹보다 훨씬 더 순수하다면 분할은 높은 정보 이득을 가지며, 이는 해당 규칙이 데이터를 더 의미 있는 그룹으로 성공적으로 분리했음을 의미합니다.
엔트로피를 사용하는 분류 트리의 경우, 분할의 정보 이득은 IG로 정의됩니다.분류 = E(parent) − Σ (|S아이| / |S부모의|) · E(S아이). 먼저 부모 노드의 엔트로피를 계산한 다음, 자식 노드들의 가중 평균 엔트로피를 뺍니다. 여기서 가중치는 자식 노드들의 상대적인 크기입니다.
회귀 트리의 경우, 유사한 개념으로 분산 또는 평균 제곱 오차를 불순도 측정 기준으로 사용하여 IG를 얻습니다.되돌아옴 = Var(parent) − Σ (|S아이| / |S부모의|) · Var(S아이). 이러한 상황에서 좋은 분할이란 각 자식 내의 목표값 변동성을 크게 줄이는 분할입니다.
트리 학습 알고리즘은 모든 특징에 대해 가능한 모든 후보 분할에 대한 정보 이득을 평가한 다음, 불필요하고 작은 개선을 방지하기 위해 최소 임계값을 초과하는 경우 가장 높은 이득을 가진 분할을 선택합니다. 이 과정은 특정 종료 기준에 도달할 때까지 각 자식 노드에서 재귀적으로 반복됩니다.
각 기능별로 최적의 분할을 찾는 방법
단일 특징에 대한 최적의 분할을 찾는 것은 해당 특징이 숫자형인지 범주형인지에 따라 다르지만, 기본 아이디어는 항상 동일합니다. 즉, 후보 분할을 열거하고 정보 이득을 계산하는 것입니다. 수치형 특징의 경우, 분할은 임계값으로 정의되고, 범주형 특징의 경우, 수준들을 하위 집합으로 그룹화하여 정의됩니다.
수치형 예측기의 경우, 일반적인 전략은 현재 노드에서 해당 특징이 가지는 모든 고유값을 살펴보고, 정렬한 다음, 연속된 값들 사이의 임계값 후보를 고려하는 것입니다. 각 후보 임계값 c에 대해 두 그룹(x ≤ c 및 x > c)을 생성하고, 각 그룹의 불순도를 계산한 다음 정보 이득을 계산합니다. 가장 높은 이득을 나타내는 임계값이 해당 특징에 대한 최적의 수치 분할입니다.
범주형 예측 변수를 다룰 때는 탐색 공간이 더 복잡해집니다. 원칙적으로 범주의 어떤 부분집합이든 분할의 한쪽을 형성할 수 있고, 나머지 부분이 다른 쪽을 형성할 수 있기 때문입니다. K개의 범주를 가진 특징에는 많은 부분집합(2)이 존재합니다.케이-1 − 1 비자명 분할), 따라서 실제 구현에서는 특히 K가 클 때 이러한 검색을 제한하거나 휴리스틱을 사용하는 경우가 많습니다.
각 특징에 대한 최적의 분할을 계산한 후에는 정보 이득을 비교하여 최대 이득에 해당하는 특징과 임계값(또는 범주 하위 집합)을 선택합니다. 선택된 분할은 현재 노드에서의 결정 사항이 되며, 학습 과정은 해당 관측치 하위 집합을 사용하여 각 자식 노드에 대해 재귀적으로 진행됩니다.
하이퍼파라미터를 이용한 나무 성장 제어
의사결정 트리가 아무런 제약 조건 없이 성장하도록 허용하면, 모든 리프 노드가 완벽하게 순수하거나 매우 적은 수의 관측치만을 포함할 때까지 계속 분할되는데, 이는 거의 항상 심각한 과적합으로 이어집니다.과적 합 vs 과소 적합). 이를 방지하기 위해 트리의 깊이와 복잡성을 제어하는 하이퍼파라미터 모음을 설정합니다.
흔히 사용되는 하이퍼파라미터 중 하나는 max_depth인데, 이는 트리가 루트에서 리프까지 성장할 수 있는 최대 레벨 수를 제한합니다. max_depth를 None(또는 매우 큰 숫자)으로 설정하면 다른 제약 조건이 충족되는 한 트리는 계속 성장할 수 있습니다. 반대로 max_depth가 작으면 트리는 얕게 유지되어 해석하기 쉽지만 과소적합될 수 있습니다.
또 다른 중요한 하이퍼파라미터는 min_samples_split으로, 노드가 분할되기 전에 해당 노드가 포함해야 하는 최소 관측치 수를 지정합니다. 노드의 샘플 수가 이 임계값보다 적으면 해당 노드는 리프 노드로 전환되어 모델이 매우 작은 데이터 하위 집합에서 노이즈를 추적하는 것을 방지합니다.
또한 최소 정보 이득(min_information_gain)을 설정하여 알고리즘이 불순도 감소에 의미 있는 개선을 가져오는 경우에만 분할을 수행하도록 할 수 있습니다. 이렇게 하면 예측에 거의 변화를 주지 않고 트리 구조만 복잡하게 만드는 불필요한 분기를 생성하는 것을 방지할 수 있습니다.
코드로 의사결정 트리를 처음부터 구축하기
의사결정 트리를 처음부터 구현하는 것은 일반적으로 재귀적으로 호출되는 몇 가지 핵심 함수를 중심으로 이루어집니다. scikit-learn이나 rpart 같은 라이브러리가 이 모든 작업을 내부적으로 처리하지만, 이러한 단계를 직접 코딩하면 논리가 훨씬 명확해집니다.프로그래밍 논리) 그리고 동작을 완벽하게 제어할 수 있게 해줍니다.
먼저, 노드의 현재 데이터를 기반으로 모든 특징과 모든 후보 분할을 평가하여 정보 이득이 가장 높은 분할을 찾는 루틴이 필요합니다. 이 함수는 선택된 특징, 분할 규칙(임계값 또는 범주 하위 집합), 이득 값, 그리고 어떤 샘플이 왼쪽으로 가고 어떤 샘플이 오른쪽으로 가는지를 식별하는 부울 마스크 또는 인덱스 집합을 반환합니다.
둘째, 리프 노드에 대한 예측 함수가 필요합니다. 이 함수는 해당 노드의 목표 값 집합을 단일 예측값으로 변환합니다. 회귀 분석의 경우, 이는 일반적으로 해당 노드의 y 값의 평균입니다. 분류 분석의 경우, 일반적으로 최빈값(가장 빈번하게 나타나는 클래스)을 사용하며, 확률적 출력을 원하는 경우 클래스 확률도 함께 저장할 수 있습니다.
세 번째로, 종료 기준을 확인하고, 허용되는 경우 최적의 분할을 검색한 다음, 왼쪽 및 오른쪽 부분 집합에 대해 자기 자신을 호출하여 자식 노드를 구축하는 재귀적 학습 함수를 생성합니다. 최소 샘플 크기, 최대 깊이 또는 최소 이득 조건이 충족되지 않으면 함수는 분할을 중지하고 추가 분기 대신 리프 예측을 저장합니다.
학습된 의사결정 트리에서 예측이 작동하는 방식
트리 학습이 완료되고 모든 분할 규칙과 리프 예측이 저장되면, 새로운 관측치에 대한 예측은 단순히 트리의 루트에서 리프까지 내려가는 과정으로 간단하게 수행할 수 있습니다. 각 내부 노드에서 필수 기능을 검사하고 관측값이 노드의 조건을 만족하는지 테스트합니다.
분할 규칙이 숫자형인 경우, 특징 값이 임계값보다 작거나 같은지 확인합니다. 분할 규칙이 범주형인 경우, 해당 범주가 특정 하위 집합에 속하는지 확인합니다. 결과에 따라 적절한 분기(예: "예"는 왼쪽, "아니오"는 오른쪽)를 따라가서 다음 노드에서 이 과정을 반복합니다.
자식이 없는 노드, 즉 상수 출력값이나 클래스 레이블을 저장하는 리프 노드에 도달할 때까지 트리를 계속 내려갑니다. 회귀 트리의 경우 예측값은 예상 수명이나 연료 효율과 같은 숫자가 되고, 분류 트리의 경우 출력값은 "생존" 또는 "사망"과 같은 예측 범주가 됩니다.
훈련에 사용했던 동일한 데이터로 이 접근 방식을 테스트하면 분류에서 상당히 높은 정확도(예: 간단한 비만 또는 타이타닉호 관련 사례에서 약 85%)를 얻을 수 있지만, 트리가 너무 깊으면 미지의 데이터에서 성능이 떨어질 수 있습니다. 바로 이러한 이유 때문에 트리의 깊이와 크기를 제어하는 것이 매우 중요하며, 트리 예측을 안정화하기 위해 랜덤 포레스트와 같은 앙상블 기법이 개발된 것입니다.
회귀 트리를 실제로 활용하는 방법
회귀 트리는 예측 변수와 반응 변수 간의 관계가 강하게 비선형적이고 고전적인 선형 회귀로는 모델링하기 어려운 상호 작용을 포함할 때 특히 유용합니다. 단일 전역 방정식을 적용하려고 하는 대신, 트리 구조는 특징 공간을 영역으로 분할하고 각 영역 내에서 간단한 상수 모델을 적용합니다.
R에서는 rpart 및 tree와 같은 인기 있는 패키지를 사용하면 y ~ x1 + x2 + … + x11과 같은 공식을 지정하여 단일 함수 호출로 회귀 트리를 쉽게 구축할 수 있습니다. 이 패키지들은 브레이먼과 그의 동료들이 설명한 원래의 CART 방법론의 영향을 받았으며, 현대 트리 기반 모델링에서 표준으로 사용되는 분할 및 가지치기 아이디어를 많이 구현하고 있습니다.
예를 들어, rpart 패키지를 사용하여 11개의 공변량 x1부터 x11까지를 기반으로 반응 변수 y를 모델링하고, 결측값을 제거한 다음, rpart.plot 패키지의 prp와 같은 도우미 함수를 사용하여 결과 트리를 시각화할 수 있습니다. 터미널 노드는 각 지역에 대한 예측된 y 값을 보여주며, 이 값을 새로운 관측에 직접 사용할 수 있습니다.
학습된 회귀 트리가 주어지면, x9 = 70, x2 = 100 또는 x9 = 60, x2 = 150과 같은 새로운 공변량 값을 예측 함수에 입력하여 추정값 ŷ(예를 들어 연료 소비 예시에서 약 20 또는 28)을 얻을 수 있습니다. 예를 들어 y와 ŷ 사이의 상관관계를 통해 이러한 예측값을 관측값과 비교하면 데이터 세트가 상당히 작더라도 트리가 기본 패턴을 얼마나 잘 포착하는지 빠르게 파악할 수 있습니다.
낱개 나무부터 무작위로 심어진 숲까지
단일 의사결정 트리는 강력하지만 훈련 데이터의 특성에 매우 민감하여 높은 분산을 초래할 수 있다는 단점도 있습니다.편향과 분산) 및 과적합. 이러한 문제를 완화하기 위해 랜덤 포레스트는 부트스트랩 방식으로 추출한 데이터 샘플을 기반으로 여러 개의 트리를 구축하고 예측 결과를 통합하여 보다 안정적이고 일반적으로 더 정확한 모델을 생성합니다.
랜덤 포레스트에서 각 트리는 부트스트랩 샘플을 사용하여 학습됩니다. 즉, 원래 학습 데이터 세트에서 복원 추출 방식으로 동일한 크기의 새로운 데이터 세트를 추출합니다. 이러한 샘플링 과정 덕분에 각 트리는 약간씩 다른 데이터 세트를 보게 되므로 오류 간의 상관관계가 줄어들고 집계될 때 서로 상쇄될 수 있습니다.
또한, 랜덤 포레스트는 모든 예측 변수를 고려하는 대신 각 분할에서 무작위로 선택된 예측 변수 하위 집합만을 고려함으로써 특징 선택 과정에 무작위성을 도입합니다. 이는 나무들 간의 상관관계를 더욱 줄이고, 숲의 다양성을 높이며, 편향을 지나치게 증가시키지 않으면서 분산을 줄이는 경향이 있습니다.
부트스트래핑과 예측값 집계의 조합을 배깅(bagging)이라고 하며, 랜덤 포레스트에서는 부트스트랩 샘플에 포함되지 않은 데이터 포인트(소위 아웃오브백 관측값)를 사용하여 각 트리를 평가함으로써 모델 오류에 대한 내부 추정치를 얻을 수도 있습니다. 이 아웃오브백 오류는 별도의 검증 세트 없이도 성능을 측정할 수 있는 편리한 방법을 제공합니다.
이 글에서는 처음부터 단일 트리를 구축하는 데 초점을 맞추지만, 이 기본 구성 요소가 어떻게 작동하는지 이해하면 랜덤 포레스트, 그래디언트 부스팅 및 기타 트리 기반 방법과 같은 앙상블 기법이 어떻게 동일한 원리를 기반으로 하여 다양한 응용 문제에서 최첨단 결과를 달성하는지 훨씬 쉽게 파악할 수 있습니다.
종합적으로 보면, 의사결정 트리 회귀 분석을 처음부터 배우는 것은 간단한 규칙, 비용 함수, 그리고 재귀적 분할을 통해 복잡한 관계를 모델링하는 방법을 보여줍니다. 생존과 같은 이진 결과, 비만 상태와 같은 범주형 레이블, 또는 기대 수명이나 연료 소비량과 같은 수치적 목표 변수 등 어떤 경우든 이러한 모델링이 가능하며, 이러한 심층적인 이해는 실제 현장에서 더욱 고급 트리 기반 기법을 사용하는 데 탄탄한 토대가 됩니다.