Python에서 평균, 중앙값 및 모드 찾기: 데이터 분석에 대한 종합 가이드
데이터 분석은 데이터 세트를 이해하고 해석하는 데 필수적인 부분입니다. 데이터 분석의 기본 측면 중 하나는 데이터의 평균, 중앙값 및 모드를 계산하는 것입니다. 이 세 가지 측정값은 중심 경향을 나타내며 데이터의 추세와 패턴을 식별하는 데 유용합니다. 이 글에서는 평균, 중앙값, 최빈값의 개념과 Python을 사용하여 이를 계산하는 방법을 살펴보겠습니다. 또한 유사한 문제를 해결하는 데 관련된 다양한 라이브러리와 기능에 대해서도 논의할 것입니다.
**평균**은 데이터세트의 평균 값으로, 값의 합을 데이터세트의 값 수로 나누어 계산합니다. **중앙값**은 데이터세트를 오름차순 또는 내림차순으로 정렬했을 때 중간 값입니다. 데이터 세트에 홀수 개의 값이 있는 경우 중앙값은 정확히 중앙에 있는 값이고, 짝수 개의 값인 경우 중앙값은 두 중간 값의 평균입니다. **모드**는 데이터세트에서 가장 자주 나타나는 값을 나타냅니다.
이러한 측정값을 계산하기 위해 숫자 목록을 입력으로 사용하고 평균, 중앙값 및 최빈값을 반환하는 Python 프로그램을 작성합니다. 이 솔루션을 구현하기 위한 단계별 접근 방식을 따르겠습니다.
# Step 1: Define a function to calculate the mean def calculate_mean(numbers): return sum(numbers) / len(numbers) # Step 2: Define a function to calculate the median def calculate_median(numbers): sorted_numbers = sorted(numbers) length = len(numbers) mid_index = length // 2 if length % 2 == 0: median = (sorted_numbers[mid_index - 1] + sorted_numbers[mid_index]) / 2 else: median = sorted_numbers[mid_index] return median # Step 3: Define a function to calculate the mode def calculate_mode(numbers): from collections import Counter count = Counter(numbers) mode = count.most_common(1)[0][0] return mode # Step 4: Implement the main function def main(): numbers = [int(x) for x in input("Enter numbers separated by spaces: ").split()] mean = calculate_mean(numbers) median = calculate_median(numbers) mode = calculate_mode(numbers) print("Mean:", mean) print("Median:", median) print("Mode:", mode) if __name__ == "__main__": main()
위의 코드는 XNUMX단계로 구성됩니다. 먼저 숫자 목록의 평균을 계산하는 함수를 정의합니다. 두 번째 단계에서는 중앙값을 계산하는 또 다른 함수를 정의합니다. 입력된 목록을 정렬하고 목록의 길이를 기준으로 중간 값을 찾는 함수입니다. 세 번째 단계에서는 컬렉션 모듈의 Counter 클래스를 사용하여 모드를 계산하는 함수를 만듭니다. 마지막 단계는 사용자 입력을 받아 이전에 정의된 함수를 호출하고 입력 데이터의 평균, 중앙값 및 최빈값을 출력하는 주 함수를 정의하는 것으로 구성됩니다.
통계 및 데이터 분석을 위한 Python 라이브러리
Python 제안 여러 라이브러리 통계 분석 및 데이터 조작에 도움이 됩니다. 인기 있는 라이브러리 중 일부는 다음과 같습니다.
- 누피 – 수치 계산, 배열 조작 및 선형 대수학을 위한 강력한 라이브러리입니다.
- 판다 – DataFrame 구조를 사용하여 데이터 조작 및 분석 기능을 제공하는 유연한 라이브러리입니다.
- SciPy – 최적화, 통합, 보간 등을 포함한 과학 컴퓨팅을 다루는 라이브러리입니다.
평균, 중앙값 및 최빈값 계산을 위해 Numpy 및 Pandas 사용
기본 Python 구현 외에도 Numpy 및 Pandas 라이브러리를 사용하여 평균, 중앙값 및 모드를 효율적으로 계산할 수 있습니다.
다음은 Numpy와 Pandas를 사용하여 데이터세트의 중심 경향을 계산하는 방법의 예입니다.
import numpy as np import pandas as pd data = [4, 2, 7, 3, 9, 1, 6, 5, 8] # Using Numpy mean_numpy = np.mean(data) median_numpy = np.median(data) # Using Pandas data_series = pd.Series(data) mode_pandas = data_series.mode().tolist() print("Mean (Numpy):", mean_numpy) print("Median (Numpy):", median_numpy) print("Mode (Pandas):", mode_pandas)
위의 예에서는 Numpy 함수 'mean()' 및 'median()'을 사용하여 각각 평균과 중앙값을 계산합니다. 모드의 경우 데이터를 Pandas Series로 변환하고 모드 목록을 반환하는 'mode()' 함수를 사용합니다.
이 문서에서는 평균, 중앙값 및 모드의 개념에 대한 포괄적인 이해와 기본 Python 및 널리 사용되는 Python 라이브러리를 사용하여 이를 계산하는 방법을 제공합니다. 이러한 접근 방식을 사용하면 데이터 분석가는 데이터 세트를 효과적으로 분석하고 해석하여 의미 있는 결론을 도출하고 데이터의 추세를 식별할 수 있습니다.