1. Trung vị là gì?
Trung vị (tiếng Anh: Median) là một trong những chỉ số đo lường xu hướng trung tâm trong thống kê. Nó là giá trị nằm ở vị trí chính giữa của một tập dữ liệu khi các giá trị đó đã được sắp xếp theo một thứ tự nhất định (tăng dần hoặc giảm dần).
Điểm đặc biệt và quan trọng nhất của trung vị là nó ít bị ảnh hưởng bởi các giá trị ngoại lai (outliers) – tức là những giá trị cực lớn hoặc cực nhỏ so với phần còn lại của dữ liệu. Điều này giúp trung vị phản ánh một cách đáng tin cậy hơn về “điểm trung tâm” của dữ liệu, đặc biệt trong các trường hợp dữ liệu có sự chênh lệch lớn hoặc phân phối không đối xứng.
Nói một cách đơn giản, nếu bạn xếp tất cả các giá trị của mình thành một hàng theo thứ tự, trung vị chính là giá trị ở đúng giữa hàng đó. Nó chia tập dữ liệu thành hai nửa bằng nhau: 50% số liệu sẽ nhỏ hơn hoặc bằng trung vị, và 50% số liệu sẽ lớn hơn hoặc bằng trung vị.
2. Cách xác định số trung vị?
Bước 1: Sắp xếp dữ liệu
Đây là bước quan trọng nhất. Bạn cần sắp xếp tất cả các giá trị trong tập dữ liệu theo thứ tự từ nhỏ đến lớn (hoặc từ lớn đến nhỏ đều được, nhưng thường thì chúng ta sắp xếp tăng dần cho dễ nhìn).
- Ví dụ 1 (số lẻ phần tử): Nếu bạn có dãy số {8, 2, 5, 10, 3}.
- Sắp xếp lại: {2, 3, 5, 8, 10}
- Ví dụ 2 (số chẵn phần tử): Nếu bạn có dãy số {15, 6, 20, 10}.
- Sắp xếp lại: {6, 10, 15, 20}
Bước 2: Xác định vị trí và giá trị của số trung vị
Sau khi đã sắp xếp, cách tìm số trung vị sẽ phụ thuộc vào việc tập dữ liệu có số lượng phần tử là số lẻ hay số chẵn.
Trường hợp 1: Số lượng phần tử (n) là số lẻ
Nếu tổng số phần tử trong tập dữ liệu là một số lẻ, **số trung vị** sẽ là giá trị nằm chính giữa dãy đã sắp xếp.
- Cách tìm vị trí: Bạn có thể dùng công thức $\frac{n+1}{2}$. Kết quả sẽ cho bạn biết vị trí của số trung vị trong dãy đã sắp xếp.
- Ví dụ: Với dãy {2, 3, 5, 8, 10} từ Ví dụ 1 ở trên.
- Tổng số phần tử $n = 5$.
- Vị trí trung vị là $\frac{5+1}{2} = 3$.
- Số nằm ở vị trí thứ 3 trong dãy đã sắp xếp là **5**.
- Vậy, **số trung vị là 5**.
Trường hợp 2: Số lượng phần tử (n) là số chẵn
Nếu tổng số phần tử trong tập dữ liệu là một số chẵn, sẽ không có một giá trị nào nằm chính giữa. Khi đó, **số trung vị** sẽ là **giá trị trung bình cộng của hai giá trị nằm ở giữa** dãy đã sắp xếp.
- Cách tìm vị trí: Hai vị trí bạn cần tìm là $\frac{n}{2}$ và $\frac{n}{2} + 1$.
- Ví dụ: Với dãy {6, 10, 15, 20} từ Ví dụ 2 ở trên.
- Tổng số phần tử $n = 4$.
- Hai vị trí ở giữa là:
- Vị trí thứ nhất: $\frac{4}{2} = 2$ (giá trị là 10)
- Vị trí thứ hai: $\frac{4}{2} + 1 = 3$ (giá trị là 15)
- Tính trung bình cộng của hai giá trị này: $\frac{10+15}{2} = \frac{25}{2} = \textbf{12.5}$.
- Vậy, **số trung vị là 12.5**.
Bằng cách làm theo hai bước này, bạn có thể dễ dàng xác định số trung vị cho bất kỳ tập dữ liệu nào, giúp bạn hiểu rõ hơn về điểm “trung tâm” của chúng.
3. Ý nghĩa của trung vị
Trung vị chia tập dữ liệu thành hai nửa bằng nhau: 50% số liệu có giá trị nhỏ hơn hoặc bằng trung vị, và 50% số liệu có giá trị lớn hơn hoặc bằng trung vị. Điều này giúp chúng ta có cái nhìn rõ ràng về “điểm trung tâm” thực sự của dữ liệu, đặc biệt hữu ích trong các trường hợp như:
- Phân tích thu nhập: Khi có một vài người có thu nhập cực cao hoặc cực thấp, trung vị sẽ cho một con số phản ánh thu nhập “điển hình” của đa số dân số chính xác hơn số trung bình.
- Điểm thi có giá trị cực đoan: Nếu một vài học sinh có điểm rất thấp hoặc rất cao, trung vị sẽ phản ánh mức độ học tập chung của lớp tốt hơn.
- Giá nhà đất: Trong một khu vực có những căn nhà giá rất cao, trung vị giá nhà sẽ cho thấy giá trị mà đa số người dân có thể mua được một cách thực tế hơn