1. Phương sai là gì?
Phương sai (ký hiệu là σ2 hoặc s2) là một đại lượng thống kê dùng để đo lường mức độ phân tán của các giá trị trong một tập dữ liệu so với giá trị trung bình của chính tập dữ liệu đó.
Nói một cách đơn giản, phương sai là con số cho bạn biết các điểm dữ liệu của bạn đang “túm tụm” gần giá trị trung bình hay đang “trải rộng” ra xa.
- Phương sai nhỏ: Dữ liệu ít biến động, tập trung dày đặc quanh giá trị trung bình.
- Phương sai lớn: Dữ liệu biến động mạnh, phân tán xa khỏi giá trị trung bình.
2. Công thức tính Phương sai

Công thức tính phương sai:
$$ \sigma^2 = \frac{\sum_{i=1}^{N} (x_i – \mu)^2}{N} $$
Trong đó:
- σ2 (Sigma bình phương): Đây chính là phương sai của tổng thể mà bạn muốn tìm. Nó là kết quả cuối cùng của công thức, đại diện cho mức độ phân tán trung bình của dữ liệu.
- N: Là tổng số lượng phần tử có trong tổng thể đó. Ví dụ, nếu bạn khảo sát điểm thi của một lớp học có 40 sinh viên, thì N = 40.
- μ (Mu): Là giá trị trung bình của toàn bộ tổng thể. Nó được tính bằng cách cộng tất cả các giá trị lại rồi chia cho tổng số lượng phần tử N. Đây là điểm trung tâm mà chúng ta dùng để đo độ lệch.
- xi: Đại diện cho từng giá trị riêng lẻ trong tổng thể của bạn. Ký hiệu “i” chỉ thứ tự của giá trị, từ giá trị đầu tiên (x1) đến giá trị cuối cùng (xN).
- (xi − μ): Đây là độ lệch hay khoảng cách từ một giá trị cụ thể xi đến giá trị trung bình μ.
- (xi − μ)2: Là bình phương của độ lệch. Việc bình phương giúp loại bỏ các giá trị âm (vì khoảng cách không thể âm) và nhấn mạnh rằng các giá trị ở càng xa trung tâm thì càng có ảnh hưởng lớn hơn đến phương sai.
- Σ (Ký hiệu tổng Sigma): Ký hiệu này yêu cầu bạn thực hiện phép tính bên phải nó (tức là tính (xi − μ)2) cho từng giá trị xi từ đầu đến cuối, sau đó cộng tất cả các kết quả đó lại với nhau.
3. Phân biệt Phương sai Tổng thể (σ²) và Phương sai Mẫu (s²)
Trong thực tế, chúng ta hiếm khi có dữ liệu của cả một tổng thể lớn (ví dụ: chiều cao của tất cả người Việt Nam). Thay vào đó, chúng ta thường làm việc với một mẫu (ví dụ: chiều cao của 1,000 người Việt Nam được chọn ngẫu nhiên).
Khi đó, ta dùng công thức phương sai mẫu:
$$ s^2 = \frac{\sum_{i=1}^{n} (x_i – \bar{x})^2}{n-1} $$
Điểm khác biệt duy nhất và quan trọng nhất là ở mẫu số: chúng ta chia cho n-1 thay vì n.
Tại sao lại có sự khác biệt này? 🤔
Việc chia cho n-1 (được gọi là “Bậc tự do”) giúp cho giá trị phương sai của mẫu (s²) trở thành một ước lượng không chệch và chính xác hơn cho phương sai của tổng thể thực sự (σ²). Nếu chia cho n, kết quả thường sẽ có xu hướng nhỏ hơn một chút so với phương sai thật của tổng thể.
4. Từ Phương sai đến Độ lệch chuẩn
Mặc dù rất hữu ích, phương sai có một nhược điểm: đơn vị của nó là bình phương đơn vị của dữ liệu gốc (ví dụ: nếu dữ liệu là mét, phương sai có đơn vị là mét vuông). Điều này gây khó khăn cho việc diễn giải trực quan.
Để giải quyết vấn đề này, chúng ta chỉ cần lấy căn bậc hai của phương sai và có được một đại lượng mới: Độ lệch chuẩn (σ hoặc s).
$$ \sigma = \sqrt{\sigma^2} $$
Độ lệch chuẩn có cùng đơn vị với dữ liệu gốc, giúp ta dễ dàng hình dung và so sánh mức độ phân tán một cách trực tiếp. Nó cho biết trung bình mỗi điểm dữ liệu lệch khỏi giá trị trung bình là bao nhiêu.
5. Ví dụ bài toán về Phương sai?
Bài toán 1:
Giả sử chúng ta có điểm thi của một nhóm 5 học sinh trong một bài kiểm tra ngắn. Điểm số (thang 15) lần lượt là: 7, 8, 8, 9, 13.
Yêu cầu: Hãy tính phương sai và độ lệch chuẩn của mẫu điểm thi này.
Vì đây là dữ liệu của một nhóm nhỏ (một mẫu), chúng ta sẽ sử dụng công thức tính phương sai mẫu (chia cho n-1
).
Bước 1: Tính giá trị trung bình của mẫu ($\bar{x}$)
Giá trị trung bình là tổng tất cả các điểm chia cho số lượng học sinh.
$$ \bar{x} = \frac{\text{Tổng các giá trị}}{\text{Số lượng giá trị}} $$
$$ \bar{x} = \frac{7 + 8 + 8 + 9 + 13}{5} = \frac{45}{5} = 9 $$
Vậy, điểm trung bình của nhóm là 9.
Bước 2: Tính tổng các bình phương của độ lệch
Đây là bước cốt lõi. Chúng ta sẽ tính khoảng cách từ mỗi điểm số đến điểm trung bình (9), sau đó bình phương kết quả đó lên. Lập một bảng sẽ giúp quá trình này rõ ràng hơn:
Điểm số ($x_i$) | Độ lệch ($x_i – \bar{x}$) | Bình phương độ lệch ($(x_i – \bar{x})^2$) |
---|---|---|
7 | 7 – 9 = -2 | (-2)² = 4 |
8 | 8 – 9 = -1 | (-1)² = 1 |
8 | 8 – 9 = -1 | (-1)² = 1 |
9 | 9 – 9 = 0 | 0² = 0 |
13 | 13 – 9 = 4 | 4² = 16 |
Tổng | 4 + 1 + 1 + 0 + 16 = 22 |
Tổng các bình phương của độ lệch là 22.
Bước 3: Tính phương sai mẫu ($s^2$)
Bây giờ, chúng ta áp dụng công thức phương sai mẫu. Ta lấy tổng các bình phương độ lệch vừa tính ở Bước 2 và chia cho n-1
(với n
là số lượng học sinh, ở đây n = 5).
$$ s^2 = \frac{\sum (x_i – \bar{x})^2}{n-1} $$
$$ s^2 = \frac{22}{5-1} = \frac{22}{4} = 5.5 $$
Vậy, phương sai của mẫu điểm thi này là 5.5.
Bước 4: Tính độ lệch chuẩn mẫu ($s$)
Độ lệch chuẩn đơn giản là căn bậc hai của phương sai. Nó giúp đưa đơn vị đo về lại cùng đơn vị với dữ liệu gốc (điểm số).
$$ s = \sqrt{s^2} $$
$$ s = \sqrt{5.5} \approx 2.345 $$
Vậy, độ lệch chuẩn của mẫu điểm thi này là khoảng 2.345. Con số này cho biết rằng, một cách trung bình, các điểm số trong nhóm có xu hướng cách điểm trung bình (9 điểm) một khoảng là 2.345 điểm.
Bài toán 2:
Một quán cà phê muốn phân tích sự biến động trong doanh thu hàng ngày. Họ ghi nhận doanh thu (đơn vị: triệu đồng) của 6 ngày làm việc trong một tuần như sau: 1.8, 2.5, 2.1, 1.9, 2.2, 2.7.
Yêu cầu: Hãy tính phương sai và độ lệch chuẩn của mẫu doanh thu này để đánh giá mức độ ổn định trong kinh doanh.
Lời giải:
Chúng ta sẽ sử dụng công thức tính phương sai mẫu vì đây là dữ liệu của một khoảng thời gian ngắn, được xem như một mẫu.
Bước 1: Tính doanh thu trung bình ngày ($\bar{x}$)
$$ \bar{x} = \frac{1.8 + 2.5 + 2.1 + 1.9 + 2.2 + 2.7}{6} = \frac{13.2}{6} = 2.2 $$
Vậy, doanh thu trung bình mỗi ngày là 2.2 triệu đồng.
Bước 2: Tính tổng các bình phương của độ lệch
Ta lập bảng để tính độ lệch của doanh thu mỗi ngày so với mức trung bình (2.2) và bình phương chúng.
Doanh thu ($x_i$) | Độ lệch ($x_i – \bar{x}$) | Bình phương độ lệch ($(x_i – \bar{x})^2$) |
---|---|---|
1.8 | 1.8 – 2.2 = -0.4 | (-0.4)² = 0.16 |
2.5 | 2.5 – 2.2 = 0.3 | (0.3)² = 0.09 |
2.1 | 2.1 – 2.2 = -0.1 | (-0.1)² = 0.01 |
1.9 | 1.9 – 2.2 = -0.3 | (-0.3)² = 0.09 |
2.2 | 2.2 – 2.2 = 0 | 0² = 0 |
2.7 | 2.7 – 2.2 = 0.5 | (0.5)² = 0.25 |
Tổng | 0.16 + 0.09 + 0.01 + 0.09 + 0 + 0.25 = 0.60 |
Tổng các bình phương của độ lệch là 0.60.
Bước 3: Tính phương sai mẫu ($s^2$)
Ta áp dụng công thức phương sai mẫu, lấy tổng ở Bước 2 chia cho n-1
(với n=6
).
$$ s^2 = \frac{\sum (x_i – \bar{x})^2}{n-1} $$
$$ s^2 = \frac{0.60}{6-1} = \frac{0.60}{5} = 0.12 $$
Vậy, phương sai của mẫu doanh thu này là 0.12.
Bước 4: Tính độ lệch chuẩn mẫu ($s$)
Độ lệch chuẩn là căn bậc hai của phương sai.
$$ s = \sqrt{s^2} $$
$$ s = \sqrt{0.12} \approx 0.346 $$
Vậy, độ lệch chuẩn của doanh thu là khoảng 0.346 triệu đồng (tức 346,000 đồng). Con số này cho thấy doanh thu hàng ngày thường biến động quanh mức trung bình 2.2 triệu đồng một khoảng là 346,000 đồng. Độ lệch chuẩn càng nhỏ, kinh doanh càng ổn định.