Phương sai là gì? Công thức tính phương sai?

0
16

Mục lục bài viết

1. Phương sai là gì?

Phương sai (ký hiệu là σ2 hoặc s2) là một đại lượng thống kê dùng để đo lường mức độ phân tán của các giá trị trong một tập dữ liệu so với giá trị trung bình của chính tập dữ liệu đó.

Nói một cách đơn giản, phương sai là con số cho bạn biết các điểm dữ liệu của bạn đang “túm tụm” gần giá trị trung bình hay đang “trải rộng” ra xa.

  • Phương sai nhỏ: Dữ liệu ít biến động, tập trung dày đặc quanh giá trị trung bình.
  • Phương sai lớn: Dữ liệu biến động mạnh, phân tán xa khỏi giá trị trung bình.

2. Công thức tính Phương sai

Phương sai là gì? Công thức tính phương sai?
Công thức tính phương sai

Công thức tính phương sai:

$$ \sigma^2 = \frac{\sum_{i=1}^{N} (x_i – \mu)^2}{N} $$

Trong đó:

  • σ2 (Sigma bình phương): Đây chính là phương sai của tổng thể mà bạn muốn tìm. Nó là kết quả cuối cùng của công thức, đại diện cho mức độ phân tán trung bình của dữ liệu.
  • N: Là tổng số lượng phần tử có trong tổng thể đó. Ví dụ, nếu bạn khảo sát điểm thi của một lớp học có 40 sinh viên, thì N = 40.
  • μ (Mu): Là giá trị trung bình của toàn bộ tổng thể. Nó được tính bằng cách cộng tất cả các giá trị lại rồi chia cho tổng số lượng phần tử N. Đây là điểm trung tâm mà chúng ta dùng để đo độ lệch.
  • xi: Đại diện cho từng giá trị riêng lẻ trong tổng thể của bạn. Ký hiệu “i” chỉ thứ tự của giá trị, từ giá trị đầu tiên (x1) đến giá trị cuối cùng (xN).
  • (xi − μ): Đây là độ lệch hay khoảng cách từ một giá trị cụ thể xi đến giá trị trung bình μ.
  • (xi − μ)2: Là bình phương của độ lệch. Việc bình phương giúp loại bỏ các giá trị âm (vì khoảng cách không thể âm) và nhấn mạnh rằng các giá trị ở càng xa trung tâm thì càng có ảnh hưởng lớn hơn đến phương sai.
  • Σ (Ký hiệu tổng Sigma): Ký hiệu này yêu cầu bạn thực hiện phép tính bên phải nó (tức là tính (xi − μ)2) cho từng giá trị xi từ đầu đến cuối, sau đó cộng tất cả các kết quả đó lại với nhau.

3. Phân biệt Phương sai Tổng thể (σ²) và Phương sai Mẫu (s²)

Trong thực tế, chúng ta hiếm khi có dữ liệu của cả một tổng thể lớn (ví dụ: chiều cao của tất cả người Việt Nam). Thay vào đó, chúng ta thường làm việc với một mẫu (ví dụ: chiều cao của 1,000 người Việt Nam được chọn ngẫu nhiên).

Khi đó, ta dùng công thức phương sai mẫu:

$$ s^2 = \frac{\sum_{i=1}^{n} (x_i – \bar{x})^2}{n-1} $$

Điểm khác biệt duy nhất và quan trọng nhất là ở mẫu số: chúng ta chia cho n-1 thay vì n.

Tại sao lại có sự khác biệt này? 🤔
Việc chia cho n-1 (được gọi là “Bậc tự do”) giúp cho giá trị phương sai của mẫu (s²) trở thành một ước lượng không chệch và chính xác hơn cho phương sai của tổng thể thực sự (σ²). Nếu chia cho n, kết quả thường sẽ có xu hướng nhỏ hơn một chút so với phương sai thật của tổng thể.

4. Từ Phương sai đến Độ lệch chuẩn

Mặc dù rất hữu ích, phương sai có một nhược điểm: đơn vị của nó là bình phương đơn vị của dữ liệu gốc (ví dụ: nếu dữ liệu là mét, phương sai có đơn vị là mét vuông). Điều này gây khó khăn cho việc diễn giải trực quan.

Để giải quyết vấn đề này, chúng ta chỉ cần lấy căn bậc hai của phương sai và có được một đại lượng mới: Độ lệch chuẩn (σ hoặc s).

$$ \sigma = \sqrt{\sigma^2} $$

Độ lệch chuẩn có cùng đơn vị với dữ liệu gốc, giúp ta dễ dàng hình dung và so sánh mức độ phân tán một cách trực tiếp. Nó cho biết trung bình mỗi điểm dữ liệu lệch khỏi giá trị trung bình là bao nhiêu.

5. Ví dụ bài toán về Phương sai?

Bài toán 1:

Giả sử chúng ta có điểm thi của một nhóm 5 học sinh trong một bài kiểm tra ngắn. Điểm số (thang 15) lần lượt là: 7, 8, 8, 9, 13.

Yêu cầu: Hãy tính phương sai và độ lệch chuẩn của mẫu điểm thi này.

Vì đây là dữ liệu của một nhóm nhỏ (một mẫu), chúng ta sẽ sử dụng công thức tính phương sai mẫu (chia cho n-1).

Bước 1: Tính giá trị trung bình của mẫu ($\bar{x}$)

Giá trị trung bình là tổng tất cả các điểm chia cho số lượng học sinh.

$$ \bar{x} = \frac{\text{Tổng các giá trị}}{\text{Số lượng giá trị}} $$

$$ \bar{x} = \frac{7 + 8 + 8 + 9 + 13}{5} = \frac{45}{5} = 9 $$

Vậy, điểm trung bình của nhóm là 9.

Bước 2: Tính tổng các bình phương của độ lệch

Đây là bước cốt lõi. Chúng ta sẽ tính khoảng cách từ mỗi điểm số đến điểm trung bình (9), sau đó bình phương kết quả đó lên. Lập một bảng sẽ giúp quá trình này rõ ràng hơn:

Điểm số ($x_i$) Độ lệch ($x_i – \bar{x}$) Bình phương độ lệch ($(x_i – \bar{x})^2$)
7 7 – 9 = -2 (-2)² = 4
8 8 – 9 = -1 (-1)² = 1
8 8 – 9 = -1 (-1)² = 1
9 9 – 9 = 0 0² = 0
13 13 – 9 = 4 4² = 16
Tổng 4 + 1 + 1 + 0 + 16 = 22

Tổng các bình phương của độ lệch22.

Bước 3: Tính phương sai mẫu ($s^2$)

Bây giờ, chúng ta áp dụng công thức phương sai mẫu. Ta lấy tổng các bình phương độ lệch vừa tính ở Bước 2 và chia cho n-1 (với n là số lượng học sinh, ở đây n = 5).

$$ s^2 = \frac{\sum (x_i – \bar{x})^2}{n-1} $$

$$ s^2 = \frac{22}{5-1} = \frac{22}{4} = 5.5 $$

Vậy, phương sai của mẫu điểm thi này là 5.5.

Bước 4: Tính độ lệch chuẩn mẫu ($s$)

Độ lệch chuẩn đơn giản là căn bậc hai của phương sai. Nó giúp đưa đơn vị đo về lại cùng đơn vị với dữ liệu gốc (điểm số).

$$ s = \sqrt{s^2} $$

$$ s = \sqrt{5.5} \approx 2.345 $$

Vậy, độ lệch chuẩn của mẫu điểm thi này là khoảng 2.345. Con số này cho biết rằng, một cách trung bình, các điểm số trong nhóm có xu hướng cách điểm trung bình (9 điểm) một khoảng là 2.345 điểm.

Bài toán 2:

Một quán cà phê muốn phân tích sự biến động trong doanh thu hàng ngày. Họ ghi nhận doanh thu (đơn vị: triệu đồng) của 6 ngày làm việc trong một tuần như sau: 1.8, 2.5, 2.1, 1.9, 2.2, 2.7.

Yêu cầu: Hãy tính phương sai và độ lệch chuẩn của mẫu doanh thu này để đánh giá mức độ ổn định trong kinh doanh.

Lời giải:

Chúng ta sẽ sử dụng công thức tính phương sai mẫu vì đây là dữ liệu của một khoảng thời gian ngắn, được xem như một mẫu.

Bước 1: Tính doanh thu trung bình ngày ($\bar{x}$)

$$ \bar{x} = \frac{1.8 + 2.5 + 2.1 + 1.9 + 2.2 + 2.7}{6} = \frac{13.2}{6} = 2.2 $$

Vậy, doanh thu trung bình mỗi ngày2.2 triệu đồng.

Bước 2: Tính tổng các bình phương của độ lệch

Ta lập bảng để tính độ lệch của doanh thu mỗi ngày so với mức trung bình (2.2) và bình phương chúng.

Doanh thu ($x_i$) Độ lệch ($x_i – \bar{x}$) Bình phương độ lệch ($(x_i – \bar{x})^2$)
1.8 1.8 – 2.2 = -0.4 (-0.4)² = 0.16
2.5 2.5 – 2.2 = 0.3 (0.3)² = 0.09
2.1 2.1 – 2.2 = -0.1 (-0.1)² = 0.01
1.9 1.9 – 2.2 = -0.3 (-0.3)² = 0.09
2.2 2.2 – 2.2 = 0 0² = 0
2.7 2.7 – 2.2 = 0.5 (0.5)² = 0.25
Tổng 0.16 + 0.09 + 0.01 + 0.09 + 0 + 0.25 = 0.60

Tổng các bình phương của độ lệch0.60.

Bước 3: Tính phương sai mẫu ($s^2$)

Ta áp dụng công thức phương sai mẫu, lấy tổng ở Bước 2 chia cho n-1 (với n=6).

$$ s^2 = \frac{\sum (x_i – \bar{x})^2}{n-1} $$

$$ s^2 = \frac{0.60}{6-1} = \frac{0.60}{5} = 0.12 $$

Vậy, phương sai của mẫu doanh thu này là 0.12.

Bước 4: Tính độ lệch chuẩn mẫu ($s$)

Độ lệch chuẩn là căn bậc hai của phương sai.

$$ s = \sqrt{s^2} $$

$$ s = \sqrt{0.12} \approx 0.346 $$

Vậy, độ lệch chuẩn của doanh thu là khoảng 0.346 triệu đồng (tức 346,000 đồng). Con số này cho thấy doanh thu hàng ngày thường biến động quanh mức trung bình 2.2 triệu đồng một khoảng là 346,000 đồng. Độ lệch chuẩn càng nhỏ, kinh doanh càng ổn định.

6. Câu hỏi thường gặp về phương sai?

Phương sai và Độ lệch chuẩn khác nhau như thế nào?
Đây là câu hỏi phổ biến nhất. Dù cả hai đều đo lường độ phân tán của dữ liệu, chúng có một sự khác biệt cốt lõi:

  • Phương sai (s2): Đo lường trung bình của các bình phương khoảng cách từ mỗi điểm dữ liệu đến giá trị trung bình. Đơn vị của nó là bình phương của đơn vị dữ liệu gốc (ví dụ: nếu dữ liệu là “kg”, đơn vị của phương sai là “kg²”).
  • Độ lệch chuẩn (s): Là căn bậc hai của phương sai. Ưu điểm lớn nhất của nó là có cùng đơn vị với dữ liệu gốc (ví dụ: “kg”).

Tóm lại: Độ lệch chuẩn thường dễ diễn giải và hình dung hơn trong thực tế vì nó dùng cùng đơn vị đo với dữ liệu ban đầu.

Tại sao khi tính phương sai mẫu lại chia cho (n-1)?
Khi tính phương sai cho một mẫu dữ liệu (một phần nhỏ của tổng thể lớn), chúng ta chia cho n-1 thay vì n (tổng số mẫu). Lý do là để có được một ước lượng không chệch (unbiased estimate) cho phương sai của tổng thể thực.
Nói một cách đơn giản:

  • Giá trị trung bình của mẫu (x̄) được tính từ chính mẫu đó, nên nó “khớp” với dữ liệu mẫu hơn một chút so với giá trị trung bình của tổng thể thực sự (µ).
  • Điều này làm cho tổng các bình phương khoảng cách (xi – x̄)² có xu hướng hơi nhỏ hơn một chút so với thực tế.
  • Việc chia cho một số nhỏ hơn (n-1 thay vì n) giúp “bù đắp” cho sự sụt giảm này, từ đó cho ra một ước lượng phương sai chính xác hơn cho toàn bộ tổng thể.
Tại sao phải bình phương các độ lệch trong công thức?
Việc bình phương (xi – µ)² trong công thức phương sai có hai mục đích chính:

  • Loại bỏ giá trị âm: Khoảng cách từ một điểm dữ liệu đến giá trị trung bình có thể là số dương (nếu lớn hơn) hoặc âm (nếu nhỏ hơn). Nếu cộng trực tiếp, chúng sẽ triệt tiêu lẫn nhau. Bình phương đảm bảo mọi khoảng cách đều là số dương và được tính đến.
  • Nhấn mạnh các giá trị ở xa: Việc bình phương làm cho các giá trị ở càng xa trung bình càng có tác động lớn hơn đến kết quả phương sai. Điều này giúp phản ánh đúng mức độ biến động mạnh khi có các giá trị ngoại lệ (outliers).
Phương sai có thể là số âm không?
Không. Phương sai không bao giờ có thể là số âm.
Vì phương sai được tính từ tổng các bình phương của các độ lệch, mà bình phương của một số thực luôn luôn là một số không âm (lớn hơn hoặc bằng 0). Do đó, kết quả cuối cùng của phương sai luôn là một số không âm.

Phương sai bằng 0 có ý nghĩa gì?
Một phương sai bằng 0 chỉ xảy ra trong một trường hợp duy nhất: tất cả các giá trị trong tập dữ liệu đều bằng nhau.

Nếu mọi giá trị đều giống hệt nhau, chúng cũng sẽ bằng với giá trị trung bình. Khi đó, không có sự phân tán hay biến động nào cả, và do đó phương sai bằng 0. Đây là mức độ tập trung dữ liệu tuyệt đối.

SHARE
Previous articleCách vẽ tia phân giác?