Tìm mode của một tập hợp số

Từ VLOS
Bước tới: chuyển hướng, tìm kiếm

Trong thống kê, mode của một tập hợp số là số xuất hiện thường xuyên nhất trong tập hợp đó. Một tập dữ liệu không nhất thiết chỉ có một mode - nếu hai hoặc nhiều giá trị được "gắn" cho là phổ biến nhất, thì tập dữ liệu đó có thể được gọi là bimodal (hai mode) hoặc multimodal (đa mode) - nói cách khác, tất cả các giá trị phổ biến nhất đều là mode của tập hợp. Để tìm hiểu chi tiết về quá trình xác định mode của một tập dữ liệu, mời bạn xem Bước 1 dưới đây để bắt đầu.

Các bước[sửa]

Tìm Mode của một Tập Dữ liệu[sửa]

  1. Liệt kê các số trong tập hợp dữ liệu của bạn. Mode thường được lấy từ các tập hợp điểm dữ liệu thống kê hoặc danh sách các giá trị bằng số. Vì vậy, để tìm mode, bạn cần phải có một tập hợp dữ liệu để tìm. Thật khó để tính giá trị mode chỉ bằng hình dung trong đầu ngoại trừ những tập hợp dữ liệu quá nhỏ, vì vậy, trong hầu hết các trường hợp, cách khôn ngoan nhất là viết (hoặc gõ) tập hợp dữ liệu của bạn ra. Nếu bạn làm việc với giấy và bút chì, chỉ cần viết các giá trị trong tập hợp dữ liệu theo thứ tự, trong khi nếu sử dụng máy tính, bạn có thể phải sử dụng đến chương trình Excel.
    • Quá trình tìm mode của một tập dữ liệu sẽ dễ hiểu hơn khi được minh họa bằng ví dụ. Trong phần này, chúng ta hãy sử dụng tập hợp giá trị sau để làm ví dụ: {18, 21, 11, 21, 15, 19, 17, 21, 17}. Trong các bước tiếp theo, chúng ta sẽ tìm mode của tập hợp này.
  2. Sắp xếp các số theo thứ tự từ nhỏ đến lớn. Cách khôn ngoan là sắp xếp các giá trị của tập dữ liệu theo thứ tự tăng dần. Mặc dù điều này không bắt buộc, nhưng nó giúp cho quá trình tìm mode dễ dàng hơn vì nó nhóm các giá trị giống nhau vào cạnh nhau. Đối với các tập dữ liệu lớn, việc làm này thực sự cần thiết, vì việc phân loại những danh sách dài và ghi nhớ xem mỗi số xuất hiện bao nhiêu lần trong danh sách là rất khó và có thể dẫn đến sai sót.
    • Nếu bạn làm việc với giấy và bút chì, về lâu dài việc ghi lại có thể tiết kiệm thời gian. Lướt qua tập hợp số xem số nào nhỏ nhất, và khi bạn đã tìm ra nó, hãy bắt đầu tập dữ liệu mới bằng số nhỏ nhất đó, tiếp đến là số nhỏ nhất thứ hai, thứ ba, v.v. Hãy chắc chắn rằng bạn viết mỗi số bằng với số lần nó xuất hiện trong tập dữ liệu ban đầu.
    • Với máy tính, bạn có thể sắp xếp các danh sách giá trị theo thứ tự từ nhỏ đến lớn chỉ bằng vài cú nhấp chuột
    • Ở ví dụ trên, sau khi sắp xếp, danh sách mới của chúng ta sẽ là: {11, 15, 17, 17, 18, 19, 21, 21, 21}.
  3. Đếm số lần mỗi số được lặp lại. Bước tiếp theo là đếm số lần mà mỗi số xuất hiện trong tập hợp. Hãy tìm giá trị xuất hiện thường xuyên nhất trong tập dữ liệu. Đối với các tập dữ liệu tương đối nhỏ có các điểm được sắp xếp theo thứ tự tăng dần, việc tìm "cụm" giá trị giống nhau và đếm số lần xuất hiện của chúng tương đối đơn giản.
    • Nếu bạn làm việc với giấy và bút chì, hãy ghi nhớ số lần đếm của bạn, viết ra số lần mỗi giá trị xuất hiện trên từng cụm số giống nhau. Nếu bạn sử dụng chương trình excel trên máy tính, bạn có thể làm tương tự bằng cách viết chúng ở ô bên cạnh, hoặc sử dụng một trong những hàm của chương trình để đếm các điểm dữ liệu.
    • Trong ví dụ của chúng ta, ({11, 15, 17, 17, 18, 19, 21, 21, 21}), 11 xuất hiện một lần, 15 xuất hiện một lần, 17 xuất hiện hai lần, 18 xuất hiện một lần, 19 xuất hiện một lần, và 21 xuất hiện ba lần. 21 là giá trị thường xuyên nhất trong tập dữ liệu này.
  4. Xác định giá trị xuất hiện thường xuyên nhất. Khi bạn biết mỗi giá trị xuất hiện bao nhiêu lần, hãy tìm giá trị có số lần xuất hiện nhiều nhất. Đây chính là mode của tập dữ liệu của bạn. Lưu ý rằng có thể có nhiều hơn một mode trong một tập dữ liệu. Nếu hai giá trị có số lần xuất hiện nhiều nhất bằng nhau trong tập hợp thì tập hợp đó là bimodal (hai mode), nếu có ba giá trị như vậy thì tập đó là trimodal (ba mode), và cứ như vậy.
    • Trong ví dụ trên, ({11, 15, 17, 17, 18, 19, 21, 21, 21}), vì 21 xuất hiện nhiều nhất nên 21 là mode.
    • Nếu một giá trị nữa ngoài 21 cũng xuất hiện ba lần, (chẳng hạn như có thêm một số 17 trong tập hợp), thì 21 và số này cả hai sẽ là mode.
  5. Đừng nhầm lẫn giữa mode với mean (giá trị trung bình) hay median (số trung vị). Ba khái niệm thống kê thường được đề cập cùng nhau là mean, median, và mode. Bởi vì các khái niệm này có tên nghe giống nhau, và bởi vì trong một tập dữ liệu một giá trị đôi khi có thể đóng nhiều hơn một vai trò trong những số này, nên bạn rất dễ nhầm lẫn giữa chúng. Tuy nhiên, bất kể tập dữ liệu của bạn có mode hay không thì nó luôn có median hoặc mean. Điều quan trọng là phải hiểu rằng ba khái niệm này hoàn toàn độc lập với nhau. Xem dưới đây:
    • Mean của một tập dữ liệu chính là giá trị trung bình của tập đó. Để tìm mean, cộng tất cả các giá trị trong tập hợp lại với nhau, sau đó chia tổng cho số các số hạng có trong tập hợp. Lấy ví dụ là tập hợp số ban đầu ({11, 15, 17, 17, 18, 19, 21, 21, 21}), mean sẽ là 11 + 15 + 17 + 17 + 18 + 19 + 21 + 21 + 21 = 160/9 = 17.78. 9 tức là có 9 chữ số trong tập hợp.
    • Median của một tập dữ liệu là "số đứng giữa" chia các giá trị nhỏ và lớn của tập hợp đó thành hai nửa bằng nhau. Lấy ví dụ trên, ({11, 15, 17, 17, 18, 19, 21, 21, 21}) 18 là median ví nó là số đứng giữa – có chính xác là bốn số lớn hơn nó và bốn số nhỏ hơn nó. Lưu ý rằng nếu số lượng các giá trị trong tập hợp là chẵn thì median chính là trung bình cộng của hai số đứng giữa.

Tìm Mode trong những Trường hợp Đặc biệt[sửa]

  1. Trong những tập dữ liệu mà mỗi giá trị đều có số lần xuất hiện bằng nhau thì sẽ không có mode. Nếu các giá trị trong một tập hợp đã cho đều xuất hiện cùng một số lần, tập dữ liệu này không có mode vì không số nào xuất hiện nhiều hơn số nào. Ví dụ, những tập dữ liệu mà trong đó mỗi giá trị chỉ xuất hiện một lần đều không có mode. Điều này tương tự đối với những tập dữ liệu với các giá trị xuất hiện hai lần, ba lần, và v.v.
    • Nếu chúng ta thay đổi tập dữ liệu ví dụ thành {11, 15, 17, 18, 19, 21} để mỗi giá trị chỉ xuất hiện một lần, giờ tập dữ liệu này không có mode. Điều này tương tự nếu chúng ta thay đổi tập dữ liệu để mỗi giá trị xuất hiện hai lần: {11, 11, 15, 15, 17, 17, 18, 18, 19, 19, 21, 21}.
  2. Mode của tập dữ liệu không phải dạng số có thể được tìm theo cách tương tự như tập dữ liệu số. Nhìn chung, hầu hết các tập dữ liệu đều là định lượng – chúng chứa các dữ liệu ở dạng số. Tuy nhiên, một số tập dữ liệu lại chứa những thông tin không được biểu diễn dưới dạng con số. Trong những trường hợp này, "mode" vẫn là giá trị xuất hiện nhiều nhất trong tập dữ liệu đó giống như trong tập dữ liệu số.[1] Trong những trường hợp này, việc tìm mode là khả thi trong khi tìm median hoặc mean là không thể.
    • Lấy một ví dụ trong điều tra sinh học xác định loài cây của vùng. Tập dữ liệu cho các loại cây trong vùng là {Bàng, Phượng, Bàng, Thông, Bàng, Bàng, Phượng, Phượng, Thông, Bàng}. Loại tập dữ liệu này được gọi là dữ liệu tên bởi vì các điểm dữ liệu được phân biệt chỉ dựa trên tên gọi của chúng. Mode của tập dữ liệu là Bàng bởi vì nó xuất hiện nhiều nhất (năm lần trong khi Phượng xuất hiện ba lần và Thông hai lần).
    • Trong ví dụ trên đây, bạn không thể nào tính giá trị mean hoặc median bởi vì các điểm dữ liệu không ở dạng số.
  3. Đối với các phân bổ đối xứng có một mode thì mode, mean, và median trùng nhau. Như đã nói ở trên, mode, median, và/hoặc mean có thể trùng nhau trong những trường hợp nhất định. Trong những trường hợp nếu hàm mật độ của tập dữ liệu tạo thành một đường cong hoàn toàn đối xứng có một mode (ví dụ như Đường cong Gauss hay Đường cong "Hình quả chuông") thì cả mode, mean, và median sẽ là cùng một giá trị. Bởi vì hàm phân phối sẽ vẽ đồ thị là sự xuất hiện tương đối của các điểm dữ liệu, mode tự nhiên sẽ ở giữa của đường cong phân bố đối xứng, vì đây là điểm cao nhất của đồ thị và tương ứng với giá trị phổ biến nhất. Bởi vì tập dữ liệu là đối xứng, điểm này trên đồ thị sẽ tương ứng với giá trị median (giá trị giữa của tập dữ liệu) và mean (giá trị trung bình của tập dữ liệu).
    • Hãy xét ví dụ sau {1, 2, 2, 3, 3, 3, 4, 4, 5}. Nếu chúng ta vẽ đồ thị sự phân phối của tập dữ liệu này, chúng ta sẽ được một đường cong đối xứng có chiều cao là 3 tại x = 3 và giảm xuống 1 tại x = 1 và x = 5. Vì 3 là giá trị thường xuyên nhất, nó là mode. Vì giá trị giữa 3 của tập hợp có 4 giá trị ở hai bên nên 3 còn là median. Cuối cùng, giá trị trung bình của tập hợp là 1 + 2 + 2 + 3 + 3 + 3 + 4 + 4 + 5 = 27/9 = 3, có nghĩa rằng 3 còn là mean.
    • Ngoại lệ cho quy tắc này là các tập dữ liệu đối xứng có nhiều hơn một mode - trong trường hợp này, vì chỉ có duy nhất một median và mean cho tập dữ liệu đó nên cả hai mode này sẽ không trùng với các điểm kia.

Lời khuyên[sửa]

  • Bạn có thể có nhiều hơn một mode.
  • Nếu tất cả các số xuất hiện chỉ một lần thì không có mode.

Những Thứ Bạn sẽ Cần[sửa]

  • Giấy, bút chì, và tẩy

Nguồn và Trích dẫn[sửa]

Liên kết đến đây