Chủ đề nóng: Phương pháp kỷ luật tích cực - Cổ học tinh hoa - Những thói hư tật xấu của người Việt - Công lý: Việc đúng nên làm - Giáo án Điện tử - Sách giáo khoa - Học tiếng Anh - Bài giảng trực tuyến - Món ăn bài thuốc - Chăm sóc bà bầu - Môi trường - Tiết kiệm điện - Nhi khoa - Ung thư - Tác hại của thuốc lá - Các kỹ thuật dạy học tích cực
- Dạy học phát triển năng lực - Chương trình giáo dục phổ thông
Tìm mode của một tập hợp số
Từ VLOS
(đổi hướng từ Tìm Mode của một Tập hợp Số)
Trong thống kê, mode của một tập hợp số là số xuất hiện thường xuyên nhất trong tập hợp đó. Một tập dữ liệu không nhất thiết chỉ có một mode - nếu hai hoặc nhiều giá trị được "gắn" cho là phổ biến nhất, thì tập dữ liệu đó có thể được gọi là bimodal (hai mode) hoặc multimodal (đa mode) - nói cách khác, tất cả các giá trị phổ biến nhất đều là mode của tập hợp. Để tìm hiểu chi tiết về quá trình xác định mode của một tập dữ liệu, mời bạn xem Bước 1 dưới đây để bắt đầu.
Mục lục
Các bước[sửa]
Tìm Mode của một Tập Dữ liệu[sửa]
-
Liệt
kê
các
số
trong
tập
hợp
dữ
liệu
của
bạn.
Mode
thường
được
lấy
từ
các
tập
hợp
điểm
dữ
liệu
thống
kê
hoặc
danh
sách
các
giá
trị
bằng
số.
Vì
vậy,
để
tìm
mode,
bạn
cần
phải
có
một
tập
hợp
dữ
liệu
để
tìm.
Thật
khó
để
tính
giá
trị
mode
chỉ
bằng
hình
dung
trong
đầu
ngoại
trừ
những
tập
hợp
dữ
liệu
quá
nhỏ,
vì
vậy,
trong
hầu
hết
các
trường
hợp,
cách
khôn
ngoan
nhất
là
viết
(hoặc
gõ)
tập
hợp
dữ
liệu
của
bạn
ra.
Nếu
bạn
làm
việc
với
giấy
và
bút
chì,
chỉ
cần
viết
các
giá
trị
trong
tập
hợp
dữ
liệu
theo
thứ
tự,
trong
khi
nếu
sử
dụng
máy
tính,
bạn
có
thể
phải
sử
dụng
đến
chương
trình
Excel.
- Quá trình tìm mode của một tập dữ liệu sẽ dễ hiểu hơn khi được minh họa bằng ví dụ. Trong phần này, chúng ta hãy sử dụng tập hợp giá trị sau để làm ví dụ: {18, 21, 11, 21, 15, 19, 17, 21, 17}. Trong các bước tiếp theo, chúng ta sẽ tìm mode của tập hợp này.
-
Sắp
xếp
các
số
theo
thứ
tự
từ
nhỏ
đến
lớn.
Cách
khôn
ngoan
là
sắp
xếp
các
giá
trị
của
tập
dữ
liệu
theo
thứ
tự
tăng
dần.
Mặc
dù
điều
này
không
bắt
buộc,
nhưng
nó
giúp
cho
quá
trình
tìm
mode
dễ
dàng
hơn
vì
nó
nhóm
các
giá
trị
giống
nhau
vào
cạnh
nhau.
Đối
với
các
tập
dữ
liệu
lớn,
việc
làm
này
thực
sự
cần
thiết,
vì
việc
phân
loại
những
danh
sách
dài
và
ghi
nhớ
xem
mỗi
số
xuất
hiện
bao
nhiêu
lần
trong
danh
sách
là
rất
khó
và
có
thể
dẫn
đến
sai
sót.
- Nếu bạn làm việc với giấy và bút chì, về lâu dài việc ghi lại có thể tiết kiệm thời gian. Lướt qua tập hợp số xem số nào nhỏ nhất, và khi bạn đã tìm ra nó, hãy bắt đầu tập dữ liệu mới bằng số nhỏ nhất đó, tiếp đến là số nhỏ nhất thứ hai, thứ ba, v.v. Hãy chắc chắn rằng bạn viết mỗi số bằng với số lần nó xuất hiện trong tập dữ liệu ban đầu.
- Với máy tính, bạn có thể sắp xếp các danh sách giá trị theo thứ tự từ nhỏ đến lớn chỉ bằng vài cú nhấp chuột
- Ở ví dụ trên, sau khi sắp xếp, danh sách mới của chúng ta sẽ là: {11, 15, 17, 17, 18, 19, 21, 21, 21}.
-
Đếm
số
lần
mỗi
số
được
lặp
lại.
Bước
tiếp
theo
là
đếm
số
lần
mà
mỗi
số
xuất
hiện
trong
tập
hợp.
Hãy
tìm
giá
trị
xuất
hiện
thường
xuyên
nhất
trong
tập
dữ
liệu.
Đối
với
các
tập
dữ
liệu
tương
đối
nhỏ
có
các
điểm
được
sắp
xếp
theo
thứ
tự
tăng
dần,
việc
tìm
"cụm"
giá
trị
giống
nhau
và
đếm
số
lần
xuất
hiện
của
chúng
tương
đối
đơn
giản.
- Nếu bạn làm việc với giấy và bút chì, hãy ghi nhớ số lần đếm của bạn, viết ra số lần mỗi giá trị xuất hiện trên từng cụm số giống nhau. Nếu bạn sử dụng chương trình excel trên máy tính, bạn có thể làm tương tự bằng cách viết chúng ở ô bên cạnh, hoặc sử dụng một trong những hàm của chương trình để đếm các điểm dữ liệu.
- Trong ví dụ của chúng ta, ({11, 15, 17, 17, 18, 19, 21, 21, 21}), 11 xuất hiện một lần, 15 xuất hiện một lần, 17 xuất hiện hai lần, 18 xuất hiện một lần, 19 xuất hiện một lần, và 21 xuất hiện ba lần. 21 là giá trị thường xuyên nhất trong tập dữ liệu này.
-
Xác
định
giá
trị
xuất
hiện
thường
xuyên
nhất.
Khi
bạn
biết
mỗi
giá
trị
xuất
hiện
bao
nhiêu
lần,
hãy
tìm
giá
trị
có
số
lần
xuất
hiện
nhiều
nhất.
Đây
chính
là
mode
của
tập
dữ
liệu
của
bạn.
Lưu
ý
rằng
có
thể
có
nhiều
hơn
một
mode
trong
một
tập
dữ
liệu.
Nếu
hai
giá
trị
có
số
lần
xuất
hiện
nhiều
nhất
bằng
nhau
trong
tập
hợp
thì
tập
hợp
đó
là
bimodal
(hai
mode),
nếu
có
ba
giá
trị
như
vậy
thì
tập
đó
là
trimodal
(ba
mode),
và
cứ
như
vậy.
- Trong ví dụ trên, ({11, 15, 17, 17, 18, 19, 21, 21, 21}), vì 21 xuất hiện nhiều nhất nên 21 là mode.
- Nếu một giá trị nữa ngoài 21 cũng xuất hiện ba lần, (chẳng hạn như có thêm một số 17 trong tập hợp), thì 21 và số này cả hai sẽ là mode.
-
Đừng
nhầm
lẫn
giữa
mode
với
mean
(giá
trị
trung
bình)
hay
median
(số
trung
vị).
Ba
khái
niệm
thống
kê
thường
được
đề
cập
cùng
nhau
là
mean,
median,
và
mode.
Bởi
vì
các
khái
niệm
này
có
tên
nghe
giống
nhau,
và
bởi
vì
trong
một
tập
dữ
liệu
một
giá
trị
đôi
khi
có
thể
đóng
nhiều
hơn
một
vai
trò
trong
những
số
này,
nên
bạn
rất
dễ
nhầm
lẫn
giữa
chúng.
Tuy
nhiên,
bất
kể
tập
dữ
liệu
của
bạn
có
mode
hay
không
thì
nó
luôn
có
median
hoặc
mean.
Điều
quan
trọng
là
phải
hiểu
rằng
ba
khái
niệm
này
hoàn
toàn
độc
lập
với
nhau.
Xem
dưới
đây:
- Mean của một tập dữ liệu chính là giá trị trung bình của tập đó. Để tìm mean, cộng tất cả các giá trị trong tập hợp lại với nhau, sau đó chia tổng cho số các số hạng có trong tập hợp. Lấy ví dụ là tập hợp số ban đầu ({11, 15, 17, 17, 18, 19, 21, 21, 21}), mean sẽ là 11 + 15 + 17 + 17 + 18 + 19 + 21 + 21 + 21 = 160/9 = 17.78. 9 tức là có 9 chữ số trong tập hợp.
- Median của một tập dữ liệu là "số đứng giữa" chia các giá trị nhỏ và lớn của tập hợp đó thành hai nửa bằng nhau. Lấy ví dụ trên, ({11, 15, 17, 17, 18, 19, 21, 21, 21}) 18 là median ví nó là số đứng giữa – có chính xác là bốn số lớn hơn nó và bốn số nhỏ hơn nó. Lưu ý rằng nếu số lượng các giá trị trong tập hợp là chẵn thì median chính là trung bình cộng của hai số đứng giữa.
Tìm Mode trong những Trường hợp Đặc biệt[sửa]
-
Trong
những
tập
dữ
liệu
mà
mỗi
giá
trị
đều
có
số
lần
xuất
hiện
bằng
nhau
thì
sẽ
không
có
mode.
Nếu
các
giá
trị
trong
một
tập
hợp
đã
cho
đều
xuất
hiện
cùng
một
số
lần,
tập
dữ
liệu
này
không
có
mode
vì
không
số
nào
xuất
hiện
nhiều
hơn
số
nào.
Ví
dụ,
những
tập
dữ
liệu
mà
trong
đó
mỗi
giá
trị
chỉ
xuất
hiện
một
lần
đều
không
có
mode.
Điều
này
tương
tự
đối
với
những
tập
dữ
liệu
với
các
giá
trị
xuất
hiện
hai
lần,
ba
lần,
và
v.v.
- Nếu chúng ta thay đổi tập dữ liệu ví dụ thành {11, 15, 17, 18, 19, 21} để mỗi giá trị chỉ xuất hiện một lần, giờ tập dữ liệu này không có mode. Điều này tương tự nếu chúng ta thay đổi tập dữ liệu để mỗi giá trị xuất hiện hai lần: {11, 11, 15, 15, 17, 17, 18, 18, 19, 19, 21, 21}.
-
Mode
của
tập
dữ
liệu
không
phải
dạng
số
có
thể
được
tìm
theo
cách
tương
tự
như
tập
dữ
liệu
số.
Nhìn
chung,
hầu
hết
các
tập
dữ
liệu
đều
là
định
lượng
–
chúng
chứa
các
dữ
liệu
ở
dạng
số.
Tuy
nhiên,
một
số
tập
dữ
liệu
lại
chứa
những
thông
tin
không
được
biểu
diễn
dưới
dạng
con
số.
Trong
những
trường
hợp
này,
"mode"
vẫn
là
giá
trị
xuất
hiện
nhiều
nhất
trong
tập
dữ
liệu
đó
giống
như
trong
tập
dữ
liệu
số.[1]
Trong
những
trường
hợp
này,
việc
tìm
mode
là
khả
thi
trong
khi
tìm
median
hoặc
mean
là
không
thể.
- Lấy một ví dụ trong điều tra sinh học xác định loài cây của vùng. Tập dữ liệu cho các loại cây trong vùng là {Bàng, Phượng, Bàng, Thông, Bàng, Bàng, Phượng, Phượng, Thông, Bàng}. Loại tập dữ liệu này được gọi là dữ liệu tên bởi vì các điểm dữ liệu được phân biệt chỉ dựa trên tên gọi của chúng. Mode của tập dữ liệu là Bàng bởi vì nó xuất hiện nhiều nhất (năm lần trong khi Phượng xuất hiện ba lần và Thông hai lần).
- Trong ví dụ trên đây, bạn không thể nào tính giá trị mean hoặc median bởi vì các điểm dữ liệu không ở dạng số.
-
Đối
với
các
phân
bổ
đối
xứng
có
một
mode
thì
mode,
mean,
và
median
trùng
nhau.
Như
đã
nói
ở
trên,
mode,
median,
và/hoặc
mean
có
thể
trùng
nhau
trong
những
trường
hợp
nhất
định.
Trong
những
trường
hợp
nếu
hàm
mật
độ
của
tập
dữ
liệu
tạo
thành
một
đường
cong
hoàn
toàn
đối
xứng
có
một
mode
(ví
dụ
như
Đường
cong
Gauss
hay
Đường
cong
"Hình
quả
chuông")
thì
cả
mode,
mean,
và
median
sẽ
là
cùng
một
giá
trị.
Bởi
vì
hàm
phân
phối
sẽ
vẽ
đồ
thị
là
sự
xuất
hiện
tương
đối
của
các
điểm
dữ
liệu,
mode
tự
nhiên
sẽ
ở
giữa
của
đường
cong
phân
bố
đối
xứng,
vì
đây
là
điểm
cao
nhất
của
đồ
thị
và
tương
ứng
với
giá
trị
phổ
biến
nhất.
Bởi
vì
tập
dữ
liệu
là
đối
xứng,
điểm
này
trên
đồ
thị
sẽ
tương
ứng
với
giá
trị
median
(giá
trị
giữa
của
tập
dữ
liệu)
và
mean
(giá
trị
trung
bình
của
tập
dữ
liệu).
- Hãy xét ví dụ sau {1, 2, 2, 3, 3, 3, 4, 4, 5}. Nếu chúng ta vẽ đồ thị sự phân phối của tập dữ liệu này, chúng ta sẽ được một đường cong đối xứng có chiều cao là 3 tại x = 3 và giảm xuống 1 tại x = 1 và x = 5. Vì 3 là giá trị thường xuyên nhất, nó là mode. Vì giá trị giữa 3 của tập hợp có 4 giá trị ở hai bên nên 3 còn là median. Cuối cùng, giá trị trung bình của tập hợp là 1 + 2 + 2 + 3 + 3 + 3 + 4 + 4 + 5 = 27/9 = 3, có nghĩa rằng 3 còn là mean.
- Ngoại lệ cho quy tắc này là các tập dữ liệu đối xứng có nhiều hơn một mode - trong trường hợp này, vì chỉ có duy nhất một median và mean cho tập dữ liệu đó nên cả hai mode này sẽ không trùng với các điểm kia.
Lời khuyên[sửa]
- Bạn có thể có nhiều hơn một mode.
- Nếu tất cả các số xuất hiện chỉ một lần thì không có mode.
Những Thứ Bạn sẽ Cần[sửa]
- Giấy, bút chì, và tẩy