Thành viên:Nguyenthephuc/Note: So sánh điểm kì thi tốt nghiệp trung học của Hà Giang và cả nước
Mấy ngày qua, dự luận công chúng ngạc nhiên và đặt dấu hỏi về kì thi tốt nghiệp trung học phổ thông liên quan đến môn toán và Hà Giang. Tôi thử xem qua bằng số liệu thực tế thì quả thật là đáng nghi ngờ. Hai câu hỏi đặt ra là:
(a) Theo kết quả công bố năm nay thì có 951 thí sinh có điểm 0 môn toán. Câu hỏi là số thí sinh có điểm 0 môn toán như vậy là bất bình thường;
(b) phân bố điểm thi của thí sinh Hà Giang có khác biệt một cách đáng chú ý so với phân bố của cả nước.
Tôi may mắn được một bạn đọc cung cấp toàn bộ số liệu điểm thi CỦA MỖI THÍ SINH cho mỗi môn thi trên cả nước và cho tỉnh Hà Giang. Dung lượng data lên đến 50 MB. Đây là dữ liệu rất quí. Dựa vào dữ liệu này, tôi có thể trả lời hai câu hỏi cụ thể hơn.
Trả lời câu hỏi thứ nhất thì dễ với xác suất. Môn toán có 50 câu, mỗi câu có 4 lựa chọn. Do đó, xác suất sai cho mỗi câu hỏi là 3/4. Xác suất một thí sinh sai tất cả 50 câu phải là p = (3/4)^50 = 0.0000005663 (giả định độc lập). Nhưng ở đây, chúng ta có n=917484 thí sinh. Gọi x là số thí sinh có điểm 0, lí thuyết phân bố nhị phân cho biết giá trị trung bình của x là mean(x) = np = 0.51 và độ lệch chuẩn sd = sqrt(n*p*(1-p)) = 0.72. Dùng hai tham số này để mô phỏng thì chúng ta có thể tính xác suất có 951 thí sinh có điểm 0:
1-pnorm(951, mean=0.51, sd=0.72) kết quả là 0. Một cách khác là giá trị kì vọng trong số 1 triệu thí sinh thi, thì tối đa chỉ có 3 thí sinh với điểm 0 môn toán. Nhưng trong thực tế, kì thi này ghi nhận có đến 951 thí sinh có điểm 0. Và, đó là điều bất thường.
Phân tích mô tả[sửa]
Trả lời câu hỏi 2 nhiêu khê hơn một chút. Cách đơn giản nhất là qua biểu đồ phân bố. Biểu đồ dưới đây (Hình 1) cho thấy phân bố điểm của Hà Giang (màu hồng) và của cả nước (màu xanh). Có hai điểm chính có thể rút ra từ hình này:
(a) Điểm trung vị của Hà Giang là khoảng 3.2, thấp hơn điểm của toàn quốc (trung vị khoảng 5.0);
(b) Phân bố điểm của Hà Giang có vẻ bất thường ở điểm từ 8 đến 10. Chú ý đường biểu diễn "nhô lên" trong khi đáng lí ra phải smooth như cả nước.
Để kiểm tra kĩ hơn chỗ "nhô lên" đó, cần phải phân tích so sánh giữa phân bố điểm của Hà Giang và điểm của cả nước (Hình 2, bảng số liệu).
- Bước 1: tìm phân bố của cả nước. Nói cách khác, đếm số thí sinh có điểm 0, 0.2, 0.4, 0.6,..., 10. Cột 2 của hình sau đây thể hiện kết quả đó.
- Bước 2: tìm phân bố của Hà Giang. Đếm số thí sinh có điểm 0, 0.2, 0.4, 0.6,..., 10. Hà Giang có 3203 thí sinh. Cột 3 của hình sau đây thể hiện kết quả cho Hà Giang.
- Buớc 3: tính giá trị kì vọng cho Hà Giang. Chúng ta hỏi: nếu phân bố điểm thi của cả nước (bước 1) áp dụng cho Hà Giang thì có bao nhiêu em có điểm 0, 0.2, 0.4, 0.6,..., 10. Tạm gọi đây là điểm kì vọng. Kết quả được trình bày trong cột 4.
- Bước 4: ở mỗi điểm, lấy số thí sinh Hà Giang thực tế đạt được trừ cho số [kì vọng] thí sinh mà nếu phân bố của cả nước. Cột 5 trình bày kết quả này.
Dĩ nhiên, nếu phân bố điểm thi của Hà Giang tương đương với phân bố của cả nước, thì cột thứ 5 sẽ gần bằng 0. Nhưng chúng ta thấy trong thực tế thì không phải vậy, và vài chỗ lệch thể hiện rất rõ sau đây:
(a) Ở điểm thấp (từ 1 đến 3.6), số thí sinh Hà Giang cao hơn so với giá trị kì vọng;
(b) Nhưng ở điểm cao hơn (từ 4.0 đến 7.8) thì số thí sinh Hà Giang thấp hơn giá trị kì vọng của cả nước;
(c) Nhưng điều thú vị nhất là ở điểm cao 'top' (từ 8.6 đến 9.6) số thí sinh Hà Giang cao hơn so với phân bố cả nước. Nếu theo xu hướng của cả nước, Hà Giang chỉ có 7 thí sinh ở ngưỡng điểm 8.6 đến 9.6, nhưng trong thực tế con số thí sinh đạt điểm này là 72, tức cao gấp ~10 lần so với cả nước!
Phân tích tương quan[sửa]
Một cách khác để biết sự bất bình thường ở Hà Giang là qua phân tích tương quan. Nếu chúng ta lấy mối tương quan về điểm giữa các môn học của các nước (Hình 3) làm 'chuẩn', và so sánh hệ số tương quan với tỉnh Hà Giang (Hình 4) là sẽ thấy vài bất bình thường. Chẳng hạn như hệ số tương quan giữa môn toán và sinh học của cả nước là 0.36, nhưng ở Hà Giang hệ số này chỉ 0.12! Đó cũng là một tín hiệu bất bình thường.
Thí sinh nào có điểm 'bất thường'?[sửa]
Để trả lời câu hỏi này, chúng ta có thể áp dụng khái niệm "outlier" (giá trị ngoại vi). Cách nhận dạng và xác định giá trị ngoại vi -- tức thí sinh có điểm cao hay thấp bất bình thường -- chúng ta có thể dùng hai phương pháp: phân tích đơn biến và phân tích đa biến. Tôi nghĩ phân tích đa biến thích hợp hơn, vì nó cho phép chúng ta đánh giá toàn diện các môn học. Một chỉ số quan trọng trong phân tích đa biến để nhận dạng giá trị ngoại vi là Cook's distance -- khoảng cách Cook. Tôi thử áp dụng phương pháp này cho tỉnh Hà Giang thì thấy kết quả như sau (Hình 5).
Rõ ràng, có một số thí sinh (khoảng 20 em, trên đường màu đỏ) có thể xem là bất bình thường. Đặc biệt, có một thí sinh "ngồi" riêng một vị trí rất xa với các bạn khác. Có thể nhận dạng ID các thí sinh này dễ dàng, nhưng chắc không cần thiết.
Nói tóm lại, những dữ liệu thực tế trên đây cho thấy phân bố điểm môn toán của thí sinh tỉnh Hà Giang rất khác biệt so với 'qui luật' chung toàn quốc. Sự khác biệt này không phải là ngẫu nhiên, bởi vì trị số P quá thấp (1 trên 100 triệu). Rất có thể sự khác biệt đó là do sự can thiệp của con người.
Nguồn[sửa]
Các ghi chú của cùng tác giả
- Học làm cha, làm mẹ
- Đọc sách 2 giờ mỗi ngày (Từ 4-6h sáng)
- Rễ, thân cành, và lá
- Sự trở lại của các thành bang
- Việt Nam học được gì từ bài học Phần Lan trong đổi mới giáo dục
- Đằng sau sự thành công của giáo dục Phần Lan là gì?
- Bí mật trong tuyển chọn và đào tạo giáo viên Phần Lan
- Chiến tranh và khó khăn - lý do khiến giáo dục Việt Nam khó phát triển
- Năng lực và các khái niệm liên quan
- Học tập vs Đào tạo