Thuật ngữ ngành xác suất thống kê và học máy
Lý thuyết xác suất[sửa]
1.1 Căn bản: Lý thuyết xác suất cho chúng ta một ngôn ngữ để mô tả sự ngẫu nhiên (randomness). Đối tượng cơ bản nhất của LTXS là các biến ngẫu nhiên (random variables). Để định nghĩa một biến ngẫu nhiên thì cần một hàm phân bố (distribution function), qua đó có thể định nghĩa được các khái niệm như trung bình (mean) và phương sai (variance). Standard deviation gọi là độ lệch chuẩn. Mean và variance là các phiếm hàm (functionals), được áp dụng cho một hàm phân bố hoặc một biến ngẫu nhiên. Hàm phân bố nếu liên tực tuyệt đối với một độ đo chuẩn (?) như Lebesgue thì có thể được biểu diễn bởi hàm mật độ (density), theo định lý Radon-Nikodym.
Cơ sở toán học của lý thuyết xác suất là thuyết độ đo (measure theory), nhưng việc chính của các xác suất gia (?) (probablist) là xây dựng phát triển cáng nhiều loại đo đo xác suất càng tốt. Nói chuyện với một chuyên gia độ đo không thể không định nghĩa một đại số sigma (sigma-algebra). Nói chuyện với một chuyên gia xác suất thì rất nhiều khi khái niệm này ẩn rất kỹ. Công cụ chính của các XSG chính là khái niệm độc lập (independence), và mạnh mẽ hơn là độc lập có điều kiện (conditional independence). Cho nên dân toán thường trêu LTXS chẳng qua là thuyết độ đo + độc lập. Vậy sự khác biệt giữa một độ đo xác suất và những biến ngẫu nhiên là gì? Theo David Aldous thì đó là sự khác biệt giữa recipe để làm bánh và những cái bánh. Hiểu được sự khác biệt này thì mới làm được bước nhảy từ lý thuyết độ đo khô khan sang lý thuyết xác suất tươi mát hơn.
1.2 Độc lập và hội tụ: Khái niệm độc lập cho ta một loạt các định luật cơ bản của LTXS. Tất cả đều xoay quanh hiện tượng tập trung của độ đo (concentration of measure). Bắt đầu là luật các số lớn (có phiên bản luật mạnh (strong law) và luật yếu). Luật giới hạn trung tâm (Central limit theorem) nhắc rằng sample mean (mẫu trung bình) có quy luật bình thường (normal/Gaussian) khi số mẫu tiến đến vô hạn. Các định luật này đều có sử dụng các khái niệm hội tụ (convergence) trong giải tích. Hội tụ gần chắc (almost sure), hội tụ về phân bố hoặc về luật (convergence in distribution/ in law). Ngoài luật số lớn còn có luật các số nhỏ (hay luật các hiện tượng hiếm có — law of rare events), cho ta biết khi nào thì mẫu trung bình có quy luật Poisson. Không phải ngẫu nhiên, Gaussian và Poisson là hai hàm phân bố căn bản nhất — là những viên gạch cho toàn bộ lâu đài XS.
Khái niệm độc lập và độc lập có điều kiện là những chất keo để gắn kết các biến xác suất với nhau, qua đó cho ta các hàm xác suất cho các vật thể toán học có cấu trúc phức tạp hơn. Một dạng độc lập có điều kiện hay dùng là tính chất Markov. Ngoài chất keo độc lập, còn có một chất keo nữa rất hữu dụng, đó là tính hoán chuyển được (exchangeability). Nếu tính độc lập là nền tảng cho các phương pháp suy diễn tần số (frequentist) , thì tính hoán chuyển được lại là cơ sở nền tảng cho các phương pháp suy diễn Bayesian. Tính hoán chuyển được đang được mở rộng ra thành hoán chuyển từng phần (partial exchangeability), một khái niệm quan trọng để phái triển các độ đo cho các vật thể tổ hợp (combinatorial object) rời rạc và phức tạp.
1.3 Quá trình ngẫu nhiên: LTXS phát triển rất nhiều hàm phân bố không chỉ cho các biến xác suất scalar (?) đơn giản, mà người ta còn sáng tạo ra các hàm phân bố cho các cấu trúc toán học phức tạp, nhiều chiều hơn. Chúng ta bắt đầu nói chuyện đến hàm phân bố cho những tập các hàm số đo được (measurable functions), và hàm phân bố cho các độ đo ngẫu nhiên (random measures). Hàm phân bố cho các vật thể vô hạn chiều này gọi chung là các quá trình ngẫu nhiên (stochastic processes). Cách thức khẳng định sự tồn tại là qua định lý của bác Kolmogorov, cho phép ta hiểu về các hàm phân bố cho không gian vô hạn chiều từ các điều kiện nhất quán (consistency) của độ đo cho các cylinder sets. Đây là cách để chúng ta xây dựng được các hàm phân bố cho quá trình Gauss (Gaussian processes), quá trình Dirichlet (Dirichlet process), v.v.
Một cách hữu hiệu để xây dựng một quá trình stochastic là quay lại với khái niệm độc lập, và đẩy khái niệm này đến giới hạn. Công cụ ở đây là nhìn vào phép biến đổi Fourier (Fourier transform) của các hàm phân bố. Theo ngôn ngữ XS thì khái niệm này gọi là hàm tính cách (characteristic function). Để đẩy khái niệm độc lập tới giới hạn thì ta cần khái niệm các hàm phân bố khả phân vô hạn (infinitely divisible). Khái niệm tiếp theo là các hàm phân bố ổn định (stable distribution). Gauss và Poisson chính là hai hàm phân bố ổn định — không phải là “ngẫu nhiên” nếu chúng ta quay về các luật số lớn và số nhỏ nhắc ở trên. Max-stable là một họ phân bố cực đại ổn định.
Các quá trình ngẫu nhiên có tính chất gia tăng độc lập (independent increment) gọi là quá trình Lévy. Tổng quát hơn một chút là các độ đo hoàn toàn độc lập (completely random measures). Định lý biểu diễn Lévy-Khintchine cho chúng ta biết rõ hàm tính cách của các quá trính stochastic này là gì, thông qua độ đo Lévy (Levy measure). Chọn độ đo Lévy thích hợp (beta, gamma, v.v.) thì ta sẽ có một quá trính stochastic tương ứng. Định lý này cho ta thấy tại sao Gauss và Poisson lại trở thành các viên gạch chỉ của các lâu đài xác suất đồ sộ: Theo định lý Lévy-Itó, dựa trên biểu diễn L-K thì tất cả các quá trính Lévy đều có thể được decompose (phân rã) (phân tách) thành tổng của ba quá trình stochastic độc lập, một là quá trình Wiener (một dạng quá trình Gauss), với quá trình phức hợp (compound) Poisson, và một là quá trình martingale.
Rất khó tưởng tượng các tập con đo được của sigma đại số đối với các quá trính ngẫu nhiên. Thay vì hình dung sigma đại số (recipe làm bánh) thì ta có thể mô tả những cái bánh. Nếu quá trình được liệt kê bởi tham số thời gian, thì một cái bánh ở đây có thể hiểu là một lối mẫu (sample path). Với một số quá trình ngẫu nhiên thì có thể mô tả cách tạo mẫu từ một quá trình ngẫu nhiên bằng phương pháp nhặt mẫu từ giỏ Pólya (Pólya’s urn). Rất nhiều quá trình ngẫu nhiên có thể được mô tả bằng biểu diễn bẻ gậy (stick-breaking representation). Theo biểu diễn này thì cần các nguyên tử (atom) và các mẩu gậy (stick-breaking weight). Cách thức bẻ gậy và nhặt nguyên tử đều dựa theo cơ sở của độc lập có điều kiện, một chất keo kỳ diệu cho phép ta mô tả các cấu trúc phức tạp bằng các nguyên liệu giản đơn hơn.
Được quan tâm hàng đầu là biểu hiện của giá trị kỳ vọng (expectation) của một vật thể xác suất. Liên quan là khái niệm kỳ vọng điều kiện (conditional expectation), bản thân nó cũng là một biến ngẫu nhiên. Một công cụ quan trọng là khái niệm martingale. Martingale có thể được mô tả dưới dạng một quá trình NN, tạm gọi là quá trình đánh bạc(?). Cần khái niệm filtration (hệ thống lọc). Ngoải ra ta còn có submartingale, supermartingale và semimartingale (?). Nhờ các công cụ này mà ta có thể tìm hiểu các khái niệm xác suất hữu ích như thời điểm dừng (stopping time), thời điểm chạm (hitting time), thời gian/thởi điểm vượt biên (boundary crossing time).
Một họ quá trình NN rất thông dụng là quá trình Markov (Markov process). Định nghĩa trên cơ sở hạch xác suất chuyển dịch (transition probability kernel), và khái niệm hệ thống lọc. Cần khái niệm subordinator (?), một dạng quá trình Lévy quan trọng. Local time được dịch là thời gian địa phương. Quá trình Markov cho thời gian rời rạc còn gọi là chuỗi Markov (hoặc xích Markov). Liên qua đến chuỗi Markov là lý thuyết ergodic (?). Irreducibility dịch là bất khả quy. Một vấn đề được quan tâm là thời gian hòa tan (mixing time) của chuỗi Markov. Điều kiện cần cho chuỗi Markov được hòa tan về một trạng thái phân bố bất dịch (phân bố dừng) (stationary distribution) là ergodicity, thỏa mãn phương trính cân bằng chi tiết (detailed balance). Chuỗi Markov định nghĩa cho không gian rởi rạc (dàn lattice chẳng hạn) thì sẽ trở thành quá trình đi bộ ngẫu nhiên (random walk). Gọi lattice là dàn thiên lý rất hay, thế phải phân biệt với dàn nho thế nào đây. Khái niệm coupling trong chuỗi Markov dịch là sự cặp đôi. Coupling from the past? Quá đơn giản, cặp nhau từ quá khứ! Time-homogeneous Markov process gọi là quá trình Markov đồng biến.
Nói đến quá trình ta thường nghĩ đến thời gian — cụ thể là các quá trình NN thường được hiểu là tập hợp các hàm phân bố nhất quán (consistent) được liệt kê bởi một tham số chỉ thời gian. Không nhất thiết phải như vậy. Mở rộng khái niệm tham số thời gian ra một không gian bất kỳ (ví dụ không gian Euclidean, dàn, hoặc không gian phi-Euclidean), thì ta có quá trình NN tổng quát hơn. Markov random fields sẽ được gọi là trường ngẫu nhiên Markov. Gaussian random field là trường ngẫu nhiên Gauss. Poisson point process gọi là quá trình điểm Poisson (lại quá trình, nhưng kỳ thực phải gọi là trường Poisson mời phải!) . Spatial process là quá trình không gian (?). Spatiotemporal process gọi là quá trình không-thời gian. Khái niệm phase transition rất hay trong trường ngẫu nhiên Markov của một dàn vô hạn, ta sẽ dịch là hiện tượng chuyển pha.
Một dạng quá trình NN khá hay ho gọi là empirical process (quá trình thực nghiệm). Thường được nghiên cứu để tìm hiểu về tính hiệu quả của các phương pháp suy diễn thống kê, thay vì dùng để mô tả một quá trình ngẫu nhiên trong tự nhiên. Sẽ nói ở mục sau.
Các khái niệm quan trọng khác: percolation, excursion, optional stopping
Mô hình thống kê[sửa]
2.1 Căn bản. Mô hình thống kê (statistical model) cũng là mô hình xác suất, sử dụng từ các nguyên liệu được phát triến cho các hàm phân bố vá các quá trình NN trong LTXS. Cái khác ở đây là trong mô hình thống kê có một số biến ngẫu nhiên được gán nhãn là dữ liệu (data), những biến số ngẫu nhiên mà chúng ta có thể quan sát, hoặc thu thập được giá trị bằng thực nghiệm và các thiết bị công nghệ. Cho nên trọng tâm của việc xây dựng mô hình thống kê là làm sao ước lượng (estimate) /học (learn) được mô hình này từ dữ liệu, làm sao có thể đánh giá được tính hiệu quả (efficiency) hoặc tính phổ quát (generalization) của mô hình, làm sao có thể chọn ra được mô hình hữu ích (model selection/model choice).
2.2 Tham số. Để kiểm soát được độ phức tạp của mô hình thì công cụ chính ở đây là phải tham số hóa (parameterization) mô hình. Các tham số (parameter) là phần còn lại của mô hình xác suất mà chúng ta phải ước lượng, học. Đến đây có một vấn đề nho nhỏ, các tham số là một giá trị không biết nhưng không ngẫu nhiên, hay bản thân chúng là ngẫu nhiên. Có hai cách tiếp cận vấn đề này, trường phái tần suất giả dụ cách đẩu, còn trường phái Bayes thì giả dụ cách sau. Nếu các tham số là có số chiều hữu hạn, ta có một mô hình tham số (parametric model), nếu số chiều là vô hạn thì ta có mô hình phi tham số (nonparametric model). Như vậy, gọi là phi tham số không có nghĩa là không có tham số. Nếu tham số là ngẫu nhiên mà lại vô hạn chiều thì người ta gọi mô hình là mô hình phi tham số Bayes (Bayesian nonparametric model). Điều này không có nghĩa làm việc với các mô hình dạng này là theo trường phái Bayes, mặc dù trên thực tế thì phần lớn những người phát triến mô hình phức tạp nói chung và mô hình phi tham số Bayes nói riêng lại có nhãn quan Bayes. Song không nhất thiết phải vậy.
2.3 Đầy đủ và thông tin. Một công cụ quan trọng trong việc tham số hóa là khái niệm thống kê đầy đủ (sufficient statistics). Để hiểu khái niệm này phải hiểu khái niệm thống kê là gì. Một thống kê là một hàm số được áp dụng vào các dữ liệu (cộng trừ nhân chia kiểu gì cũng được). Liên hệ với khmt thì thống kê chính là đầu ra (output) của một giải thuật sử dụng dữ liệu như là đầu vào. Còn thống kê đầy đủ đối với một mô hình là những thống kê chứa đựng mọi thông tin có thể có được từ dữ liệu về các tham số của mô hình. Nghĩa là nếu vứt hết dữ liệu đi, chỉ cần giữa lại các thống kê đầy đủ, vẫn không bị mất thông tin gì về mô hình. Đây có lẽ là một trong những khái niệm đẹp đẽ nhất của toàn bộ thống kê học. Sau khi quyết định được thống kê đầy đủ rồi người ta có thể biết được rằng dữ liệu phải là mẫu của một hàm phân bố có một cách tham số hóa nhất định, qua một định lý biểu diễn phân tích Fisher-Neyman (Fisher-Neyman factorization theorem). Nhắc thêm khái niệm thống kê đầy đủ là một khái niệm có tính lý thuyết thông tin (information-theoretic), có thể phát biểu bằng tính độc lập có điều kiện và các khái niệm entropy.
Một loạt các mô hình đẹp có thể được động viên từ khái niệm cần và đủ kiểu này. Mô hình họ mũ (exponential family) là mô hình tạo ra dữ liệu ngẫu nhiên nhất có thể được, nếu các thống kê đầy đủ đã được cho. Mô hình xác suất đồ thị (probabilistic graphical model) là mô hình duy nhất thỏa mãn các ràng buộc về độc lập có điều kiện cho các biến ngẫu nhiên, theo định lý Hammersley-Clifford. Nếu các biến ngẫu nhiên được giả dụ là hoán chuyển được, thì chúng bắt buộc phải được mô tả bởi một mô hình trộn/ mô hình hỗn hợp (mixture model), theo định lý nổi tiếng của de Finetti. Nếu các biến ngẫu nhiên có hàm phân bố không thay đổi kể cả khi bị biến đổi trực chuẩn (orthornomal transformation) thì chúng bắt buộc phải được mô tả bởi một elliptically contoured distribution (phân bố có đường cong ê líp), kiểu như Gauss đa biến vậy.
2.4 Nhãn quan Bayes và tần suất. Các mô hình thống kê cho ta keo dính để gắn kết các dữ liệu với nhau, và là đối tượng trung tâm của ngành thống kê. Nhưng trong lịch sử và đến tận bây giờ, các mô hình vẫn được trường phái Bayes chào đón nồng nhiệt hơn là trường phái tần suất, bởi vì sự lệ thuộc vào một mô hình thống kê làm cho người ta liên tưởng đến sự lệ thuộc vào tiên nghiệm (prior knowledge) quá nhiều, và do đó thiếu đi sự “khách quan”. Đặc biệt trong trường phái Bayes có một nhánh gọi là Bayes chủ quan (subjective Bayes) và Bayes khách quan. Những người theo Bayes chủ quan cho rằng, nếu ta có những niềm tin chủ quan (subjective belief) nhất định về dữ liệu, thì ta sẽ sử dụng một mô hình xác suất tương ứng, do các định lý kiểu như của de Finetti và Hammersley-Clifford kể trên. Một mảng không nhỏ của ngành thống kê học, thuộc trường phái tấn suất, tập trung vào các phương pháp mô hình tự do (distribution free), qua đó không sử dụng một mô hình xác suất cụ thể nào, mặc dù họ có giả sử là tộn tại một hàm phân bố để tạo ra các mẫu dữ liệu một cách độc lập. Chú ý rằng điều này không có nghĩa là các nhà tần suất là khách quan hơn các nhà Bayes chủ quan, vì sự giả dụ tính độc lập nói chung là mạnh hơn sự giả dụ tính độc lập điều kiện, hay tính hoán chuyển được. Cả hai cách nhìn Bayes và tần suất đều hữu ích trong các ngữ cảnh khác nhau, và về nhiều mặt không có phe hoàn toàn đúng. Cả hai cách nhìn này đều chứa chất mâu thuẫn trong mình, có sự đối chọi nhau, nhưng cũng có sự tương hỗ nhau giống như bức tranh âm-dương trong Kinh Dịch vậy. Ta sẽ tiếp tục soi lại quan hệ này mỗi khi có dịp.
2.5 Phân lớp các mô hình cụ thể và cách tham số hóa. Các mô hình thống kê giống như các sinh vật trong thế giới tự nhiên, rất đa dạng và có thể được phân lớp, và có thể quan sát sự phức tạp tăng dần với quá trình phát triển của ngành. Trong ngành học máy thì một số người còn gọi một mô hình là một cái máy (machine), nghe công nghệ, hiện đại và mới mẻ hơn. Để mô tả một mô hình thì cần phải nói cách tham số hóa của chúng thế nào, nên cần rất nhiều khái niệm và lexicon. Tham số hóa thế nào chính là vấn đề cơm và nước mắm của người học thống kê.
Với rất nhiều biến ngẫu nhiên, cần phải định ra joint distribution (phân bố liên hợp). Marginal distribution gọi là ? Conditional distribution gọi là phân bố điều kiện. Covariates gọi là đồng biến. Trong công nghệ thường là đầu vào. Features thực ra cũng là đồng biến, nhưng xuất xứ từ học máy, và sẽ gọi là đặc trưng.
Trong họ mũ, có hai cách tham số hóa. Natural parameterization gọi là cách tham số hóa tự nhiên. Canonical parameterization gọi là tham số hóa chính tắc? Còn gọi là tham số hóa trung bình (mean parameterization). Hai hệ tham số kể trên có liên hệ mất thiết với nhau qua quan hệ đối ngẫu liên hợp (conjugate duality), một khái niệm của giải tích lồi (convex analysis). Trong hình học thông tin (information geometry) thì hai hệ tham số này có thể hiểu qua khái niệm e-flat manifold và m-flat manifold (?). Normalizing constant gọi là hắng số chuẩn hóa. trong vật lý thống kê thì khái niệm này còn gọi là partition function — hàm ngăn phần. Các mô hình thông dụng trong vật lý lý thuyết như mô hình Ising, spin glass (?), đều là trường hợp đặc biệt của họ mũ. Rất nhiều hàm phân bố là trường hợp đặc biệt của họ mũ. Đặc biệt quan trọng là multivariate Gaussian dịch là Gauss đa biến. Mean vector và covariance matrix gọi là vector trung bình và ma trận hiệp phương sai.
Mô hình họ mũ lại là trường hợp đặc biệt của họ mô hình xác suất đồ thị (graphical model). Phân biệt graphical và graph và graphics thể nào đây? Để định nghĩa mô hình này cần potential function (hàm tiềm năng), được định nghĩa trên clique (?) của các biến ngẫu nhiên. Có hai loại mô hình XSDT. Một là mô hình đồ thị vô hướng (undirected graphical model), cũng đồng nghĩa với trường ngẫu nhiên Markov (Markov random fields). Một là mô hình đồ thị có hướng (directed graphical model), còn gọi là mạng Bayes (Bayesian network) của Pearl. Trong mạng Bayes có khái niệm nốt cha và nốt con. Khái niệm moralization gọi là lấy nhau. Một số trường hợp thông dụng của mạng Bayes có thể kể đến mô hình cây xác suất ĐT (tree-structured graphical model), mô hình đa cây (polytree) nhưng có lẽ gọi là cây đa cũng thích hợp, mô hình Markov ẩn (hidden Markov), mô hình lọc Kalman (Kalman filter), mài trơn Kalman (Kalman smoothing) … Latent/hidden variables gọi là các biến ẩn. Naive Bayes tạm gọi là Bayes thơ ngây, hoặc Bây ngô. Mạng Bayes cho các dạng dữ liệu tuần tự (sequential data) còn gọi là dynamic Bayes net (?).
Một số mô hình tham số khác phải kể đến: Mô hình hổi quy tuyến tính, mạng nơ ron (neural network), mô hình cây quyết định (decision tree), mô hình hợp xướng (ensemble), mô hình hổi quy logit (logistic regression), mô hình tuyến tính tổng quát (generalized linear model), mô hình mạng tin, mạng tin sâu (deep belief net). v.v. Những mô hình kiểu này thường áp dụng vào các vấn đề suy diễn cụ thể hơn, đặc biệt trong bài toán phân lớp (classification) và hồi quy (regression). Có một số cách phân loại nữa: Trong học máy thì các mô hình dự trên hàm phân bố xác suất liên hợp thường gọi là mô hình sinh mẫu (generative model), nhưng cũng có một số mô hình áp dụng cho các vẫn đề liên quan đến xác suất điều kiện thì gọi là mô hình phân biệt (discriminative model). Cái sau hay được dùng cho các kiểu suy diễn đặc biệt hơn như bài toán phân lớp, bài toán phân hạng, v.v.
Một mô hình bao gồm cả tham số có số chiều hữu hạn và tham số có số chiều vô hạn thường gọi là mô hình bán tham số (semiparametric model). Một ví dụ tiêu biểu là mô hình hồi quy Cox (Cox regression model) trong bài toán phân tích sống sót và phân tích sự kiện lịch sử (survival analysis/ event history analysis). Time to event data dịch là dữ liệu sự kiện. Trong mô hình này, thành phần tham số hữu hạn gắn liền với những đồng biến (covariates) quan tâm, thành phần tham số vô hạn là cường độ tử vong/lỗi cơ bản (baseline hazard intensity). Đôi khi họ các mô hình bán tham số được gộp chung vào họ các mô hình phi tham số.
Họ các mô hình phi tham số Bayes được lấy từ các quá trình ngẫu nhiên kể trên. Infinite mixture model gọi là mô hình trộn/ hỗn hợp vô hạn. Có các quá trình đậm chất ẩm thực: Quá trình nhà hàng Tàu (Chinese restaurant process), quá trình búp phê Ấn độ (Indian buffet process). Quá trình coelescence gọi là gì? Với dân tần suất thì nhiều khi các mô hình phi tham số chỉ là tập các hàm quen thuộc trong giải tích hàm. Ví dụ lớp Sobolev (Sobolev class), lớp Besov, không gian Hilbert nhân tự sinh (reproducing kernel Hilbert space), lớp smoothing splines (?), v.v. Dân Bayes sẽ luôn luôn nói về các hàm phân bố (độ đo) cho các hàm số kiểu này.
Dân Bayes còn có một việc là phải tham số hóa các tham số. Theo cách nhìn Bayes, các tham số cũng ngẫu nhiên, phải được giả dụ bởi một hàm phân bố khác. Các tham số của hàm này sẽ là hyperparameter (tham số tầng trên/ tham số thượng tầng?). Nếu là người theo Bayes cuồng tín, thì các tham số thượng tầng này cũng phải ngẫu nhiên… và phải tiếp tục quá trình tham số này đến tận Big Bang. Điều này dẫn đến một họ mô hình đa tầng (hierarchical model/ multi-level model), rất mạnh và rất giàu. Tuy có thể coi là một trường hợp của mô hình XSDT, nhưng trọng tâm và nguổn gốc rất khác, nên ta không nên gộp làm một. (Chú ý là ta không thể đi đến tận Big Bang, nên sau vài tầng của hierarchy thì các nhà thống kê Bayes cũng sẽ mệt và dửng lại. Trên thực tế, khi đó vai trò của các tham số tầng rất cao không còn ý nhiều trong chuyện chi phối các biểu hiện của mô hình nữa). Việc định ra cách tham số hóa các tham số còn gọi là sự định ra các prior distribution (phân bố tiên nghiệm) cho các tham số ngẫu nhiên. Áp dụng công thức Bayes (Bayes rule) thì tính được posterior distribution, dịch là phân bố hậu nghiệm. Conjugate prior thì gọi là phân bố tiên nghiệm liên hợp. Tham số hóa cho các tham số hyper còn gọi là sự định ra các hyperprior (phân bố tiên nghiệm thượng tầng). Quyết định lựa chọn prior nào (sự chỉ định tiên nghiệm) phụ thuộc vào sự giằng co giữa tiên nghiệm (prior knowledge), thực nghiệm từ dữ liệu (empirical data), và sự thuận tiện về tính toán (computational convenience). Sử dụng các phân bố tiên nghiệm liên hợp (phát âm đầy mồm!) là một ví dụ của sự thuận tiện. Sự giẳng co giữa tiên nghiệm và thực nghiệm chẳng qua là một thể hiện của dao cạo Occam, dưới nhãn quan của trường phái Bayes.
Dân tần suất thì không thích khái niệm tham số hyper chút nào, mà cho rằng các tham số phải là không ngẫu nhiên. Về mặt mô hình mà nói thì cách nhìn này là cái trói vô hình, theo quan điểm Bayes những tham số kiểu này là vẫn có thể coi là ngẫu nhiên theo một độ đo Dirac (độ đo nguyên tử – atomic measure), một sự ràng buộc rất chặt không cần thiết. Cho nên, trong lịch sử mô hình của các nhà tần suất thường không giàu có bằng mô hình của các nhà Bayes. Tuy không nhất thiết phải là như vậy.
2.6 Dao cạo của Occam. Như ông Gớt nói là mọi chân lý đều màu xám, còn cây đời thì mãi mãi xanh tươi. Thay chữ chân lý bằng chữ mô hình, thay chữ cây đời bằng chữ dữ liệu quan sát được, ta có một biên phản cho các nhà thống kê. Bác George Box có một câu nổi tiếng tương tự — mọi mô hình đều sai, chỉ có những mô hình hữu ích hay không. Cho nên ta phải nhìn nhận các mô hình là cách chúng ta xấp xỉ thế giới thực nghiệm. Vì vậy ngoài sai số ước lượng (estimation error) của các tham số, còn có một dạng sai số gọi là sai số xấp xỉ (approximation error). Mô hình dùng ngôn ngữ thống kê và các cấu trúc toán học (như các quá trình stochastic) làm viên gạch, nhưng lại được ước lượng, điều chỉnh (update), và đánh giá, phân tích bằng dữ liệu thật. Công cụ toán học càng mạnh thì tính phức tạp mô hình (model complexity) càng lớn, dẫn đến khả năng biểu diễn của một mô hình càng lớn, khi đó sai số xấp xỉ sẽ nhỏ, song việc ước lượng (estimation) từ dữ liệu cũng có thể lớn lên. Đây chính là giằng co (tradeoff ) giữa sai số xấp xỉ và sai số ước lượng. Hiện tượng này gọi là cái dao cạo của Occam (Occam’s razor), luôn luôn ám ảnh và xuyên suốt mọi quyết định trong việc thiết kế và đánh giá một mô hình học. Sợ nhất là mô hình overfit dữ liệu (quá rộng) Một đánh giá khách quan đối với sự hiệu quả và tích hữu ích của một mô hình là tính dự báo của nó, và nói chung thì lỗi dự báo thường được chặn bởi hai dạng sai số nói trên. Liên quan đến các khái niệm xấp xỉ: Model misspecification gọi là sự chỉ định mô hình không chuẩn. Khái niệm model identifiability gọi là tính khả nhận diện mô hình. Parameter identifiability là tính khả nhận diện của tham số.
Tóm tắt: joint probability, marginal probability, conditional probability, model identifiability, model mis-specification, model choice, model selection, parameter identifiability, consistency, parametric model, nonparametric, exponential family, curved exponential family, graphical model, hierarchical model, mixture model, hidden markov model, copula model, latent/hidden variables, nonparametric Bayesian model, density, intensity measure, analysis of variance, functional data, curve data, prior distribution, posterior distribution, a priori, a posteriori, sufficient statistics, order statistics, mean parameterization, canonical parameterization, normalizing constant, log-partition function, mean function, covariance function, covariates, features, conjugate prior, conjugacy
Các phương pháp suy diễn thống kê[sửa]
3.1 Tổng quan. Cần phân biệt suy diễn thống kê (statistical inference) với suy diễn xác suất (probabilistic inference). Cái sau chỉ là sự tính toán các xác suất điều kiện trên cơ sở mô hình xác suất. Còn SDTK là suy diễn trên cơ sở mô hình thống kê với sự hiện diện của số liệu. Có hai vấn đề chính, một là suy diễn về tham số, hay còn gọi là ước lượng về tham số (parameter estimation), và dự báo (prediction). Với nhãn quan Bayes thì suy diễn thống kê còn gọi là suy diễn Bayes, về mặt toán học thì không khác gì suy diễn xác suất vì cả tham số và dữ liệu đều được mô tả bằng biến ngẫu nhiên. Cho nên về mặt khái niệm thì đơn giản, mẫu mực. Với nhãn quan tấn suất thì cách tiếp cận đến các vấn đề suy diễn thống kê khó khăn hơn về mặt khái niệm, và đòi hỏi các cách tiếp cận không mẫu mực. Trong học máy thì vấn đề ước lượng về tham số còn gọi là học.
Nếu như trong vấn đề xác định mô hình thì quan điểm Bayes và quan điểm tần suất có tính tương hỗ nhau (ví dụ, anh Bây nói với với anh Tần: Tôi mệt rồi, cho phép cái tham số hyper của tôi là không ngẫu nhiên nhá — và anh Tần nói với anh Bây: Cho tôi gọi tham số của anh là biến ẩn nhá), thì trong vấn đề suy diễn, hai quan điểm này xung khắc nhau quyết liệt bất phân thắng bại. Quan điểm của Bây là: đối với vấn đề ước lượng tham số thì chỉ suy diễn điều kiện vào dữ liệu có sẵn (conditioning on data), và “marginalize out/ integrate out” (?) các tham số ngẫu nhiên trong việc dự báo. Quan điểm của Tần là: đồi với vấn đề ước lượng tham số thì phải suy diễn cho cả dữ liệu tưởng tượng (imaginary data, và dùng ước lượng “plug-in” (?) trong việc dự báo. Tiêu chuẩn của Bây là lạc quan, quan tâm nhiều đến phân tích trường hợp trung bình (average-case analysis). Tiêu chuẩn của Tần rất bi quan, chú trọng nhiều hơn đến phân tích tình huống xấu nhất (worst-case analysis). Đây chỉ là hai thái cực để cho thấy sự khác biệt. Trên thực tế có thể kết hợp cả hai cách tiếp cận trong việc suy diễn từ dữ liệu.
Có một số vấn đề suy diễn cụ thể hơn, và do đó có một số lexicon riêng: Point estimation gọi là ước lượng điểm (một khái niệm của TK Tần). Hypothesis testing gọi là kiểm định lý thuyết (phép thử lý thuyết?). Classification gọi là vấn đề phân lớp. Clustering gọi là vấn đề chia nhóm. Bài toán ranking trong học máy gọi là vấn đề phân hạng. Supervised learning gọi là học có nhãn, học có hướng dẫn. Unsupervised learning gọi là học không nhãn (học không có hướng dẫn, học không thầy). Sequential analysis gọi là phân tích chuỗi/ phân tích tuần tự (?), mà cụ thể có bài toán optimal stopping dịch là bài toán dừng tối ưu. Survival analysis gọi là phân tích sự sống sót (?). Vấn đề change point detection gọi là bài toán phát hiện điểm thay đổi. Chú ý là tất cả các vẫn đề suy diễn cụ thể này đều có thể hiểu tổng quát theo một trong hai vấn đề suy diễn (ước lượng tham số, hoặc dự báo), đều có thể tiếp cận theo cách nhìn Tần hay Bây, nhưng có thể sự điểu chỉnh một chút về cách đánh giá của suy diễn.
3.2 Lý thuyết quyết định. Nền tảng lý thuyết của suy diễn thống kê chính là lý thuyết quyết định của Abraham Wald. Cần khái niệm rủi ro (risk). Rủi ro Bayes là Bayes risk. Rủi ro là kỳ vọng của hàm thiệt hại/tổn thất/thiệt/mất (loss function). Dân kinh tế sẽ dùng hàm utility (hàm tiện ích/thỏa dụng) thay vì dùng hàm thiệt hại. Một khái niệm tương tự là hàm reward (?) trong môn học reinforcement learning(?), và quá trình quyết định Markov.
Lý thuyết quyết định là cái ô chung cho cả hai trường phái Bây và Tần, nhưng với dân Tần thì có nhiều việc phải lo hơn. Estimator dịch là cách ước lượng cho một tham số, và là một hàm số áp dụng vào dữ liệu. Như vậy cũng giống một thống kê, như vậy có thể coi một thống kê là một cách ước lượng thô sơ. Estimate là một ước lượng cụ thể cho một tham số nào đó. Trong bài toán phân lớp thì estimator còn gọi là một learning machine (máy học), estimate sẽ là hàm số phân lớp (classifier). Trong vấn đề kiểm định lý thuyết (hypothesis testing) thì cái phải ước lượng là một hàm số quyết định (decision function). Dù theo nhãn quan nào thì đều cần tìm ước lượng theo tiêu chuẩn có giá trị rủi ro tối thiểu (minimum risk criterion). Nhưng rủi ro của anh Bây thì khác với anh Tần. Kỳ vọng tần suất (frequentist expectation) là kỳ vọng của hàm mất đối với phân bố của dữ liệu (ảo tưởng) trên cơ sở một mô hình với một tham số có sẵn. Kỳ vọng Bayes là giá trị kỳ vọng của hàm mất đối với phân bố điều kiện của tham số trên cơ sở dữ liệu có sẵn. Nói cách khác, với anh Tần thì dữ liệu là ngẫu nhiên, với anh Bây thì tham số là ngẫu nhiên. Nếu lấy kỳ vọng của kỳ vọng tần suất đối với phân bố của tham số, hoặc lấy kỳ vọng của kỳ vọng Bayes đối với phân bố của dữ liệu thì ta cùng nhận được Rủi ro Bayes!
Một số hàm thiệt hại thông dụng: Hàm thiệt 0-1. Khi đó Rủi ro Bayes gọi là Lỗi Bayes (Bayes error). Hàm thiệt bình phương (square loss). Hàm thiệt mũ (exponential loss). Hàm thiệt logit (logistic loss). Surrogate loss sẽ được dịch là hàm thiệt thế chỗ (?). Để so sánh các cách ước lượng (estimator) khác nhau người ta có thể dùng tiêu chuẩn Bayes (thông qua việc so sánh Rủi ro Bayes). Dân tần suất sẽ hay dùng tiêu chuẩn minimax, mượn từ lý thuyết trò chơi (mà cuộc chơi ở đây là giữa nhà thống kê và Trời — chỉ Ông Trời biết chân lý (mô hình đúng là gì, và ông trời mỗi lần ra tay sẽ nhả ra một mẫu dữ liệu). Cần một số phẩm chất cho các cách ước lượng, như khái niệm unbiasedness (?), admissibility (?), consistency (nhất quán), invariance (bất biến phương sai), efficiency (hiệu quả), superefficiency (siêu hiệu quả). Dân Bayes chủ quan không quan tâm đến mấy cái chuẩn này, vì họ đã có niềm tin son sắt vào tiên nghiệm rồi, và suy diễn Bayes bằng cách tính phân bố hậu nghiệm là xong. Tuy vậy phương pháp suy diễn Bayes chủ quan có nhiều tính chất lý thuyết rất tốt. Suy diễn dựa trên cơ sở của phân bố hậu nghiệm được chứng minh là tối ưu theo tiêu chuẩn Rủi ro Bayes. Dân Bayes khách quan thì không quá tự tin như dân Bayes chủ quan, nên họ muốn phân bố tiên nghiệm phải có những phẩm chất tốt. Tính nhất quán hậu nghiệm (posterior consistency) là một phẩm chất quan trọng.
3.3 Các cách ước lượng/học thống kê. Tôi đặt vài viên gạch ở đây. Khi nào rỗi sẽ viết dần dần. Bạn nào có nhã hứng đóng góp từng paragraph vào các mục sau (hoặc các mục chưa ghi) xin cho biết. Ước lượng hay học ở đây vẫn trên cơ sở một họ mô hình định sẵn. Còn vấn đề khó hơn là chọn mô hình (model selection), so sánh các mô hình, đặc biệt giữa các mô hình có độ phức tạp khác hẳn nhau. Kiểm định giả thuyết là một dạng rất đặc biệt của lựa chọn giữa các mô hình, song vẫn có thể hiểu gọn trong phạm vi ước lượng.
Empirical risk minimization. Rủi ro được định nghĩa trên cơ sở hàm phân bố của mô hình (chân lý — chỉ có Trời mới biết). Chỉ có thể tiếp cận đến mô hình này thông qua quá trình thực nghiệm (empirical process). Nói cách khác, rủi ro phải được ước lượng bẳng rủi ro thực nghiệm (empirical risk). Hầu hết các cách ước lượng của phe Tần suất đều ở dạng tính rủi ro thực nghiệm cực tiểu (empirical risk minimization (ERM)). Một lexicon đồng nghĩa là M-estimation (ước lượng M), M có nghĩa là maximization hoặc minimization. Cách ước lượng dựa vào moment (moment-based estimation/ moment matching) thực ra cũng có thể được động viên và liên hệ với cách ước lượng rủi ro thực nghiệm cực đại. Một vấn đề đau đầu cho cách ước lượng rủi ro cực tiểu là phải chọn hàm mất gì? Có một số tên riêng: Nếu hàm mất là hàm bình phương, thì ta có phương pháp bình phương cực tiểu (least square) rất thông dụng trong hồi quy.
Maximum likelihood và nguyên tắc likelihood. Nếu mô hình thống kê chỉ định ra một hàm phân bố cho dữ liệu, thì ta có khái niệm likelihood (khả năng?). Đây là hàm số của tham số, nhưng được lại là ngẫu nhiên vì được định nghĩa trên cơ sở dữ liệu ngẫu nhiên. Likelihood chính là một ví dụ tiêu biểu (nhất) của rủi ro thực nghiệm. Hàm mất tương ứng ở đây là hàm logarithm của mật độ. Maximum likelihood dịch là cách ước lượng khả năng cực đại (?), một phát kiến vĩ đại của Ronald Fisher. Đây là cách ước lượng thông dụng, đa năng bậc nhất trong ngành thống kê (ít nhất là với nhãn quan tần suất). Với các mô hình tham số thì cách ước lượng này được đảm bảo bởi tính nhất quán (consistency) — mô hình sẽ được ước lượng chính xác nếu số dữ liệu tiến đến vô hạn. Tại sao hàm mất lại là hàm logarithm của mật độ mà không phải là một hàm số nào khác? Đây là một ví dụ của sự diệu kỳ bất ngờ của toán học — câu trả lởi truy ra khái niệm độc lập, khái niệm tập trung của độ đo trong xác suất, và tính lồi trong giải tích (và hình học). Nguyên tắc khả năng (likelihood principle) cho rẳng hàm khả năng là một thống kê đầy đủ (sufficient statistics). Nguyên tắc này phá sản trong ngữ cảnh phi tham số.
Regularization/Penalization/Shrinkage. Với sự ước lượng các mô hình phi tham số thì chỉ dựa vào dữ liệu (thông qua hàm khả năng (likelihood) hoặc tổng quát hơn, hàm rủi ro thực nghiệm) không đủ. Cần phải có sự điều chỉnh trong việc lấy cực đại/cực tiểu thông qua khái niệm regularization (kiểm soát), còn gọi là penalization (soát phạt). Regularized empirical risk gọi là rủi ro thực nghiệm có kiểm soát. Khái niệm kiểm soát, soát phạt bắt nguổn từ một phát hiện bất ngờ của Charles Stein về shrinkage estimator (cách ước lượng co). Cho nên nhiều khi người ta cũng gọi nhóm ước lượng này là ước lượng co. Để dùng một số lượng dữ liệu hữu hạn mà ước lượng các đại lượng (tham số) vô hạn hoặc có số chiều đủ lớn (cho dù số dữ liệu có lớn đến đâu và tiến dần đến vô hạn đi chăng nữa) thì vẫn phải có sự kiểm soát trong ước lượng, và không thể dựa hoàn toàn vào dữ liệu thực nghiệm được. Theo nhãn quan Bayes thì điều này chính là sự giằng co giữa thực nghiệm và tiên nghiệm. Co (shrinkage) ở đây chính là co về tiên nghiệm.
Phương pháp phân tích hậu nghiệm/ học Bayes. Phương pháp phân tích hậu nghiệm (a posteriori analysis), cụ thể là cách suy diễn hậu nghiệm (posterior inference), suy diễn Bayes (Bayesian inference), học Bayes (Bayesian learning),… đều mô tả cùng một cách ước lượng theo trường phái Bayes. Đó là thay vì người ta ước lượng tham số (không ngẫu nhiên) như trong trường phái tần suất, người ta sẽ tính hàm phân bố hậu nghiệm cho tham số thông qua công thức Bayes. Cách này mẫu mực — phần việc chính ở đây là chỉ định ra phân bố tiên nghiệm ra sao, và tính toán phân bố hậu nghiệm thế nào (vì phải tính tích phân rất phức tạp về mặt tính toán). Chú ý rằng cách ước lượng maximum likelihood chẳng qua là tính mốt (mode) của phân bố hậu nghiệm, nếu phân bố tiên nghiệm được chọn là phân bố đều (uniform distribution). Trong phân tích Bayes, đặc biệt là với mô hình tham số, thì không phải lo lắng gì về việc kiểm soát (regularization). Nhưng nếu phân bố tiên nghiệm là một quá trình ngẫu nhiên (trong mô hình phi tham số) thì vẫn phải lo lắng về chuyện kiểm soát tính phức tạp của tiên nghiệm (complexity of prior distribution). Một công cụ là sensitivity analysis (phân tích tính nhạy cảm) của phân bố cho tham số.
Phương pháp Bayes thực nghiệm (empirical Bayes). Phương pháp này có thể xem cách ước lượng tần suất cho mô hình đa tầng. Mô hình đa tầng là một công cụ lý tưởng trong việc kiểm soát độ phức tạp của các mô hình cho tham số.
3.4. Các vấn để suy diễn cụ thể hơn.
Hypothesis testing. Trong kiểm định giả thuyết có một số khái niệm quan trọng: Null hypothesis gọi là ? Alternative hypothesis? Có hai loại lỗi: Lỗi loại một (type-1 error) và lỗi loại hai (type-2 error). Còn gọi là tỷ lệ lỗi dương tính (false positive) và lỗi âm tính (false negative) trong đánh giá các treatment (?) trong y học. Trong công nghệ thì type-1 error gọi là false alarm error rate (?), type-2 error chính là misdetection error rate (?). Tất cả các loại rỗi này đều là hàm rủi ro đối với hàm thiệt 0-1. Cách ước lượng trong kiểm định giả thuyết gọi là một hàm quyết định. Và người ta sử dụng hàm quyết định thực hiện phép thử (test) cho giả thuyết. Một phép thử được đánh giá thông qua các bảo đạm về giới hạn của các lỗi kể trên. Sự giẳng co giữa lỗi loại một và loại hai được biểu diễn bẳng ROC curve (đường cong ROC). Các khái niệm liên hệ còn có significance (?). Confidence interval dịch là ? p-value dịch là giá trị p. Power của phép thử gọi là sức mạnh. Nếu chỉ có hai giả thuyết đẻ so sánh thì hàm quyết định tối ưu chính phải dựa vào likelihood ratio (phân số khả năng). Likelihood ratio test gọi là phép thử dựa vào phân số khả năng. Công cụ để đánh giá sức mạnh của một phép thử là thống kê giới hạn (asymptotic statistics).
Kiểm định giả thuyết xuất phát từ thống kê tấn suất, do công của Neyman và Pearson. Khái niệm này rất phản trực quan, và phải đợi đến Wald mới thống nhất cách suy diễn này với cách hình thức suy diễn kiểu khác trong thống kê. Nếu tiếp cận theo nhãn quan Bayes thì KDGT khá là đơn giản, không khác gì việc ước lượng một mô hình là bao. Cần khái niệm phân bố tiên nghiệm cho các giả thuyết. Khái niệm Bayes factor sẽ được dịch là ?
Sequential analysis. Trong phân tích tuần tự (sequential analysis) thì có sự giẳng co của lỗi Bayes và thời gian trễ (delay time) của quyết định về giả thuyết. Khái niệm thử thông dụng là sequential likelihood ratio test (phép thử dựa theo chuỗi phân số khả năng). Công cụ lý thuyết đẻ đánh giá sức mạnh của phép thử là các phân tích về thời gian dừng, phân tích các loại thời điểm vượt biên, v.v. trong lý thuyết xác suất về quá trình Markov.
Classification/regression/ranking. Trong bài toán phân lớp thì người ta gọi một cách ước lượng để phân lớp là một máy học (learning machine). Tham số cần ước lượng ở đây gọi là một hàm phân loại (classifier). Có thể tiếp cận vấn đề này trên cơ sở mô hình tham số hoặc mô hình phi tham số. Để học được máy (mô hình) thường đòi hỏi nhiều tính toán, chứ không phải các thống kê đơn giản như trong kiểm định giả thuyết cổ điển. Cho nên dẫn đến những quan tâm về vấn đề hiệu quả của các giải thuật học/ ước lượng. Cách học/ ước lượng, về mặt tính toán, có lexicon riêng là training (việc luyện máy). Dữ liệu cần cho việc huấn luyện gọi là dữ liệu huấn luyện (training data). Phép thử một hàm phân loại với dữ liệu mới gọi là testing. Dữ liệu thử chính là test data Nếu có hai lớp để phân loại thì hàm phân loại tối ưu phải dựa vào likelihood ratio, rất giống như trong kiểm định giả thuyết. Một khác biệt căn bản giữa bài toán phân lớp với bài toán kiểm định lý thuyết là chỗ này: Cái đầu phải thử giả thuyết cho từng mẫu một. Cái sau chỉ phải thử giả thuyết một lần cho cả đám đông. Có rất nhiều phương pháp phân lớp, với các mô hình tham số và phi tham số, và các giải thuật học/ước lượng rất phong phú. Kinh điển thì có linear discriminant analysis (phân tích phân biệt tuyến tính), logistic regression (hồi quy logit). Hiện đại hơn thì có mạng nơ ron (neural network), radiant basis network (?), support vector machines (?),…
Bài toán hồi quy (regression analysis) tương tự như bài toán phân lớp, khác ở đây là cần phải ước lượng/học phương trình hồi quy (thay vì hàm phân loại). Hàm phân loại chỉ có giá trị rởi rạc, còn phương trình hồi quy thường tính ra các giá trị liên tục. Bài toán phân cấp gần giống bài toán phân loại ở chỗ hàm phân loại cũng có giá trị rời rạc (và không phải nhị phân), nhưng dữ liệu huấn luyện các mẫu về sự so sánh giữa các cấp chứ không phải nhãn lớp (cấp).
Dimensionality reduction/ exploratory data analysis.