Kiểm định giả thuyết thống kê – Wikipedia68373

Giả thuyết thống kê đôi khi được gọi là phân tích dữ liệu xác nhận là một giả thuyết có thể kiểm chứng được trên cơ sở quan sát một quá trình được mô hình hóa thông qua một tập hợp các biến ngẫu nhiên. [1] Thử nghiệm giả thuyết thống kê là một phương pháp suy luận thống kê. Thông thường, hai bộ dữ liệu thống kê được so sánh hoặc một bộ dữ liệu thu được bằng cách lấy mẫu được so sánh với bộ dữ liệu tổng hợp từ một mô hình lý tưởng hóa. Một giả thuyết được đề xuất cho mối quan hệ thống kê giữa hai bộ dữ liệu và điều này được so sánh như là một thay thế cho một giả thuyết null được lý tưởng hóa cho thấy không có mối quan hệ nào giữa hai bộ dữ liệu. Sự so sánh được coi là có ý nghĩa thống kê nếu mối quan hệ giữa các bộ dữ liệu sẽ là sự hiện thực hóa không thể xảy ra của giả thuyết null theo xác suất ngưỡng theo mức xác định. Các thử nghiệm giả thuyết được sử dụng để xác định kết quả của một nghiên cứu sẽ dẫn đến sự bác bỏ giả thuyết khống cho mức độ quan trọng được chỉ định trước. Quá trình phân biệt giữa giả thuyết null và giả thuyết thay thế được hỗ trợ bằng cách xác định hai loại lỗi khái niệm. Loại đầu tiên xảy ra khi giả thuyết null bị từ chối sai. Loại lỗi thứ hai xảy ra khi giả thuyết null được giả định là đúng (lỗi loại 1 và loại 2). Bằng cách chỉ định xác suất ngưỡng ('alpha') trên, ví dụ: rủi ro chấp nhận được khi mắc lỗi loại 1, quy trình quyết định thống kê có thể được kiểm soát.

Một khung thay thế cho kiểm tra giả thuyết thống kê là chỉ định một tập hợp các mô hình thống kê, một mô hình cho từng giả thuyết ứng cử viên, sau đó sử dụng các kỹ thuật lựa chọn mô hình để chọn mô hình phù hợp nhất. [2] Các kỹ thuật lựa chọn phổ biến nhất dựa trên một trong hai Tiêu chí thông tin Akaike hoặc yếu tố Bayes.

Phân tích dữ liệu xác nhận có thể tương phản với phân tích dữ liệu thăm dò, có thể không có các giả thuyết được chỉ định trước.

Biến thể và phân lớp [ chỉnh sửa ]

Kiểm tra giả thuyết thống kê là một kỹ thuật chính của cả suy luận thường xuyên và suy luận Bayes, mặc dù hai loại suy luận này có sự khác biệt đáng chú ý. Kiểm tra giả thuyết thống kê xác định một quy trình kiểm soát (sửa chữa) xác suất không chính xác quyết định rằng vị trí mặc định (giả thuyết null) là không chính xác. Quy trình này dựa trên khả năng xảy ra một tập hợp các quan sát nếu giả thuyết khống là đúng. Lưu ý rằng xác suất đưa ra quyết định không chính xác này là chứ không phải xác suất giả thuyết null là đúng, cũng như liệu có bất kỳ giả thuyết thay thế cụ thể nào là đúng hay không. Điều này trái ngược với các kỹ thuật có thể khác của lý thuyết quyết định trong đó giả thuyết không và thay thế được xử lý trên cơ sở bình đẳng hơn.

Một cách tiếp cận Bayes ngây thơ trong kiểm tra giả thuyết là dựa trên các quyết định dựa trên xác suất sau, [3][4] nhưng điều này thất bại khi so sánh các giả thuyết điểm và liên tục. Các cách tiếp cận khác để ra quyết định, chẳng hạn như lý thuyết quyết định Bayes, cố gắng cân bằng hậu quả của các quyết định không chính xác trên tất cả các khả năng, thay vì tập trung vào một giả thuyết null. Một số cách tiếp cận khác để đưa ra quyết định dựa trên dữ liệu có sẵn thông qua lý thuyết quyết định và quyết định tối ưu, một số trong đó có các đặc tính mong muốn. Tuy nhiên, kiểm tra giả thuyết là một cách tiếp cận chủ yếu để phân tích dữ liệu trong nhiều lĩnh vực khoa học. Phần mở rộng cho lý thuyết kiểm định giả thuyết bao gồm nghiên cứu về sức mạnh của các bài kiểm tra, tức là xác suất bác bỏ chính xác giả thuyết khống cho rằng nó sai. Những cân nhắc như vậy có thể được sử dụng cho mục đích xác định kích thước mẫu trước khi thu thập dữ liệu.

Quá trình thử nghiệm [ chỉnh sửa ]

Trong tài liệu thống kê, kiểm tra giả thuyết thống kê đóng vai trò cơ bản. [5] Dòng lý luận thông thường như sau:

  1. Có một giả thuyết nghiên cứu ban đầu trong đó không xác định được sự thật.
  2. Bước đầu tiên là đưa ra các giả thuyết thay thế null . Điều này rất quan trọng, vì việc nêu sai các giả thuyết sẽ làm vẩn đục phần còn lại của quá trình.
  3. Bước thứ hai là xem xét các giả định thống kê được đưa ra về mẫu khi thực hiện thử nghiệm; ví dụ, các giả định về tính độc lập thống kê hoặc về hình thức phân phối của các quan sát. Điều này cũng quan trọng không kém vì các giả định không hợp lệ sẽ có nghĩa là kết quả của thử nghiệm không hợp lệ.
  4. Quyết định thử nghiệm nào là phù hợp và nêu rõ thống kê thử nghiệm T .
  5. của thống kê kiểm tra theo giả thuyết null từ các giả định. Trong trường hợp tiêu chuẩn, đây sẽ là một kết quả nổi tiếng. Ví dụ: thống kê kiểm tra có thể tuân theo phân phối t của Sinh viên hoặc phân phối bình thường.
  6. Chọn mức ý nghĩa ( α ), ngưỡng xác suất dưới đó giả thuyết null sẽ bị từ chối. Các giá trị phổ biến là 5% và 1%.
  7. Phân phối thống kê kiểm tra theo giả thuyết null phân vùng các giá trị có thể của T thành các giá trị mà giả thuyết null bị từ chối cái gọi là khu vực quan trọng Bạn và những người không có. Xác suất của khu vực quan trọng là α .
  8. Tính toán từ các quan sát giá trị quan sát t obs của thống kê kiểm tra T . ] Quyết định từ chối giả thuyết khống để ủng hộ phương án thay thế hoặc không từ chối nó. Quy tắc quyết định là bác bỏ giả thuyết khống H 0 nếu giá trị quan sát t obs nằm trong khu vực quan trọng và chấp nhận hoặc "không từ chối" giả thuyết khác.

Một quy trình thay thế thường được sử dụng:

  1. Tính toán từ các quan sát giá trị quan sát t obs của thống kê kiểm tra T .
  2. Tính giá trị p. Đây là xác suất, theo giả thuyết null, lấy mẫu một thống kê kiểm tra ít nhất là cực đoan như đã quan sát.
  3. Từ chối giả thuyết null, ủng hộ giả thuyết thay thế, nếu và chỉ khi giá trị p nhỏ hơn so với ngưỡng mức ý nghĩa (xác suất được chọn).

Hai quy trình là tương đương. [6] Quá trình trước đây là thuận lợi trong quá khứ khi chỉ có bảng thống kê kiểm tra ở ngưỡng xác suất chung. Nó cho phép đưa ra quyết định mà không cần tính toán xác suất. Nó là đủ cho lớp học và sử dụng hoạt động, nhưng nó là thiếu để báo cáo kết quả.

Quá trình thứ hai dựa vào các bảng mở rộng hoặc hỗ trợ tính toán không phải lúc nào cũng có sẵn. Tính toán rõ ràng của một xác suất là hữu ích để báo cáo. Các tính toán bây giờ được thực hiện tầm thường với phần mềm thích hợp.

Sự khác biệt trong hai quy trình được áp dụng cho ví dụ về vali phóng xạ (bên dưới):

  • "Số đọc của bộ đếm Geiger là 10. Giới hạn là 9. Kiểm tra vali."
  • "Số đọc của bộ đếm Geiger cao, 97% số vali an toàn có số đọc thấp hơn. Giới hạn là 95%. Kiểm tra chiếc vali. "

Báo cáo trước đây là đầy đủ, báo cáo sau đưa ra lời giải thích chi tiết hơn về dữ liệu và lý do tại sao chiếc vali được kiểm tra.

Điều quan trọng cần lưu ý là sự khác biệt giữa việc chấp nhận giả thuyết khống và đơn giản là không từ chối nó. Thuật ngữ "không từ chối" nêu bật thực tế rằng giả thuyết null được cho là đúng từ khi bắt đầu thử nghiệm; nếu thiếu bằng chứng chống lại nó, nó chỉ đơn giản là tiếp tục được coi là đúng. Cụm từ "chấp nhận giả thuyết khống" có thể cho thấy nó đã được chứng minh đơn giản vì nó không bị từ chối, một ngụy biện logic được gọi là lập luận từ sự thiếu hiểu biết. Trừ khi một thử nghiệm có công suất đặc biệt cao được sử dụng, ý tưởng "chấp nhận" giả thuyết khống có thể nguy hiểm. Tuy nhiên, thuật ngữ này là phổ biến trong các số liệu thống kê, trong đó ý nghĩa thực sự dự định được hiểu rõ.

Các quy trình được mô tả ở đây là hoàn toàn phù hợp để tính toán. Họ nghiêm túc bỏ qua việc thiết kế các cân nhắc thí nghiệm. [7] [8]

Điều đặc biệt quan trọng là phải ước tính kích thước mẫu thích hợp trước khi tiến hành thí nghiệm.

Cụm từ "kiểm tra ý nghĩa" được đặt ra bởi nhà thống kê Ronald Fisher. [9]

Giải thích [ chỉnh sửa ]

p một kết quả nhất định (hoặc một kết quả quan trọng hơn) sẽ xảy ra theo giả thuyết null. Ví dụ, giả sử rằng một đồng tiền công bằng được kiểm tra tính công bằng (giả thuyết không). Ở mức ý nghĩa 0,05, đồng xu công bằng sẽ được dự kiến ​​(không chính xác) bác bỏ giả thuyết khống trong khoảng 1 trên 20 bài kiểm tra. Giá trị p không cung cấp xác suất rằng giả thuyết đó là đúng (một nguồn gây nhầm lẫn phổ biến). [10]

Nếu p – giá trị nhỏ hơn ngưỡng ý nghĩa đã chọn (tương đương, nếu thống kê kiểm tra quan sát được trong khu vực quan trọng), sau đó chúng tôi nói giả thuyết null bị bác bỏ ở mức ý nghĩa được chọn. Bác bỏ giả thuyết khống là một kết luận. Điều này giống như một bản án "có tội" trong một phiên tòa hình sự: bằng chứng là đủ để từ chối sự vô tội, do đó chứng minh tội lỗi. Chúng ta có thể chấp nhận giả thuyết thay thế (và giả thuyết nghiên cứu).

Nếu p -giá trị là không thấp hơn ngưỡng ý nghĩa đã chọn (tương đương, nếu thống kê kiểm tra quan sát nằm ngoài vùng quan trọng), thì bằng chứng không đủ để hỗ trợ một kết luận. (Điều này tương tự như bản án "không có tội".) Nhà nghiên cứu thường xem xét thêm cho những trường hợp trong đó p -giá trị gần với mức ý nghĩa.

Một số người thấy hữu ích khi nghĩ về khung thử nghiệm giả thuyết tương tự như một bằng chứng toán học bởi mâu thuẫn. [11]

Trong ví dụ về việc nếm thử trà (bên dưới), Fisher yêu cầu Lady để phân loại đúng tất cả các tách trà để biện minh cho kết luận rằng kết quả không chắc là do tình cờ. Thử nghiệm của ông cho thấy rằng nếu người phụ nữ đoán đúng một cách ngẫu nhiên (giả thuyết khống), có khả năng 1,4% kết quả quan sát được (trà được sắp xếp hoàn hảo) sẽ xảy ra.

Việc bác bỏ giả thuyết khống có thực sự biện minh cho việc chấp nhận giả thuyết nghiên cứu hay không phụ thuộc vào cấu trúc của các giả thuyết. Từ chối giả thuyết rằng một bản in chân lớn có nguồn gốc từ một con gấu không ngay lập tức chứng minh sự tồn tại của Bigfoot. Kiểm tra giả thuyết nhấn mạnh đến sự từ chối, dựa trên một xác suất, thay vì chấp nhận, đòi hỏi các bước logic bổ sung.

"Xác suất bác bỏ giả thuyết null là một hàm của năm yếu tố: thử nghiệm là một hoặc hai đuôi, mức độ quan trọng, độ lệch chuẩn, độ lệch so với giả thuyết null và số lượng các quan sát. "[12] Những yếu tố này là nguồn gốc của sự chỉ trích; các yếu tố dưới sự kiểm soát của người thí nghiệm / nhà phân tích cho kết quả xuất hiện tính chủ quan.

Sử dụng và tầm quan trọng [ chỉnh sửa ]

Thống kê rất hữu ích trong việc phân tích hầu hết các bộ sưu tập dữ liệu. Điều này cũng đúng như vậy đối với thử nghiệm giả thuyết có thể biện minh cho kết luận ngay cả khi không có lý thuyết khoa học nào tồn tại. Trong ví dụ về nếm trà Lady, "rõ ràng" không có sự khác biệt tồn tại giữa (sữa đổ vào trà) và (trà đổ vào sữa). Các dữ liệu mâu thuẫn với "rõ ràng".

Các ứng dụng trong thế giới thực của thử nghiệm giả thuyết bao gồm: [13]

  • Kiểm tra xem có nhiều đàn ông hơn phụ nữ bị ác mộng
  • Thiết lập quyền tác giả của các tài liệu
  • hành vi
  • Xác định phạm vi mà dơi có thể phát hiện ra côn trùng bằng tiếng vang
  • Quyết định xem thảm trải sàn bệnh viện có bị nhiễm trùng nhiều hơn hay không
  • Chọn phương tiện tốt nhất để cai thuốc lá
  • 19659017] Kiểm tra các tuyên bố của các nhà phân tích chữ viết tay

Kiểm tra giả thuyết thống kê đóng một vai trò quan trọng trong toàn bộ số liệu thống kê và suy luận thống kê. Ví dụ, Lehmann (1992) khi xem xét bài báo cơ bản của Neyman và Pearson (1933) nói: "Tuy nhiên, mặc dù thiếu sót của họ, mô hình mới được hình thành trong bài báo năm 1933, và nhiều phát triển được thực hiện trong khuôn khổ của nó tiếp tục đóng một vai trò trung tâm trong cả lý thuyết và thực hành thống kê và có thể được dự kiến ​​sẽ làm như vậy trong tương lai gần ".

Kiểm tra ý nghĩa là công cụ thống kê được ưa chuộng trong một số ngành khoa học xã hội thực nghiệm (hơn 90% bài báo trong Tạp chí Tâm lý học ứng dụng trong những năm đầu thập niên 1990). [14] Các lĩnh vực khác đã ủng hộ ước tính tham số (ví dụ, kích thước hiệu ứng). Thử nghiệm ý nghĩa được sử dụng thay thế cho việc so sánh truyền thống về giá trị dự đoán và kết quả thử nghiệm ở cốt lõi của phương pháp khoa học. Khi lý thuyết chỉ có khả năng dự đoán dấu hiệu của mối quan hệ, một thử nghiệm giả thuyết định hướng (một phía) có thể được cấu hình để chỉ một kết quả có ý nghĩa thống kê hỗ trợ lý thuyết. Hình thức thẩm định lý thuyết này là ứng dụng bị chỉ trích nặng nề nhất trong kiểm tra giả thuyết.

Cảnh báo [ chỉnh sửa ]

"Nếu chính phủ yêu cầu các quy trình thống kê để mang nhãn cảnh báo như trên thuốc, hầu hết các phương pháp suy luận sẽ có nhãn dài." [15] áp dụng cho các bài kiểm tra giả thuyết và giải pháp thay thế cho chúng.

Thử nghiệm giả thuyết thành công có liên quan đến xác suất và tỷ lệ lỗi loại I. Kết luận có thể sai.

Kết luận của thử nghiệm chỉ vững chắc như mẫu mà nó dựa trên. Thiết kế của thí nghiệm là rất quan trọng. Một số hiệu ứng bất ngờ đã được quan sát bao gồm:

  • Hiệu ứng Hans thông minh. Một con ngựa dường như có khả năng thực hiện số học đơn giản.
  • Hiệu ứng Hawthorne. Công nhân công nghiệp có năng suất cao hơn trong việc chiếu sáng tốt hơn và năng suất cao nhất trong tình trạng tồi tệ hơn.
  • Hiệu ứng giả dược. Thuốc không có thành phần hoạt tính y tế có hiệu quả rõ rệt.

Một phân tích thống kê dữ liệu sai lệch tạo ra kết luận sai lệch. Vấn đề chất lượng dữ liệu có thể tinh tế hơn. Trong dự báo chẳng hạn, không có thỏa thuận nào về thước đo độ chính xác của dự báo. Trong trường hợp không có phép đo đồng thuận, sẽ không có quyết định dựa trên các phép đo sẽ không có tranh cãi.

Cuốn sách Cách nói dối với thống kê [16][17] là cuốn sách phổ biến nhất về thống kê từng được xuất bản. [18] Nó không xem xét nhiều giả thuyết thử nghiệm, nhưng cảnh báo của nó có thể áp dụng, bao gồm: Nhiều tuyên bố được đưa ra trên cơ sở các mẫu quá nhỏ để thuyết phục. Nếu một báo cáo không đề cập đến kích thước mẫu, hãy nghi ngờ.

Kiểm tra giả thuyết hoạt động như một bộ lọc các kết luận thống kê; chỉ những kết quả đáp ứng ngưỡng xác suất mới được công bố. Kinh tế cũng hoạt động như một bộ lọc xuất bản; chỉ những kết quả có lợi cho tác giả và nguồn tài trợ mới có thể được gửi để xuất bản. Tác động của lọc trên xuất bản được gọi là thiên vị xuất bản. Một vấn đề liên quan là nhiều thử nghiệm (đôi khi được liên kết với khai thác dữ liệu), trong đó một loạt các thử nghiệm cho nhiều hiệu ứng có thể được áp dụng cho một tập dữ liệu duy nhất và chỉ những báo cáo mang lại kết quả quan trọng mới được báo cáo. Chúng thường được xử lý bằng cách sử dụng các quy trình sửa lỗi đa bội để kiểm soát tỷ lệ lỗi khôn ngoan của gia đình (FWER) hoặc tỷ lệ phát hiện sai (FDR).

Những người đưa ra quyết định quan trọng dựa trên kết quả của một bài kiểm tra giả thuyết là thận trọng để xem xét các chi tiết thay vì chỉ kết luận. Trong khoa học vật lý, hầu hết các kết quả chỉ được chấp nhận hoàn toàn khi được xác nhận độc lập. Lời khuyên chung liên quan đến số liệu thống kê là "Con số không bao giờ nói dối, nhưng con số nói dối" (ẩn danh).

Ví dụ [ chỉnh sửa ]

Tỷ số giới tính của con người [ chỉnh sửa ]

Việc sử dụng thử nghiệm giả thuyết thống kê được sử dụng sớm nhất về việc sinh con trai và nữ có khả năng như nhau (giả thuyết không), được đề cập trong những năm 1700 bởi John Arbuthnot (1710), [19] và sau đó bởi Pierre-Simon Laplace (1770s). [20]

Arbuthnot đã kiểm tra hồ sơ sinh ở Luân Đôn trong mỗi 82 năm từ 1629 đến 1710 và áp dụng thử nghiệm dấu hiệu, một xét nghiệm không tham số đơn giản. [21][22][23] Mỗi năm, số nam giới sinh ra ở Luân Đôn vượt quá con số của phái nữ. Xem xét sinh nhiều nam hay nhiều nữ có khả năng như nhau, xác suất của kết quả quan sát được là 0,5 82 hoặc khoảng 1 trong 4,8360,0000,0000,0000,0000,0000; trong điều kiện hiện đại, đây là giá trị p . Điều này thật nhỏ nhoi, dẫn đến Arbuthnot rằng đây không phải là do tình cờ, mà là do sự quan phòng thiêng liêng: "Từ đó nó đi theo, đó là Nghệ thuật, không phải Cơ hội, chi phối." Theo thuật ngữ hiện đại, ông đã bác bỏ giả thuyết khống về khả năng sinh con trai và nữ có khả năng ngang nhau ở mức ý nghĩa p = 1/2 82 .

Laplace đã xem xét số liệu thống kê của gần nửa triệu ca sinh. Các số liệu thống kê cho thấy sự vượt trội của các bé trai so với các bé gái. [24][25] Ông kết luận bằng cách tính toán p -giá trị rằng sự dư thừa đó là một tác dụng thực sự, nhưng không giải thích được. [26]

[ chỉnh sửa ]

Trong một ví dụ nổi tiếng về thử nghiệm giả thuyết, được gọi là Trà nếm thử Lady [27] Dr. Muriel Bristol, một đồng nghiệp nữ của Fisher tuyên bố có thể biết liệu trà hoặc sữa được thêm vào đầu tiên vào cốc. Fisher đề nghị cho cô tám cốc, bốn loại mỗi loại, theo thứ tự ngẫu nhiên. Sau đó, người ta có thể hỏi xác suất để cô ấy có được con số chính xác là gì, nhưng chỉ là tình cờ. Giả thuyết không có giá trị là Lady không có khả năng như vậy. Thống kê kiểm tra là một con số đơn giản về số lượng thành công trong việc chọn 4 cốc. Vùng quan trọng là trường hợp duy nhất có 4 thành công là 4 có thể dựa trên tiêu chí xác suất thông thường (<5%). Một mô hình gồm 4 thành công tương ứng với 1 trong số 70 kết hợp có thể (p≈ 1,4%). Fisher khẳng định rằng không có giả thuyết thay thế nào được yêu cầu. Người phụ nữ xác định chính xác mỗi cốc, [28] sẽ được coi là một kết quả có ý nghĩa thống kê.

Phiên tòa xét xử [ chỉnh sửa ]

Một thủ tục kiểm tra thống kê có thể so sánh với một phiên tòa hình sự; một bị cáo được coi là không có tội miễn là tội của mình không được chứng minh. Công tố viên cố gắng chứng minh tội lỗi của bị cáo. Chỉ khi có đủ bằng chứng cho việc truy tố thì bị cáo mới bị kết án.

Khi bắt đầu thủ tục, có hai giả thuyết

H 0 { displaystyle H_ {0}}

: "bị cáo không phạm tội ", và

H 1 { displaystyle H_ {1}}

:" bị cáo có tội ". Cái đầu tiên,

H 0 { displaystyle H_ {0}}

được gọi là giả thuyết null và dành cho thời gian được chấp nhận Cái thứ hai,

H 1 { displaystyle H_ {1}}

được gọi là giả thuyết thay thế . Đó là giả thuyết thay thế mà người ta hy vọng sẽ hỗ trợ.

Giả thuyết vô tội chỉ bị bác bỏ khi một lỗi rất khó xảy ra, bởi vì người ta không muốn kết án một bị cáo vô tội. Một lỗi như vậy được gọi là lỗi thuộc loại thứ nhất (tức là, sự kết án của một người vô tội), và việc xảy ra lỗi này được kiểm soát là rất hiếm. Do hậu quả của hành vi bất đối xứng này, lỗi thuộc loại thứ hai (tha bổng cho một người đã phạm tội), là phổ biến hơn.

H 0 là đúng
Thực sự không có tội
H 1 là đúng
Thực sự có tội
Chấp nhận giả thuyết khống
Acquittal
Quyết định đúng Quyết định sai
Lỗi loại II
Từ chối giả thuyết khống
Thuyết phục
Quyết định sai
Lỗi loại I
Quyết định đúng

Một phiên tòa hình sự có thể được coi là một hoặc cả hai quá trình quyết định: có tội hoặc không có tội hoặc bằng chứng so với ngưỡng ("vượt quá sự nghi ngờ hợp lý"). Ở một góc nhìn, bị cáo bị xét xử; theo quan điểm khác, việc thực hiện truy tố (chịu trách nhiệm chứng minh) được đánh giá. Một bài kiểm tra giả thuyết có thể được coi là một phán đoán của một giả thuyết hoặc là một phán đoán của bằng chứng.

Đậu triết gia [ chỉnh sửa ]

Ví dụ sau đây được tạo ra bởi một triết gia mô tả các thế hệ phương pháp khoa học trước khi thử nghiệm giả thuyết là Chính thức hóa và phổ biến. [29]

Rất ít hạt đậu trong số ít này có màu trắng.
Hầu hết các loại đậu trong túi này đều có màu trắng.
Do đó: Có lẽ, những hạt đậu này được lấy từ một túi khác.
Đây là một suy luận giả định.

Đậu trong túi là dân số. Số ít là mẫu. Giả thuyết khống là mẫu có nguồn gốc từ dân số. Tiêu chí để bác bỏ giả thuyết khống là sự khác biệt "rõ ràng" về ngoại hình (một sự khác biệt không chính thức về trung bình). Kết quả thú vị là việc xem xét một dân số thực và một mẫu thực đã tạo ra một chiếc túi tưởng tượng. Các triết gia đã xem xét logic hơn là xác suất. Để trở thành một bài kiểm tra giả thuyết thống kê thực sự, ví dụ này đòi hỏi các thủ tục tính toán xác suất và so sánh xác suất đó với một tiêu chuẩn.

Một khái quát đơn giản của ví dụ này xem xét một túi đậu hỗn hợp và một nắm chứa rất ít hoặc rất nhiều đậu trắng. Việc khái quát hóa xem xét cả hai thái cực. Nó đòi hỏi nhiều tính toán và so sánh hơn để đi đến một câu trả lời chính thức, nhưng triết lý cốt lõi là không thay đổi; Nếu thành phần của số ít khác với túi, thì mẫu có thể có nguồn gốc từ một túi khác. Ví dụ ban đầu được gọi là thử nghiệm một phía hoặc thử nghiệm một phía trong khi khái quát hóa được gọi là thử nghiệm hai mặt hoặc hai đuôi.

Tuyên bố cũng dựa trên suy luận rằng việc lấy mẫu là ngẫu nhiên. Nếu ai đó đã chọn túi để tìm đậu trắng, thì nó sẽ giải thích tại sao số ít có nhiều đậu trắng, và cũng giải thích tại sao số lượng đậu trắng trong túi bị cạn kiệt (mặc dù túi có thể được giả định lớn hơn nhiều so với bàn tay của một người).

Trò chơi thẻ thấu thị [ chỉnh sửa ]

Một người (chủ đề) được kiểm tra khả năng thấu thị. Họ được hiển thị mặt trái của một thẻ chơi được chọn ngẫu nhiên 25 lần và hỏi nó thuộc về bốn bộ quần áo nào. Số lần truy cập hoặc câu trả lời đúng được gọi là X .

Khi chúng tôi cố gắng tìm ra bằng chứng về khả năng thấu thị của họ, trong thời điểm đó, giả thuyết khống là người đó không phải là người thấu thị. [30] Phương án thay thế là: người đó (ít nhiều) là người thấu thị.

Nếu giả thuyết null là hợp lệ, điều duy nhất người kiểm tra có thể làm là đoán. Đối với mỗi thẻ, xác suất (tần suất tương đối) của bất kỳ bộ đồ nào xuất hiện là 1/4. Nếu phương án thay thế là hợp lệ, đối tượng thử nghiệm sẽ dự đoán chính xác vụ kiện với xác suất lớn hơn 1/4. Chúng tôi sẽ gọi xác suất đoán đúng p . Các giả thuyết, sau đó, là:

  • giả thuyết không có giá trị