Giáo trình Xác suất và thống kê (Phần 2) - Trường Đại học Thành Đông
Tổng thể, mẫu
Ta cần nghiên cứu đặc tính X (cân nặng, chiều cao . . . ) của tập lớn gồm N
phần tử (N phần tử này được gọi là tổng thể). Thông thường ta không quan
sát hết tất cả các phần tử của tập hợp này bởi vì các lý do:
• Làm hư hại tất cả các phần tử (kiểm tra đồ hộp, bắn thử đạn)
• Thời gian và kinh phí không cho phép – Số phần tử quá lớn (Nghiên cứu
một đặc điểm nào của trẻ ta không thể đợi nghiên cứu toàn bộ trẻ em
trên thế giới rồi mới đưa ra kết luận).
Do đó người ta lấy từ tổng thể này ra n phần tử (n phần tử này được gọi là
mẫu) và quan sát đặc tính X để tính các đặc trưng trên mẫu sau đó sử dụng
công cụ toán học để đưa ra kết luận cho tổng thể mà ta không có điều kiện
khảo sát tất cả các phần tử.
Muốn mẫu lấy ra đại diện tốt cho tổng thể thì mẫu phải thỏa mãn hai điều
kiện chính:
• Mẫu phải chọn ngẫu nhiên từ tổng thể.
• Các phân phối của mẫu phải được chọn độc lập nhau.
Ta cần nghiên cứu đặc tính X (cân nặng, chiều cao . . . ) của tập lớn gồm N
phần tử (N phần tử này được gọi là tổng thể). Thông thường ta không quan
sát hết tất cả các phần tử của tập hợp này bởi vì các lý do:
• Làm hư hại tất cả các phần tử (kiểm tra đồ hộp, bắn thử đạn)
• Thời gian và kinh phí không cho phép – Số phần tử quá lớn (Nghiên cứu
một đặc điểm nào của trẻ ta không thể đợi nghiên cứu toàn bộ trẻ em
trên thế giới rồi mới đưa ra kết luận).
Do đó người ta lấy từ tổng thể này ra n phần tử (n phần tử này được gọi là
mẫu) và quan sát đặc tính X để tính các đặc trưng trên mẫu sau đó sử dụng
công cụ toán học để đưa ra kết luận cho tổng thể mà ta không có điều kiện
khảo sát tất cả các phần tử.
Muốn mẫu lấy ra đại diện tốt cho tổng thể thì mẫu phải thỏa mãn hai điều
kiện chính:
• Mẫu phải chọn ngẫu nhiên từ tổng thể.
• Các phân phối của mẫu phải được chọn độc lập nhau.
Bạn đang xem 20 trang mẫu của tài liệu "Giáo trình Xác suất và thống kê (Phần 2) - Trường Đại học Thành Đông", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
- giao_trinh_xac_suat_va_thong_ke_phan_2_truong_dai_hoc_thanh.pdf
Nội dung text: Giáo trình Xác suất và thống kê (Phần 2) - Trường Đại học Thành Đông
- 7.3 Ước lượng khoảng 102 Định nghĩa 7.2 (Ước lượng hiệu quả). Ước lượng không chệch θˆ được gọi là ước lượng có hiệu quả của tham số θ nếu Var θˆ nhỏ nhất trong các ước lượng không chệch của θ. Chú ý. Người ta chứng minh được rằng nếu θˆ là ước lượng hiệu quả của θ thì phương sai của nó là 1 Var θˆ = nE ∂ ln f(x,0) ∂θ Trong đó f(x,θ) là hàm mật độ xác suất của biến ngẫu nhiên gốc. Các thống kê X,S¯ 2,F là ước lượng hiệu quả cho tham số µ, σ2,p. Ta có quy tắc thực hành ước lượng điểm như sau: Tham số lý thuyết Đặc trưng mẫu Ước lượng EX = µ x¯ µ x¯ ≈ VarX = σ2 s2 σ2 s2 ≈ p (tỷ lệ phần tử A ) f=tỷ lệ phần tử A trên mẫu p f ≈ 7.3 Ước lượng khoảng 7.3.1 Mô tả phương pháp. Gọi θ là tham số của X chưa biết. Với mẫu cụ thể (x1, ,xn) ta tìm khoảng (θ ; θ ) chứa θ sao cho P (θ <θ<θ )=1 α cho trước. 1 2 1 2 − Khoảng (θ ; θ ) gọi là khoảng tin cậy. • 1 2 θ θ gọi là độ dài khoảng tin cậy. • | 1 − 2| 1 α gọi là độ tin cậy. • − 7.3.2 Ước lượng khoảng cho trung bình Gọi µ là trung bình của X chưa biết ta tìm khoảng (µ1; µ2) chứa µ sao cho P (µ <µ<µ )=1 α. Khoảng tin cậy (µ ; µ )=(¯x ε;¯x + ε), với ε gọi 1 2 − 1 2 − là độ chính xác của ước lượng. Trong đó ε tính như sau† †Công thức tính độ chính xác được giải thích ở phụ lục B.1.1
- 7.3 Ước lượng khoảng 103 XXX XX XXX Cỡ mẫu 2 XX n 30 n< 30, X N(µ; σ ) V XX arX XXX ≥ ∼ σ σ 2 ε = t 1−α ε = t 1−α Biết σ √n 2 √n 2 1−α 1−α (t 2 tra bảng A.2) (t 2 tra bảng A.2) s s n 1 2 ε = t 1−α ε = t − Không biết σ √n 2 √n α n 1 1−α (t 2 tra bảng A.2) (tα− tra bảng A.3). Ví dụ 7.2. Khảo sát về thời gian tự học X (giờ/tuần) trong tuần của một số sinh viên hệ chính quy ở trường đại học A trong thời gian gần đây, người ta thu được bảng số liệu X 5 6 7 8 9 10 Số SV 10 35 45 36 10 8 Ước lượng thời gian tự học trung bình của một sinh viên với độ tin cậy 95% cho hai trường hợp: a. Biết σ =2 b. Chưa biết σ Giải. Từ mẫu ta tính được n = 144;¯x =7, 1736; s =1, 2366. Gọi µ là thời gian tự học trung bình của sinh viên. Khoảng ước lượng cho µ với độ tin cậy 95% có dạng (µ ; µ )=(¯x ε;¯x + ε) 1 2 − Tiếp theo ta tính ε cho từng trường hợp: a. Biết σ =2 σ 2 ε = t 1−α = 1, 96=0, 3267 √n 2 √144 Vậy khoảng ước lượng (µ ; µ )=(7, 1736 0, 3267; 7, 1736+ 0, 3267) = (6, 8469; 7, 5003) 1 2 −
- 7.3 Ước lượng khoảng 104 1 α Chú ý. Cho trước độ tin cậy là 1 α =0, 95 cho nên ta có − =0, 475. Tra − 2 bảng A.2 ta có t0,475 =1, 96. b. Không biết σ s 1, 2366 ε = t 1−α = 1, 96=0, 202 √n 2 √144 Vậy khoảng ước lượng (µ ; µ ) = (7, 1736 0, 202;7, 1736 + 0, 202) = 1 2 − (6, 9716; 7, 3756) Chú ý. Với t0,475 =1, 96 được tính như câu a. Ví dụ 7.3. Khảo sát cân nặng (kg) của gà khi xuất chuồng, người ta cân một số con và kết quả cho như sau: 2,1; 1,8; 2,0; 2,3; 1,7; 1,5; 2,0; 2,2; 1,8 Giả sử cân nặng của gà là biến ngẫu nhiên có phân phối chuẩn. Với độ tin cậy 95% ước lượng cân nặng trung bình của gà khi xuất chuồng: a. Biết σ =0, 3. b. Không biết σ. Giải. Từ mẫu ta tính được n = 9;¯x =1, 9333; s =0, 2549. Gọi µ là cân nặng trung bình của gà khi xuất chuồng. a. Cho biết σ =0, 3 σ 0, 3 ε = t 1−α = 1, 96=0, 196 √n 2 √9 Vậy khoảng ước lượng (µ ; µ )=(1, 9333 0, 196;1, 9333+ 0, 196) = (1, 7373; 2, 1293) 1 2 − b. Không biết σ s n 1 0, 2549 ε = t − = 2, 306= 0, 1959 √n α √9 Vậy khoảng ước lượng (µ ; µ ) = (1, 9333 0, 1959; 1, 9333 + 0, 1959) = 1 2 − (1, 7374; 2, 1292)
- 7.3 Ước lượng khoảng 105 Chú ý. Cho trước độ tin cậy là 1 α = 0, 95 cho nên ta có α = 0, 05. Tra 8 − bảng A.3 ta có t0,05 =2, 306. Chú ý. Các chỉ tiêu ước lượng trung bình. Ta nhận thấy trong ước lượng trung bình có 3 chỉ tiêu chính ε, 1 α,n. Nếu biết hai chỉ tiêu thì sẽ xác định − được chỉ tiêu thứ 3. a. Xác định cỡ mẫu n nhỏ nhất sao cho độ chính xác không lớn hơn ε và độ tin cậy là 1 α (ở đây ta luôn giả sử cỡ mẫu lớn). Ta có − σ 2 s 2 n t 1−α hoặc n t 1−α ≥ ε 2 ≥ ε 2 n nhỏ nhất thỏa điều kiện trên là σ 2 s 2 n = t 1−α +1 hoặc n = t 1−α +1 ε 2 ε 2 b. Xác định độ tin cậy của ước lượng khi biết độ chính xác của ước lượng. ε√n Trước hết xác định giá trị t 1−α = . Và từ đây dễ dàng tính được 2 s 1 α. − Ví dụ 7.4. Cân thử 121 sản phẩm (đơn vị tính bằng kg) ta tính được s2 =5, 76. a. Xác định độ chính xác nếu muốn ước lượng trọng lượng trung bình với độ tin cậy 95%. b. Xác định cỡ mẫu nhỏ nhất để lượng trọng lượng trung bình với độ tin cậy 95% và độ chính xác nhỏ hơn 0,4. c. Xác định độ tin cậy nếu muốn ước lượng trung bình với độ chính xác là ε =0, 5. Giải. a. Xác định độ chính xác: s 2, 4 ε = t 1−α = 1, 96=0, 4276 √n 2 √121
- 7.3 Ước lượng khoảng 106 b. Xác định cỡ mẫu n. s 2 2, 4 2 n = t 1−α +1= 1.96 +1=139 ε 2 0, 4 c. Xác định độ tin cậy, trước hết ta tính ε√n 0, 5√121 t 1−α = = =2, 29 2 s 2, 4 1 α Tra bảng A.2 ta tính được − =0, 489. Từ đó suy ra 1 α =0, 978 2 − 7.3.3 Ước lượng khoảng cho tỷ lệ Gọi p là tỷ lệ phần tử A chưa biết ta tìm khoảng (p1; p2) chứa p sao cho P (p <p<p )=1 α. Khoảng tin cậy 1 2 − (p ; p )=(f ε; f + ε) 1 2 − trong đó f là tỷ lệ phần tử A tính trên mẫu. • ε gọi là độ chính xác của ước lượng được tính như sau‡ • f(1 f) 1−α ε = − t 2 n Ví dụ 7.5. Khảo sát tỷ lệ phế phẩm do một nhà máy sản xuất ra, người ta quan sát 800 sản phẩm thấy có 8 phế phẩm. Với độ tin cậy 95% hãy ước lượng tỷ lệ phế phẩn của nhà máy. Giải. Gọi 8 f là tỷ lệ phế phẩm trên mẫu. f = =0, 01 . 800 p là tỷ lệ phế phẩm của nhà máy. ‡Công thức tính độ chính xác được giải thích ở phụ lục B.1.2
- 7.3 Ước lượng khoảng 107 Độ chính xác của ước lượng tỷ lệ f(1 f) 0, 01(1 0, 01) 1−α ε = − t 2 = − 1, 96=0, 0069 n 800 Vậy khoảng ước lượng cho p với độ tin cậy 95% là (p ; p )=(0, 01 0, 0069; 0, 01+0, 0069) = (0, 0031; 0, 0169) 1 2 − Chú ý. Xác định các chỉ tiêu ước lượng a Xác định cỡ mẫu n nhỏ nhất sao cho độ chính xác không lớn hơn ε và f(1 f) 2 độ tin cậy là 1 α Ta có n − t 1−α . n nhỏ nhất thỏa điều − ≥ ε2 2 kiện trên là f(1 f) 2 n = − t 1−α +1 ε2 2 b Xác định độ tin cậy của ước lượng khi biết độ chính xác của ước lượng. Trước hết xác định giá trị n t 1−α = ε . 2 f(1 f) − Và từ đây dễ dàng tính được 1 α bằng bảng A.2. − Ví dụ 7.6. Quan sát 800 sản phẩm do một xí nghiệp sản xuất ra thấy có 128 mẫu loại A. a. Xác định độ chính xác nếu muốn ước lượng tỷ lệ sản phẩm loại A với độ tin cậy 95%. b. Xác định cỡ mẫu nhỏ nhất để ước lượng tỷ lệ sản phẩm loại A với độ chính xác nhỏ hơn 0,023 và độ tin cậy 95%. c. Xác định độ tin cậy nếu muốn ước lượng tỷ lệ sản phẩm A với độ chính xác là 0,022. Giải. Gọi: 128 f là tỷ lệ sản phẩm loại A tính trên mẫu f = =0, 16 . 800
- 7.4 Bài tập chương 7 108 p là tỷ lệ sản phẩm loại A do xí nghiệp sản xuất ra. a. Độ chính xác của ước lượng f(1 f) 0, 16(1 0, 16) 1−α ε = − t 2 = − 1, 96=0, 0254 n 800 b. Xác định n 2 f(1 f) 0, 16(1 0, 16) 2 n = − t 1−α +1= − 1, 96 +1=977 ε2 2 0, 0232 c. Xác định độ tin cậy 1 α − n 800 t 1−α = ε =0, 022 =1, 69 2 f(1 f) 0, 016(1 0, 016) − − 1 α Tra bảng A.2 ta tính được − =0, 4545. Từ đó suy ra 1 α =0, 909 2 − 7.4 Bài tập chương 7 Bài tập 7.1. Kiểm tra ngẫu nhiên 25 bóng đèn của một hãng điện tử, thấy tuổi thọ trung bình là 5000 giờ, độ lệch chuẩn của mẫu có hiệu chỉnh là 200 giờ. Giả sử tuổi thọ của bóng đèn có phân phối chuẩn. Tính khoảng ước lượng tuổi thọ trung bình của loại bóng đèn trên với độ tin cậy 95%. (4917,44 giờ; 5082,56 giờ) Bài tập 7.2. Kiểm tra ngẫu nhiên 25 bóng đèn của một hãng điện tử, thấy độ lệch chuẩn của mẫu có hiệu chỉnh là 200 giờ. Giả sử tuổi thọ của bóng
- 7.4 Bài tập chương 7 109 đèn có phân phối chuẩn. Sử dụng mẫu trên để ước lượng tuổi thọ trung bình của loại bóng đèn trên với độ chính xác là 73,12 giờ thì đảm bảo độ tin cậy bao nhiêu? 92% Bài tập 7.3. Thăm dò 25 người đang sử dụng điện thoại di động về số tiền phải trả trong 1 tháng, thấy số tiền trung bình một người phải trả là 200 ngàn đồng, độ lệch chuẩn của mẫu có hiệu chỉnh là 50 ngàn đồng. Giả sử số tiền phải trả trong một tháng có phân phối chuẩn. Với độ tin cậy là 95% tính khoảng ước lượng số tiền trung bình một người sử dụng điện thoại di động phải trả. (179,36 ngàn đồng; 220,64 ngàn đồng) Bài tập 7.4. Thăm dò 25 người đang sử dụng điện thoại di động về số tiền phải trả trong 1 tháng, thấy độ lệch chuẩn của mẫu có hiệu chỉnh là 50 ngàn đồng. Giả sử số tiền phải trả trong một tháng có phân phối chuẩn. Với độ chính xác là 19,74 ngàn đồng thì độ tin cậy bao nhiêu? 94%
- 7.4 Bài tập chương 7 110 Bài tập 7.5. Biết chiều dài của một loại sản phẩm là biến ngẫu nhiên có phân phối chuẩn. Đo ngẫu nhiên 10 sản phẩm loại này thì được chiều dài trung bình là 10,02m và độ lệch chuẩn của mẫu chưa hiệu chỉnh là 0,04m. Tính khoảng ước lượng chiều dài trung bình của loại sản phẩm này với độ tin cậy 95%. (9,9898m; 10,0502m)
- Chương 8 Kiểm định giả thiết 8.1 Bài toán kiểm định giả thiết 8.1.1 Giả thiết không, đối thiết Trong chương này chúng ta sẽ đề cặp đến bài toán thống kê liên quan đến tham số θ, với giá trị của nó không biết thuộc không gian tham Θ. Tuy nhiên chúng ta sẽ giả sử Θ có thể được phân chia thành hai tập tách biệt Θ0 và Θ1 và nhiệm vụ của người làm thống kê phải quyết định xem θ thuộc Θ0 hay Θ1. Chúng ta đặt H để ký hiệu giả thiết θ Θ , và H ký hiệu giả thiết θ Θ . 0 ∈ 0 1 ∈ 1 Bởi vì Θ và Θ tách biệt và Θ Θ = Θ, chính xác chỉ có giả thiết H 0 1 0 ∩ 1 0 hoặc H1 là đúng. Chúng ta phải quyết định chấp nhận H0 để bác bỏ H1 hoặc ngược lại. Bài toán thuộc dạng này được gọi là kiểm định giả thiết. Đến đây, chúng ta thấy vai trò của giả thiết H0 và H1 cơ bản giống nhau. Trong hầu hết các bài toán kiểm định, hai giả thiết này hơi khác. Để phân biệt giữa hai giả thiết này ta gọi H0 gọi là giả thiết không và H1 gọi là đối thiết. Chúng ta sẽ dùng các thuật ngữ này trong phần còn lại của chương. 8.1.2 Miền tới hạn Ta xét bài toán với giả thiết có dạng như sau: Giả thiết không H : θ Θ 0 ∈ 0 Đối thiết H : θ Θ 1 ∈ 1
- 8.1 Bài toán kiểm định giả thiết 112 Giả sử trước khi chúng ta quyết định giả thiết nào sẽ được chấp nhận, chúng ta có mẫu ngẫu nhiên X1, ,Xn được trích từ phân phối của đặc tính X với tham số θ chưa biết. Chúng ta ký hiệu Ω là không gian mẫu, Ω chứa tất cả các kết quả có thể xảy ra khi lấy mẫu ngẫu nhiên. Trong quá trình kiểm định, chúng ta sẽ chia Ω thành hai tập con. Một tập chứa tất cả các giá trị của X sao cho ta chấp nhận H0, và tập còn lại chứa tất cả các giá trị của X sao cho ta bác bỏ H0 và chấp nhận H1. Tập các giá trị của X để H0 bị bác bỏ gọi là miền tới hạn, ký hiệu C . Với mỗi giá trị θ Θ ta đặt hàm lực lượng π(θ) là xác suất dẫn đến bác bỏ ∈ H , ngược lại 1 π(θ) là xác suất dẫn đến chấp nhận H . Nếu ký hiệu C là 0 − 0 miền tới hạn của kiểm định, hàm π(θ) được xác định bởi quan hệ π(θ)= P (X C θ) , θ Θ ∈ | ∀ ∈ Bởi vì π(θ) là xác suất ứng với mỗi θ thì H0 bị bác bỏ, trong trường hợp lý tưởng hàm π(θ)=0 với mọi θ Θ và π(θ)=1 với mọi θ Θ . Nếu hàm ∈ 0 ∈ 1 π(θ) có các giá trị này thì bất chấp giá trị thực tế θ nào ta luôn có kết luận đúng với xác suất 1. 8.1.3 Hai loại sai lầm Khi chọn một trong hai quyết định trên sẽ nẩy sinh ra hai sai lầm: Sai lầm loại I: Bác bỏ H khi H đúng, xác suất sai lầm loại I là • 0 0 P (C H )= P ((X , ,Xn) C H ) | 0 1 ∈ | 0 Sai lầm loại II: Chấp nhận H khi H sai, xác suất sai lầm loại II là • 0 0 P C¯ H = P ((X , ,Xn) / C H ) | 1 1 ∈ | 1 Ví dụ 8.1. Cần nghiên cứu tác dụng phụ của một loại thuốc mới vừa được nghiên cứu ta đặt giả thiết và đối thiết như sau Giả thiết H0 : Thuốc có tác dụng phụ Đối thiết H : Thuốc không có tác dụng phụ 1
- 8.2Kiểmđịnhgiảthiếtvềtrungbình 113 XX XX XXX Thực tế XX XXX Thuốc có tác dụng phụ Thuốc không có tác dụng phụ Kết luận XXX Chấp nhận H0 Kêt luận đúng Sai lầm loại II Bác bỏ H0 Sai lầm loại I Kết luận đúng Việc đặt giả thiết như trên khi sai lầm loại I xảy ra là tai hại hơn sai lầm loại II (thuốc có tác dụng phụ mà kết luận thuốc không có tác dụng phụ). Lẽ tự nhiên là ta chọn miền C sao cho cực tiểu cả hai xác suất phạm sai lầm. Song không thể cực tiểu đồng thời cả hai sai lầm khi cỡ mẫu cố định, bởi vì hai xác suất trên hiên hệ nhau bởi: P (C H )+ P C¯ H = 1; P (C H )+ P C¯ H =1. | 0 | 0 | 1 | 1 Do đó C cực tiểu P (C H ) chưa chắc đã cực tiểu P C¯ H | 0 | 1 8.1.4 Phương pháp chọn miền tới hạn Ta cố định một loại xác suất sai lầm và tìm miền C sao cho xác suất phạm sai lầm kia đạt giá trị nhỏ nhất. Thông thường ta cố định xác suất sai lầm loại I: P (C H ) α, ta sẽ chọn miền C sao cho P C¯ H đạt cực tiểu hay | 0 ≤ | 1 P (C H ) cực đại, nghĩa là tim C sao cho: | 1 P (C H ) α π(θ) α với θ Θ | 0 ≤ hay ≤ ∈ 0 (8.1) P (C H ) đạt cực đại π(θ) đạt cực đại với θ Θ | 1 ∈ 1 Ta gọi α là mức ý nghĩa của kiểm định, khi cố định α và có hàm lực lượng π(θ), θ Θ lớn nhất thì qui tắc này gọi là qui tắc mạnh nhất. ∀ ∈ 1 8.2 Kiểm định giả thiết về trung bình Giả sử µ (chưa biết) là trung bình của biến ngẫu nhiên X, cần kiểm định∗ Giả thiết H0 : µ = µ0 Đối thiết H : µ = µ 1 0 ∗Xem giải thích phụ lục B.2.1
- 8.2Kiểmđịnhgiảthiếtvềtrungbình 114 XXX XX XXX Cỡ mẫu 2 XX n 30 n t 1−α hoặc t >