Giáo trình Thống kê học - Bài 4: Phân tích hồi quy và tương quan

Nội dung 
Nhiệm vụ của phân tích hồi quy và
tương quan.
Một số mô hình hồi quy và cách xác
định các tham số của mô hình.
Mục tiêu
Cung cấp phương pháp phân tích thống kê
nghiên cứu mối liên hệ nhân quả giữa các
hiện tượng kinh tế – xã hội.
pdf 20 trang hoanghoa 07/11/2022 6780
Bạn đang xem tài liệu "Giáo trình Thống kê học - Bài 4: Phân tích hồi quy và tương quan", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfgiao_trinh_thong_ke_hoc_bai_4_phan_tich_hoi_quy_va_tuong_qua.pdf

Nội dung text: Giáo trình Thống kê học - Bài 4: Phân tích hồi quy và tương quan

  1. Bài 4: Phân tích hồi quy và tương quan Kiểm định hệ số tương quan của phương trình tuyến tính đơn Tương tự với bài toán trên, giả sử với hai biến x và y, chúng ta nhận thấy chúng có mối liên hệ tuyến tính với nhau. Tuy nhiên, có cơ sở để giả định rằng không có mối liên hệ tương quan tuyến tính đó trong tổng thể chung. Khi đó chúng ta thực hiện kiểm định hệ số tương quan tuyến tính của cả tổng thể chung . Giả thiết cần kiểm định: = 0 (không có mối liên hệ tương quan tuyến tính giữa x và y). Để kiểm định giả thiết này, lấy mẫu n từ tổng thể chung, khi đó xác định được hệ số tương quan mẫu r. Tiêu chuẩn kiểm định được chọn là thống kê: r t có phân phối t – student với bậc tự do n – 2. 1r 2 n2 Với mức ý nghĩa α cho trước, tuỳ thuộc vào dạng của giả thiết đối mà miền bác bỏ được xây dựng như sau: H0: = 0 nếu t > tα, bác bỏ giả thiết H0 (kiểm định phải) H1: > 0 H0: = 0 nếu t > tα, bác bỏ giả thiết H0 (kiểm định trái) H1: tα/2, bác bỏ giả thiết H0 (kiểm định hai phía) H1: ≠ 0 Ví dụ: Với số liệu ở ví dụ trên, có cơ sở cho rằng giữa số năm sử dụng và giá bán xe Honda Wave cũ không có mối liên hệ tương quan tuyến tính với nhau. Với là hệ số tương quan tuyến tính của tổng thể chung, ta thực hiện kiểm định giả thiết sau: H0: = 0 (số năm sử dụng và giá bán không có mối liên hệ tuyến tính) H1: tα = 1,833, bác bỏ giả thiết H0. Với mẫu đã cho, ở mức ý nghĩa 5%, có thể kết luận rằng số năm sử dụng xe và giá bán của chiếc xe Honda Wave có mối liên hệ tương quan tuyến tính với nhau, và đây là mối liên hệ nghịch. Tuy nhiên, trên thực tế, không phải mối liên hệ nào cũng là mối liên hệ tương quan tuyến tính. Vì vậy, chúng ta nghiên cứu trường hợp tiếp theo (mô hình hồi quy phi tuyến tính), mối liên hệ này thường gặp nhiều hơn trong thực tế. v1.0 79
  2. Bài 4: Phân tích hồi quy và tương quan 4.2.2. Mô hình hồi quy phi tuyến giữa hai tiêu thức số lượng 4.2.2.1. Một số dạng mô hình hồi quy phi tuyến thường gặp Phương trình parabol (bậc 2) o Vận dụng khi tiêu thức nguyên nhân tăng hay giảm với 1 lượng đều nhau thì tiêu thức kết quả biến động với 1 lượng không đều nhau (nhanh hơn hoặc chậm hơn). Ví dụ: Chi phí quảng cáo và doanh thu. o Mô hình hồi quy: 2 ybbxbxˆ x01 2 b0, b1, b2 là các tham số của mô hình hồi quy, được xác định bằng phương pháp bình phương nhỏ nhất và phải thỏa mãn hệ phương trình: ybnbxb x2 01 2 23 xy b01 x b x b 2 x 2342 xy b012 x b x b x Phương trình hypebol o Vận dụng khi tiêu thức nguyên nhân tăng thì tiêu thức kết quả giảm với tốc độ không đều nhau. o Mô hình hồi quy: b ybˆ 1 x0x b0, b1 là tham số của mô hình hồi quy, được xác định bằng phương pháp bình phương nhỏ nhất và phải thỏa mãn hệ phương trình: 1 ybnb 01x 111 yb b xxx012 80 v1.0
  3. Bài 4: Phân tích hồi quy và tương quan Phương trình hàm mũ o Vận dụng khi trị số của tiêu thức kết quả thay đổi theo cấp số nhân. o Mô hình hồi quy: x ybbˆ x01 hay: lny = lnb0 + x lnb1 lnb0, lnb1 phải thỏa mãn hệ phương trình: ln y n ln b01 ln b x 2 x ln y ln b01 x ln b x 4.2.2.2. Tỷ số tương quan Khái niệm: Tỷ số tương quan là chỉ tiêu đánh giá trình độ chặt chẽ của mối liên hệ tương quan phi tuyến. Công thức: ˆ 2  yyix  1 2  yyi Tính chất: o Tỷ số tương quan nằm trong khoảng [0,1]. o η = 0: Không có mối liên hệ tương quan phi tuyến. o η = 1: Mối liên hệ tương quan phi tuyến hoàn toàn chặt chẽ. o η càng gần 1: Mối liên hệ càng chặt chẽ. Nhận xét η luôn > 0 do đó tỷ số tương quan chỉ có thể đánh giá trình độ chặt chẽ của mối liên hệ chứ không nói được chiều hướng của mối liên hệ. η có thể dùng cho cả phi tuyến và tuyến tính (khi r 0). v1.0 81
  4. Bài 4: Phân tích hồi quy và tương quan TÓM LƯỢC CUỐI BÀI Các hiện tượng kinh tế – xã hội luôn tồn tại trong một mối liên hệ ràng buộc lẫn nhau. Tuỳ theo mức độ chặt chẽ của mối liên hệ mà có thể phân ra thành hai loại: liên hệ hàm số và liên hệ tương quan. Phân tích hồi quy và tương quan thực chất là phương pháp phân tích mối liên hệ phụ thuộc với hai nhiệm vụ chủ yếu: xây dựng phương trình hồi quy biểu diễn mối liên hệ và đánh giá mức độ chặt chẽ của mối liên hệ. Với mối liên hệ đơn giản nhất giữa hai tiêu thức số lượng, tuỳ theo việc thăm dò dạng của mô hình hồi quy mà ta có thể xây dựng phương trình tuyến tính hoặc phi tuyến. Các hệ số của mô hình hồi quy được xác định theo phương pháp bình phương nhỏ nhất. Hệ số tương quan và tỷ số tương quan được sử dụng để đánh giá mức độ chặt chẽ của mối liên hệ tương quan giữa hai tiêu thức số lượng. 82 v1.0
  5. Bài 4: Phân tích hồi quy và tương quan CÂU HỎI ÔN TẬP 1. Thế nào là liên hệ hàm số và liên hệ tương quan? 2. Nêu nhiệm vụ của phân tích hồi quy và tương quan. 3. Nêu ý nghĩa của hệ số tự do và hệ số hồi quy trong mô hình hồi quy tuyến tính giữa hai tiêu thức số lượng. 4. Trình bày tác dụng và tính chất của hệ số tương quan. 5. Trình bày tác dụng và tính chất của tỷ số tương quan. v1.0 83
  6. Bài 4: Phân tích hồi quy và tương quan BÀI TẬP 1. Có tài liệu về chi tiêu cho nghiên cứu và phát triển (R&D) và lợi nhuận thu được hàng năm của một doanh nghiệp như sau: Năm Chi cho R&D (tỷ đồng) Lợi nhuận hàng năm (tỷ đồng) 2003 2 20 2004 3 25 2005 5 34 2006 4 30 2007 11 40 2008 5 31 a) Hãy xác định trong hai chỉ tiêu trên, đâu là tiêu thức nguyên nhân, đâu là tiêu thức kết quả. Giải thích. b) Trình bày bằng đồ thị mối liên hệ giữa chi cho R&D và lợi nhuận hàng năm của doanh nghiệp trên và cho nhận xét. c) Xây dựng phương trình hồi quy tuyến tính đơn biểu diễn mối liên hệ giữa chi cho R&D và lợi nhuận hàng năm của doanh nghiệp trên. Giải thích ý nghĩa của các tham số. d) Đánh giá trình độ chặt chẽ của mối liên hệ. 2. Một nhà kinh tế đang quan tâm đến mối quan hệ giữa thu nhập khả dụng và chi cho lương thực thực phẩm hàng năm của các hộ gia đình ở nông thôn nước ta. Để nghiên cứu ông ta tiến hành hỏi ngẫu nhiên 8 hộ gia đình có cùng quy mô hộ (cha, mẹ và 2 con) và có mức thu nhập trung bình. Kết quả như sau: Thu nhập khả dụng Chi cho lương thực thực phẩm (triệu đồng) (triệu đồng) 30 5,5 36 6,0 27 4,2 20 4,0 16 3,7 24 2,6 19 3,9 25 4,3 a) Vẽ đồ thị biểu diễn mối liên hệ giữa thu nhập khả dụng và chi cho lương thực thực phẩm của các hộ trên. b) Xác định phương trình hồi quy biểu diễn mỗi liên hệ đó. Giải thích ý nghĩa của các tham số. c) Sử dụng phương trình hồi quy để dự đoán chi cho lương thực thực phẩm hàng năm của hộ gia đình có mức thu nhập khả dụng là 25 triệu đồng. 84 v1.0
  7. Bài 4: Phân tích hồi quy và tương quan 3. Có kết quả điều tra một mẫu gồm 8 sinh viên về thời gian tự học trong hai tuần và điểm kiểm tra môn học đó sau hai tuần như sau: Thời gian tự học (giờ) Điểm kiểm tra 10 9,2 15 8,1 12 8,4 20 7,4 8 8,5 16 8,0 14 8,4 22 8,0 a) Xây dựng phương trình hồi quy tuyến tính đơn biểu diễn mối liên hệ giữa thời gian tự học và điểm kiểm tra của các sinh viên trong mẫu nói trên. Giải thích ý nghĩa của các tham số. b) Đánh giá trình độ chặt chẽ của mối liên hệ trên. c) Hãy cho biết phương trình vừa xây dựng được có phù hợp để giải thích mối liên hệ giữa hai biến trên không? 4. Có tài liệu về chiều cao và cân nặng của 11 phụ nữ trong độ tuổi 18 – 24 được lựa chọn ngẫu nhiêu như sau: Cân nặng (kg) Chiều cao (cm) 65 175 67 133 71 185 71 163 66 126 75 198 67 153 70 163 71 159 69 151 69 155 a) Khi chiều cao tăng thêm 1 cm thì cân nặng thay đổi như thế nào. b) Đánh giá trình độ chặt chẽ giữa cân nặng và chiều cao của nhóm người trên. 5. Có số liệu về giá trị sản xuất và lượng nhiên liệu tiêu thụ ở các phân xưởng của một nhà máy như sau: Giá trị sản xuất Nhiên liệu tiêu thụ Phân xưởng (triệu đồng) (triệu đồng) A 520 23 B 595 20 C 945 25 D 640 19 E 500 10 G 720 18 v1.0 85
  8. Bài 4: Phân tích hồi quy và tương quan a) Xây dựng phương trình hồi quy tuyến tính đơn biểu diễn ảnh hưởng của giá trị sản xuất tới lượng nhiên liệu tiêu thụ. Giải thích ý nghĩa các tham số. b) Liệu có đầy đủ bằng chứng để kết luận rằng hệ số hồi quy trong phương trình nói trên là khác 0 và vì vậy có thể sử dụng giá trị sản xuất để dự đoán lượng nhiêu liệu tiêu thụ hay không? Hãy thực hiện kiểm định giả thiết cần thiết với mức ý nghĩa 5%. 6. Công ty Coca Cola đang nghiên cứu ảnh hưởng của chiến dịch quảng cáo gần nhất. Họ tiến hành phỏng vấn ngẫu nhiên 10 người để biết xem những người này đã đọc hay xem quảng cáo của hãng bao nhiêu lần và số lon Coca Cola mà họ đã mua trong tuần qua. Kết quả như sau: Số lần xem hay đọc quảng cáo Số lon đã mua 4 12 9 14 3 7 0 6 1 3 6 5 2 5 5 10 a) Hãy xây dựng phương trình hồi quy tuyến tính đơn biểu diễn mối liên hệ giữa hai biến trên. b) Đánh giá trình độ chặt chẽ của mối liên hệ. c) Với kết quả điều tra ở trên, có thể kết luận rằng số quảng cáo đã đọc hay xem có mối liên hệ tương quan tuyến tính thuận với số lon Coca Cola đã mua hay không? Hãy thực hiện kiểm định giả thiết với mức ý nghĩa 0,05. 7. Có số liệu về độ tuổi và nhịp tim của một mẫu gồm 10 người được chọn ngẫu nhiên như sau: Tuổi Nhịp tim (lần) 30 186 38 183 41 171 38 177 29 191 39 177 46 175 41 176 42 171 24 196 a) Giữa hai biến trên liệu có mối liên hệ với nhau không? Nếu có, hãy xác định đâu là nguyên nhân, đâu là kết quả. b) Khi tăng thêm 1 tuổi thì nhịp tim sẽ thay đổi thế nào? c) Có thể dùng tuổi để dự đoán nhịp tim của một người hay không? Với mức ý nghĩa 0,05, hãy giải thích tại sao? 86 v1.0
  9. Bài 4: Phân tích hồi quy và tương quan 8. Một nghiên cứu của cơ quan giao thông ở Atlanta về ảnh hưởng của giá vé xe buýt đến số lượng hành khách thu được kết quả như sau: Giá vé (Cents) Số hành khách trên 100 dặm 15 440 20 430 25 430 30 370 35 360 40 340 45 350 50 350 a) Vẽ đồ thị biểu diễn mối liên hệ trên. b) Xây dựng phương trình hồi quy biểu diễn mối liên hệ trên. c) Với mức ý nghĩa 5%, có thể kết luận rằng, giữa giá vé xe buýt và số lượng hành khách có mối liên hệ tương quan tuyến tính âm hay không? 9. Để dự đoán về những chi phí quản lý phải trả dựa trên số lượng sản phẩm sản xuất ra, một nhà quản lý đã thu thập thông tin ở các đơn vị khác nhau và thu được kết quả sau: Chi phí quản lý phải trả (triệu đồng) Số lượng sản phẩm 191 40 170 42 272 53 155 35 280 56 173 39 234 48 116 30 153 37 178 40 a) Xây dựng phương trình hồi quy biểu diễn mối liên hệ trên. b) Dự đoán chi phí quản lý phải trả khi có 50 sản phẩm được sản xuất ra. c) Tính sai số tiêu chuẩn của mô hình dự đoán trên. 10. Liệu có phải có điểm cao khi học thì ra trường sẽ có việc làm với mức lương cao hơn? Một sinh viên thống kê doanh nghiệp đã thực hiện điều tra ngẫu nhiên một mẫu gồm một số người v1.0 87
  10. Bài 4: Phân tích hồi quy và tương quan bạn mới tốt nghiệp của anh ta về mức lương khởi điểm và điểm trung bình khi học đại học của họ. Kết quả như sau: Mức lương khởi điểm (triệu đồng) Điểm trung bình học đại học 3,1 7,0 2,5 6,0 2,5 6,5 1,9 5,0 2,2 6,0 2,8 6,5 1,6 5,5 2,2 5,5 a) Vẽ đường hồi quy thực nghiệm và đường hồi quy lý thuyết biểu diễn mối liên hệ trên. b) Đánh giá trình độ chặt chẽ của mối liên hệ trên. c) Dự đoán mức lương khởi điểm cho sinh viên có điểm trung bình khi học đại học là 8,0. d) Tính sai số tiêu chuẩn của mô hình dự đoán trên. 88 v1.0