Giáo trình Nhập môn kinh tế lượng và ứng dụng - Chương 5: Đa cộng tuyến
Các biến giải thích được xác định trong một mô hình kinh tế lượng thường xuất phát từ lý
thuyết hoặc hiểu biết căn bản về hành vi chúng ta đang cố gắng thiết kế mô hình, cũng như
từ kinh nghiệm quá khứ. Dữ liệu về các biến này đặc biệt xuất phát từ những thực nghiệm
không kiểm soát và thường tương quan với nhau. Điều này đặc biệt đúng đối với các biến
chuỗi thời gian thường có những xu hướng tiềm ẩn thông thường. Ví dụ, dân số và tổng sản
phẩm quốc nội là hai chuỗi dữ liệu tương quan chặt lẫn nhau. Trong chương trước, chúng ta
phát biểu là hệ số hồi qui đối với một biến cụ thể là số đo tác động riêng phần của biến này,
nghĩa là tác động của nó khi tất cả các biến khác trong mô hình được giữ ở những mức cố
định và chỉ có giá trị của biến này thay đổi. Tuy nhiên, khi hai biến giải thích cùng tương
quan chặt; chúng ta không thể chỉ đơn giản giữ một biến không đổi và thay đổi biến còn lại
vì khi biến sau thay đổi thì biến đầu thay đổi. Trong trường hợp này, thật khó tách biệt ảnh
hưởng riêng phần của một biến đơn. Cũng vậy, thay đổi mô hình bằng cách loại bỏ hoặc
thêm vào một biến có thể làm thay đổi kết quả một cách nghiêm trọng, khiến cho việc diễn
dịch các ước lượng sẽ khó khăn hơn. Đây chính là vấn đề đa cộng tuyến, vấn đề xuất hiện
khi các biến giải thích có các quan hệ gần như tuyến tính. Chương này khảo sát các hệ quả
của đa cộng tuyến trong phạm vi ước lượng các thông số, khảo sát các tính chất của chúng
và kiểm định giả thuyết về những hệ quả này. Trước hết chúng tôi trình bày các ví dụ về vấn
đề đa cộng tuyến phát sinh như thế nào trong thực tế và sau đó khảo sát vấn đề này một cách
chi tiết hơn.
thuyết hoặc hiểu biết căn bản về hành vi chúng ta đang cố gắng thiết kế mô hình, cũng như
từ kinh nghiệm quá khứ. Dữ liệu về các biến này đặc biệt xuất phát từ những thực nghiệm
không kiểm soát và thường tương quan với nhau. Điều này đặc biệt đúng đối với các biến
chuỗi thời gian thường có những xu hướng tiềm ẩn thông thường. Ví dụ, dân số và tổng sản
phẩm quốc nội là hai chuỗi dữ liệu tương quan chặt lẫn nhau. Trong chương trước, chúng ta
phát biểu là hệ số hồi qui đối với một biến cụ thể là số đo tác động riêng phần của biến này,
nghĩa là tác động của nó khi tất cả các biến khác trong mô hình được giữ ở những mức cố
định và chỉ có giá trị của biến này thay đổi. Tuy nhiên, khi hai biến giải thích cùng tương
quan chặt; chúng ta không thể chỉ đơn giản giữ một biến không đổi và thay đổi biến còn lại
vì khi biến sau thay đổi thì biến đầu thay đổi. Trong trường hợp này, thật khó tách biệt ảnh
hưởng riêng phần của một biến đơn. Cũng vậy, thay đổi mô hình bằng cách loại bỏ hoặc
thêm vào một biến có thể làm thay đổi kết quả một cách nghiêm trọng, khiến cho việc diễn
dịch các ước lượng sẽ khó khăn hơn. Đây chính là vấn đề đa cộng tuyến, vấn đề xuất hiện
khi các biến giải thích có các quan hệ gần như tuyến tính. Chương này khảo sát các hệ quả
của đa cộng tuyến trong phạm vi ước lượng các thông số, khảo sát các tính chất của chúng
và kiểm định giả thuyết về những hệ quả này. Trước hết chúng tôi trình bày các ví dụ về vấn
đề đa cộng tuyến phát sinh như thế nào trong thực tế và sau đó khảo sát vấn đề này một cách
chi tiết hơn.
Bạn đang xem tài liệu "Giáo trình Nhập môn kinh tế lượng và ứng dụng - Chương 5: Đa cộng tuyến", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
- giao_trinh_nhap_mon_kinh_te_luong_va_ung_dung_chuong_5_da_co.pdf
Nội dung text: Giáo trình Nhập môn kinh tế lượng và ứng dụng - Chương 5: Đa cộng tuyến
- Chương trình Giảng dạy Kinh tế Fulbright Phương pháp phân tích Nhập môn kinh tế lượng với các ứng dụng Niên khóa 2003-2004 Bài đọc Chương 5: Đa cộng tuyến CÁC BIỆN PHÁP KHÁC Một số phương pháp đã được đưa ra trong cơ sở lý thuyết, hầu hết chúng đều không theo thể thức, và không được sự nhất trí cho lắm giữa các nhà kinh tế lượng về mức độ hữu ích của các phương pháp này. Hai trong số những kỹ thuật này là hồi qui ngọn sóng và phân tích thành phần chính. Các kỹ thuật không được thảo luận ở đây vì chúng đòi hỏi kiến thức đại số tuyến tính và thống kê toán học vượt quá phạm vi của cuốn sách này. Đối với những độc giả có được nền tảng kiến thức như trên, có thể tìm thấy một phương cách xử lý tính đa cộng tuyến khá hay trong sách của Judge, Griffiths, Hill, và Lee (1985). Còn có những bài đọc tham khảo khác cũng hữu ích được liệt kê trong phần tài liệu tham khảo, nhưng một số tài liệu đòi hỏi phải nắm vững kiến thức đại số ma trận hoặc các phương pháp được trình bày ở Chương11. } 5.4 Các ứng dụng Chi phí bảo trì trong ngành ô-tô Người ta đã thấy rằng một trong những tác động của tính đa cộng tuyến là làm thay đổi các hệ số hồi qui một cách đáng kể. Tuy nhiên, nếu mối quan hệ gần tuyến tính giữa các biến độc lập được đưa vào xem xét, thì những khác biệt hầu như không lớn lắm. Chẳng hạn như, trong ví dụ của Toyota, nếu biến MILES được hồi qui theo một hằng số và biến AGE, chúng ta có được (xem Phần Thực hành trên máy tính 5.4) MILES = 4,191 + 0,134 AGE (8,74) (88,11) – Các trị thống kê t trong ngoặc đơn ở mức ý nghĩa rất cao, và giá trị của R2 là 0,993, cho ta thấy một sự ăn khớp gần như hoàn hảo. Nếu mối quan hệ này được thay thế trong Mô hình C của Bảng 5.2, chúng ta sẽ có ^ E = 7,29 + 27,58 AGE – 151,15(4,191 + 0,134 AGE) = - 626,18 + 7,33 AGE con số này rất gần với giá trị trong Mô hình A. Vì vậy, cho dù Mô hình C thể hiện khác biệt rất nhiều so với Mô hình A, khi mối quan hệ giữa hai biến độc lập MILES và AGE được đưa vào xem xét rõ ràng, thì hai mô hình này cũng rất gần với nhau. Tuy nhiên, trong thực tế, việc cố đạt được tất cả các quan hệ có thể có và sử dụng toàn bộ chúng là điều không tưởng. Lời giải ở đây là để nhận dạng những biến thừa và loại bỏ chúng ra khỏi mô hình. Các Tỷ Lệ Mức Độ Nghèo Khó Và Các Yếu Tố Quyết Định Bảng Dữ liệu 4-6 có dữ liệu về các tỷ lệ nghèo khó và một con số của các yếu tố có thể tác động đến những tỷ lệ này ở 58 địa hạt của California. Biến phụ thuộc lấy tên là povrate được xác định bằng phần trăm các gia đình có thu nhập dưới mức nghèo khó. Các biến độc lập thì được xác định như sau (xem thêm chi tiết ở Phụ lục D và Phần Thực hành trên máy tính 5.5): urb = Phần trăm của tổng dân số thành thị Ramu Ramanathan 11 Thuc Doan/Hao Thi
- Chương trình Giảng dạy Kinh tế Fulbright Phương pháp phân tích Nhập môn kinh tế lượng với các ứng dụng Niên khóa 2003-2004 Bài đọc Chương 5: Đa cộng tuyến famsize = Số người trong một hộ gia đình unemp = Tỷ lệ phần trăm thất nghiệp highschl = Phần trăm dân số (25 tuổi trở lên) có trình độ học vấn bậc trung học college = Phần trăm dân số (25 tuổi trở lên) đã hoàn tất chương trình cao đẳng hoặc đại học trở lên medinc = Giá trị trung vị của thu nhập gia đình tính theo đơn vị ngàn đô-la Bảng 5.3 có phần in ra từ máy tính có kèm chú thích để nghiên cứu. } Bảng 5.3 Phần in ra từ máy tính có chú thích cho Ứng dụng ở Phần 5.4 [Ma trận của các hệ số tương quan theo từng cặp được trình bày ở đây. Cột cuối cùng chỉ số biến. Vì vậy, sự tương quan giữa biến #5 (highschl) và biến #4 (unemp) là - 0,109. Các giá trị trên đường chéo đều bằng 1,000 bởi vì sự tương quan giữa một biến và chính nó là 1. Xin lưu ý rằng các hệ số tương quan cho thấy một vài giá trị cao. Như chúng ta đã kỳ vọng, tỷ lệ trình độ bậc cao đẳng đại học có tương quan dương với trung vị thu nhập và tương quan âm với tỷ lệ thất nghiệp. Chúng ta có thể kỳ vọng rằng những tương quan này cho thấy sự xuất hiện của tính đa cộng tuyến giữa các biến này và có tác động đến các kết quả hồi qui.] Các hệ số tương quan, sử dụng số quan sát 1 – 58 2) urb 3) famsize 4) unemp 5) highschl 6) college 1.000 0.350 0.110 0.211 - 0.358 (2 1.000 0.485 - 0.508 - 0.300 (3 1.000 - 0.109 - 0.757 (4 1.000 - 0.358 (5 1.000 (6 7) medinc - 0.084 (2 - 0.035 (3 - 0.714 (4 - 0.280 (5 0.848 (6 1.000 (7 [Ước lượng mô hình tổng quát với tất cả các biến giải thích.] MODEL 1: OLS estimates using the 58 observations 1-58 Dependent variable: povrate VARIABLE COEFFICIENT STDERROR T STAT 2Prob(t > |T|) 0) const 16.8176 8.5026 1.978 0.053350 * 2) urb -0.0187 0.0148 -1.270 0.210010 3) famsize 6.0918 1.8811 3.238 0.002116 4) unemp -0.0118 0.1195 -0.099 0.921724 5) highschl -0.1186 0.0681 -1.741 0.087742 * 6) college 0.1711 0.0982 1.743 0.087355 * 7) medinc -0.5360 0.0704 -7.619 0.000000 Mean of dep. var. 9.903 S.D. of dep. variable 3.955 Error Sum of Sq (ESS) 146.0911 Std Err of Resid. (sgmahat) 1.6925 Unadjusted R-squared 0.836 Adjusted R-squared 0.817 F-statistic (6. 51) 43.3875 p-value for F() 0.000000 Durbin-Watson stat. 1.904 First-order autocorr. coeff 0.040 Ramu Ramanathan 12 Thuc Doan/Hao Thi
- Chương trình Giảng dạy Kinh tế Fulbright Phương pháp phân tích Nhập môn kinh tế lượng với các ứng dụng Niên khóa 2003-2004 Bài đọc Chương 5: Đa cộng tuyến MODEL SELECTION STATISTICS SGMASQ 2.86453 AIC 3.20646 FPE 3.21025 HQ 3.53259 SCHWARZ 4.11172 SHIBATA 3.1268 GCV 3.2577 RICE 3.32025 Excluding the constant. p-value was highest for variable 4 (uemp). } Bảng 5.3 (tiếp theo) [Ta lưu ý rằng biến urb và unemp có giá trị p cao hơn bất cứ mức chấp nhận hợp lý nào và do đó sẽ là những biến bị loại ra khỏi mô hình. đặc biệt bởi vì về lý thuyết không có lý do nào để giữ chúng lại. Nghiêm trọng hơn, ta lưu ý biến college có dấu dương không đúng như kỳ vọng, dấu dương. Mọi yếu tố khác như nhau, nếu một quốc gia có phần trăm dân số có trình độ đại học cao hơn, ta kỳ vọng tỷ lệ nghèo của quốc gia đó thấp hơn. Như vậy ta kỳ vọng dấu âm cho biến college, điều này trái với ước lượng thực tế. Sự đa cộng tuyến có thể gây nên dấu “sai”? Bởi vì biến unemp cực kỳ không ý nghĩa, với giá trị p trên 90%, ta có thể loại bỏ nó một cách an toàn mà không sợ ảnh hưởng kết quả.] MODEL 2: OLS estimates using the 58 observations 1-58 Dependent variable: povrate VARIABLE COEFFICIENT STDERROR T STAT 2Prob(t > |T|) 0) const 16.5654 8.0325 2.062 0.044192 2) urb -0.0184 0.0142 -1.296 0.200710 3) famsize 6.0496 1.8145 3.334 0.001583 5) highschl -0.1166 0.0646 -1.805 0.076822 * 6) college 0.1746 0.0905 1.929 0.059138 * 7) medinc -0.5343 0.0677 -7.894 0.000000 Mean of dep. var. 9.903 S.D. of dep. variable 3.955 Error Sum of Sq (ESS) 146.1190 Std Err of Resid. (sgmahat) 1.6763 Unadjusted R-squared 0.836 Adjusted R-squared 0.820 F-statistic (5. 52) 53.0737 p-value for F() 0.000000 Durbin-Watson stat. 1.901 First-order autocorr. coeff 0.041 MODEL SELECTION STATISTICS SGMASQ 2.80998 AIC 3.09837 FPE 3.10067 HQ 3.36659 SCHWARZ 3.83444 SHIBATA 3.04053 GCV 3.13421 RICE 3.1765 Excluding the constant. p-value was highest for variable 2 (urb). Of the 8 model selection statistics. 8 have improved. [Không có sự thay đổi trong các hệ số ước lượng và độ lệch chuẩn. Urb vẫn không có ý nghĩa và sẽ được loại bỏ tiếp theo.] MODEL 3: OLS estimates using the 58 observations 1-58 Dependent variable: povrate VARIABLE COEFFICIENT STDERROR T STAT 2Prob(t > |T|) Ramu Ramanathan 13 Thuc Doan/Hao Thi
- Chương trình Giảng dạy Kinh tế Fulbright Phương pháp phân tích Nhập môn kinh tế lượng với các ứng dụng Niên khóa 2003-2004 Bài đọc Chương 5: Đa cộng tuyến 0) const 19.1721 7.8263 2.450 0.017634 3) famsize 5.4140 1.7581 3.079 0.003283 5) highschl -0.1388 0.0627 -2.214 0.031161 6) college 0.1953 0.0897 2.178 0.033882 7) medinc -0.5523 0.0667 -8.274 0.000000 } Bảng 5.3 (tiếp theo) Mean of dep. var. 9.903 S.D. of dep. variable 3.955 Error Sum of Sq (ESS) 150.8385 Std Err of Resid. (sgmahat) 1.6870 Unadjusted R-squared 0.831 Adjusted R-squared 0.818 F-statistic (4. 53) 65.0877 p-value for F() 0.000000 Durbin-Watson stat. 2.025 First-order autocorr. coeff -0.025 MODEL SELECTION STATISTICS SGMASQ 2.84601 AIC 3.09003 FPE 3.09135 HQ 3.31139 SCHWARZ 3.69066 SHIBATA 3.04905 GCV 3.1145 RICE 3.14247 Of the 8 model selection statistics. 8 have improved. [Bây giờ tất cả hệ số đều có ý nghĩa ở mức dưới 5%, nhưng hệ số của biến college vẫn có dấu sai. Những hệ số khác đã thay đổi một cách đáng kể hơn. Bởi vì trung vị của thu nhập được xác định bởi phần trăm tốt nghiệp trung học và đại học, loại bỏ biến này ra khỏi mô hình là có ý nghĩa ngay cả khi nó có hệ số rất có ý nghĩa. Hiệu ứng của biến này được thể hiện một cách gián tiếp bởi biến highscl và college. Tham khảo phần thảo luận trong phần 4.7, diễn giải các hệ số hồi qui.] MODEL 4: OLS estimates using the 58 observations 1-58 Dependent variable: povrate VARIABLE COEFFICIENT STDERROR T STAT 2Prob(t > |T|) 0) const 53.2862 9.9879 5.335 0.000002 3) famsize -3.9594 2.0194 -1.961 0.055081 * 5) highschl -0.4137 0.0798 -5.182 0.000003 6) college -0.4744 0.0582 -8.151 0.000000 Error Sum of Sq (ESS) 346.1406 Std Err of Resid. (sgmahat) 2.5318 Unadjusted R-squared 0.612 Adjusted R-squared 0.590 F-statistic (3. 54) 28.3753 p-value for F() 0.000000 MODEL SELECTION STATISTICS SGMASQ 6.41001 AIC 6.85058 FPE 6.85208 HQ 7.24045 SCHWARZ 7.8966 SHIBATA 6.79111 GCV 6.88483 RICE 6.92281 [Một điều đáng quan tâm là giờ đây biến college có dấu âm như kỳ vọng và có ý nghĩa. Sự thay đổi xảy ra có thể do sự đa cộng tuyến tồn tại giữa biến medinc và vài hoặc tất cả các biến giải thích khác. Tuy nhiên, có sự giảm đáng kể trong giá trị R 2 từ 0,818 xuống 0,590. Ramu Ramanathan 14 Thuc Doan/Hao Thi
- Chương trình Giảng dạy Kinh tế Fulbright Phương pháp phân tích Nhập môn kinh tế lượng với các ứng dụng Niên khóa 2003-2004 Bài đọc Chương 5: Đa cộng tuyến Ngoài ra, tất cả các trị thống kê lựa chọn mô hình đều trở nên xấu đi. Bởi vì dấu dương của biến college không có nghĩa về mặt lý thuyết, ta không nên đặt biến medinc vào lại mô hình chỉ nhằm để tăng độ phù hợp có hiệu chỉnh hoặc để cải thiện chỉ tiêu lựa chọn. Từ đây rõ rằng thấy rằng cần phải có sự xét đoán tốt và kinh nghiệm khi đánh giá các kết quả. Dựa mù quáng trên những đo lường cứng nhắc có thể dẫn ta lạc lối. Để chứng thực sự đa cộng tuyến đáng ngờ, ta liên kết biến medinc với các yếu tố quyết định của nó.] } Bảng 5.3 (tiếp theo) MODEL 5: OLS estimates using the 58 observations 1-58 Dependent variable: medinc VARIABLE COEFFICIENT STDERROR T STAT 2Prob(t > |T|) 0) const -44.9132 15.3482 -2.926 0.005042 3) famsize 16.8193 2.6613 6.320 0.000000 4) unemp -0.4677 0.2193 -2.133 0.037586 5) highschl 0.3649 0.1222 2.986 0.004277 6) college 0.9921 0.1287 7.707 0.000000 Mean of dep. var. 35.338 S.D. of dep. variable 8.264 Error Sum of Sq (ESS) 589.6206 Std Err of Resid. (sgmahat) 3.3354 Unadjusted R-squared 0.849 Adjusted R-squared 0.837 F-statistic (4. 53) 74.2331 p-value for F() 0.000000 MODEL SELECTION STATISTICS SGMASQ 11.1249 AIC 12.0788 FPE 12.084 HQ 12.9441 SCHWARZ 14.4266 SHIBATA 11.9186 GCV 12.1744 RICE 12.2838 [Tất cả các hệ số đều rất ý nghĩa và có dấu như kỳ vọng. Ngoài ra, bình phương R có hiệu chỉnh có giá trị cao, như vậy khẳng định rằng đa cộng tuyến hẳn phải là lý do về dấu dương không như kỳ vọng của biến college trong mô hình tỷ lệ nghèo.] Tóm tắt Nếu một mối quan hệ tuyến tính đúng đắn tồn tại giữa hai hay nhiều biến giải thích, các biến đó được gọi là đa cộng tuyến một cách chính xác. Trong tình huống như vậy, các hệ số hồi qui tương ứng với các biến độc lập này không thể ước lượng một cách duy nhất. Nếu vài biến giải thích là gần đa cộng tuyến, các ước lượng OLS vẫn không thiên lệch, nhất quán, và là ước lượng không thiên lệch tuyến tính tốt nhất (BLUE). Do đó, các dự báo cũng không thiên lệch và là nhất quán. Hơn nữa, tất cả các kiểm định của các giả thuyết đều hiệu lực. Hiệu ứng của gần đa cộng tuyến là tăng độ lệch chuẩn của các hệ số hồi qui và giảm các trị thống kê t của chúng. Điều này có khuynh hướng làm cho các hệ số kém ý nghĩa hơn nếu không có sự đa cộng tuyến. Do đó, nên chú ý khi rút ra suy luận và không đưa ra kết luận rằng mọi biến không có ý nghĩa nên bị loại bỏ. Ramu Ramanathan 15 Thuc Doan/Hao Thi
- Chương trình Giảng dạy Kinh tế Fulbright Phương pháp phân tích Nhập môn kinh tế lượng với các ứng dụng Niên khóa 2003-2004 Bài đọc Chương 5: Đa cộng tuyến Nếu hai biến là gần đa cộng tuyến, đồng phương sai giữa cặp hệ số hồi qui là cao, chỉ ra rằng mỗi hệ số được thể hiện một phần qua hiệu ứng của biến khác. Có thể có dấu ngược khi thêm vào hay bỏ đi một biến mới. Điều này làm cho việc diễn giải một hệ số hồi qui riêng lẻ khó khăn hơn. Do vậy, hiệu ứng riêng phần của một biến đơn khó đo lường được. Nếu một cặp biến độc lập không tương quan, thì hệ số hồi qui của mỗi biến là không thay đổi cho dù biến kia được đưa vào mô hình hay không. Đa cộng tuyến có thể được nhận dạng bằng cách khảo sát dạng tương quan giữa các biến giải thích. Vì các biến chuỗi thời gian có chiều hướng phát triển cùng nhau, các mô hình dựa trên chúng sẽ thiên về các bài toán đa cộng tuyến hơn là các mô hình chéo. Nếu bỏ một hay nhiều biến độc lập làm biến đổi mạnh kết quả, thì chắc chắn sự đa cộng tuyến là nguyên nhân. Không có giải pháp duy nhất để loại bỏ sự đa cộng tuyến. Nếu trọng tâm là dự báo, đa cộng tuyến có thể thường được làm ngơ vì khả năng dự báo thường không bị tác đôïng nhiều. Nếu các biến tương tự có mặt trong mô hình, thì khuyên nên loại bỏ các biến thừa. Các biến có thể loại bỏ là những biến có giá trị t rất thấp. Đơn giản hóa mô hình dựa trên dữ liệu là cách tiếp cận có thể dùng được ở đây. Tuy nhiên, ta nên nhớ việc loại bỏ các biến quan trọng sẽ gây ra sự thiên lệch. Nên dùng các kiến thức lý thuyết để quyết định nên hay không giữ một biến lại mặc dù các vấn đề của đa cộng tuyến có thể có. Tăng kích thước mẫu cũng là lời khuyên, với điều kiện dữ liệu mới có cùng hoặc ít cộng tuyến hơn dữ liệu gốc. Các phương pháp khác như hồi qui ngọn sóng và phân tích thành phần chính có thể được dùng, nhưng đây là các thủ tục không theo thể thức và không có sự nhất trí về sự hữu dụng của chúng giữa các nhà kinh tế lượng. Thuật ngữ Absence of multicollinearity Sự vắng mặt của đa cộng tuyến Exact multicollinearity Đa cộng tuyến chính xác First differences Sai phân bậc nhất Multicollinearity Đa cộng tuyến Near multicollinearity Gần đa cộng tuyến Perfect multicollinearity Đa cộng tuyến hoàn hảo Ramu Ramanathan 16 Thuc Doan/Hao Thi
- Chương trình Giảng dạy Kinh tế Fulbright Phương pháp phân tích Nhập môn kinh tế lượng với các ứng dụng Niên khóa 2003-2004 Bài đọc Chương 5: Đa cộng tuyến 5.A PHỤ LỤC Chứng Minh các Phương Trình (5.4) đến (5.6) Dùng các ký hiệu của Phần 4.A.1. các Phương trình chuẩn (5.2) và (5.3) có thể được giải cho các hệ số β như sau (xem Phương trình 4.A.6 đến 4.A.15). S S - S S βˆ = y2 33 y3 23 (5.A.1) 2 ∆ S S - S S βˆ = y3 22 y2 23 (5.A.2) 3 ∆ Trong đó 2 ∆ = S22S33 – S 23 (5.A.3) Dễ dàng thấy rằng E(Sy2) = β2S22 + β3S23 (5.A.4) E(Sy3) = β2S23 + β3S33 (5.A.5) Ta có Sy2 = ∑yx2 = ∑x2(β2x2 + β3x3 + v) (5.A.6) = β2S22 + β3S23 + Sv2 Sử dụng phương trình (5.1). Bởi vì E(v) = 0 và các x là không ngẫu nhiên. E(Sv2) = E(∑vx2) = ∑x2E(v) = 0. Do đó. E(Sy2) = β2S22 + β3S23, vậy phương trình (5.A.4) được chứng minh. Chứng minh phương trình (5.A.5) tương tự. Tiếp theo ta chứng minh rằng σ2S Var(βˆ ) = 33 (5.A.7) 2 ∆ σ2S Var(βˆ ) = 22 (5.A.8) 3 ∆ -σ2S Cov(βˆ ,βˆ ) = 23 (5.A.9) 2 3 ∆ Từ (5.A.6) và Tính chất 2.8c. Var(Sy2) = Var(Sv2). Từ Tính chất 2.9e. 2 2 2 2 Var (Sy2) = ∑x2 Var(v) = σ ∑x2 = σ S22 Ramu Ramanathan 17 Thuc Doan/Hao Thi
- Chương trình Giảng dạy Kinh tế Fulbright Phương pháp phân tích Nhập môn kinh tế lượng với các ứng dụng Niên khóa 2003-2004 Bài đọc Chương 5: Đa cộng tuyến 2 2 2 2 Var (Sy3) = ∑x3 Var(v) = σ ∑x3 = σ S33 2 Cov(Sy2, Sy3) = ∑x2x3Var(v) = σ S23 Ngoài ra, từ Tính chất 2.4a 1 Var(βˆ ) = [S2 Var(S )+ S2 Var(S )-2S S Cov(S ,S )] 2 ∆2 33 y2 23 y3 33 23 y2 y3 σ2 = [S2 S +S2 S -2S S S ] ∆2 33 22 23 33 33 23 23 σ 2 σ 2 σ 2 S = [S 2 S -S2 S ]= S [S S -S2 ]= 33 ∆2 33 22 23 33 ∆2 33 33 22 23 ∆ Vậy phương trình (5.A.7) chứng minh xong. Thủ tục chứng minh (5.A.8) và (5.A.9) tương tự. Gọi r là hệ số tương quan giữa X2 và X3 (xem Phương trình 2.11). Theo định 2 2 nghĩa, r = S23 /(S22S33 ) . Do đó. 2 ∆ = S22S33(1 – r ) Dùng kết quả này vào Phương trình (5.A.7). (5.A.8), và (5.A.9), ta được Phương trình (5.4). (5.5), và (5.6). Ramu Ramanathan 18 Thuc Doan/Hao Thi