Giáo trình Nhập môn kinh tế lượng và ứng dụng - Chương 2: Ôn lại xác suất và thống kê

Một cách điển hình, một nhà nghiên cứu thực hiện một thí nghiệm có thể đơn giản như
tung đồng xu hay quay cặp súc sắc hoặc có thể phức tạp như làm một khảo sát các tác
nhân kinh tế hay thực hiện một chương trình điều trị y học thực nghiệm. Dựa trên kết
quả của thí nghiệm, một nhà phân tích có thể đo được các giá trị của các biến quan tâm
mà chúng mô tả đặc điểm của kết quả. Các biến như vậy được biết đến như biến ngẫu
nhiên và thường ký hiệu là X. Các ví dụ bao gồm nhiệt độ tại một thời điểm nào đó, số
cuộc gọi đến qua một tổng đài điện thoại trong một khoảng 5 phút, thu nhập của một hộ
gia đình, tồn kho của một công ty, và giá bán của một căn nhà cũng như các đặc điểm
của nó, như diện tích sinh hoạt hay kích thước lô đất. Một biến ngẫu nhiên là rời rạc nếu 
nó chỉ mang các giá trị lựa chọn. Số đèn điện tử TV theo lô 20 và số mặt ngửa trong 10
lần tung một đồng xu là các ví dụ của các biến ngẫu nhiên rời rạc. Một biến ngẫu nhiên
là liên tục nếu nó có thể mang bất kỳ giá trị nào trong một khoảng số thực. Khi được đo
lường chính xác, chiều cao của một người, nhiệt độ tại một lúc riêng biệt nào đó, và
lượng năng lượng tiêu thụ trong một giờ là các ví dụ của các biến ngẫu nhiên liên tục.
Quy ước sử dụng trong sách này là ký hiệu một biến ngẫu nhiên bằng mẫu tự hoa (như X
hay Y) và các kết quả cụ thể của nó bởi mẫu tự thường (như x hay y).
Để giữ cho sự trình bày được đơn giản, ta minh họa các khái niệm khác nhau sử
dụng hầu hết các biến ngẫu nhiên rời rạc. Các mệnh đề dễ dàng mở rộng tới trường hợp
của biến ngẫu nhiên liên tục.
Liên kết với mỗi biến ngẫu nhiên là một phân phối xác suất [ký hiệu bởi hàm
f(x)] nó xác định xác suất mà biến ngẫu nhiên sẽ mang các giá trị trong các khoảng xác
định cụ thể. Định nghĩa chính thức của một biến ngẫu nhiên không được trình bày ở đây
nhưng có thể tìm thấy trong mọi cuốn sách liệt kê trong mục lục sách tham khảo. 
pdf 62 trang hoanghoa 7320
Bạn đang xem 20 trang mẫu của tài liệu "Giáo trình Nhập môn kinh tế lượng và ứng dụng - Chương 2: Ôn lại xác suất và thống kê", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfgiao_trinh_nhap_mon_kinh_te_luong_va_ung_dung_chuong_2_on_la.pdf

Nội dung text: Giáo trình Nhập môn kinh tế lượng và ứng dụng - Chương 2: Ôn lại xác suất và thống kê

  1. Chương trình Giảng dạy Kinh tế Fulbright Phương pháp phân tích Nhập môn kinh tế lượng với các ứng dụng Niên khóa 2003-2004 Bài đọc Chương 2: Ôn lại xác suất và thống kê Một nhà sản xuất lốp xe đã nhận thấy rằng tuổi thọ của một loại lốp nào đó là một biến ngẫu nhiên chuẩn với trung bình là 30.000 dặm và độ lệch chuẩn là 2.000 dặm. Công ty mong muốn đảm bảo lốp xe đó cho N dặm với việc trả lại toàn bộ tiền nếu lốp xe không dùng được đến giới hạn đó. Giả sử công ty muốn đảm bảo rằng xác suất mà một lốp xe bị trả lại không quá 0,10 (nghĩa là không quá 10 phần trăm số lốp xe sẽ được bán). Giá trị N công ty nên chọn là bao nhiêu? Cho X là tuổi thọ của lốp xe. Vậy X được phân phối theo N(30.000, 2.0002). Ta  X -µ N − µ  X -µ muốn P(X ≤ N) ≤ 0,10. P(X ≤ N) = P ≤  ≤ 0,10. Cho Z = là chuẩn  σ σ  σ  N − µ  chuẩn hóa. Vậy P Z ≤ z =  ≤ 0,10. Từ Hình 2.5 ta thấy rằng để thu được diện tích  σ  của 0,10 phía bên trái của z, ta cần tìm điểm d (= – z) sao cho diện tích giữa 0 và d là 0,40 (do tính chất đối xứng). Từ Bảng A.1 của phụ lục, ta lưu ý rằng P(0 ≤ Z ≤ d = 1,282) N -µ = 0,40, nghĩa là nếu ≤ – 1,282, thì bất đẳng thức trên sẽ thỏa mãn. Vậy, N ≤ µ – σ 1,282σ = 30.000 – (1,282)2.000; nghĩa là N ≤ 27.436 dặm. } Hình 2.5 Đồ Thị Mật Độ Chuẩn Chuẩn Hóa f(Z) 40% 40% 10% 10% Z z = – 1,8280 d = 1,828 Hệ Số Biến Thiên Ramu Ramanathan 11 Thục Đoan/Hào Thi
  2. Chương trình Giảng dạy Kinh tế Fulbright Phương pháp phân tích Nhập môn kinh tế lượng với các ứng dụng Niên khóa 2003-2004 Bài đọc Chương 2: Ôn lại xác suất và thống kê Hệ số biến thiên được định nghĩa là tỷ số σ/µ, trong đó tử số là độ lệch chuẩn và mẫu số là trị trung bình. Đó là một đại lượng của sự phân tán của phân phối tương đối so với trị trung bình của phân phối. Chúng ta sẽ gặp phải khái niệm này lần nữa trong Chương 14 khi thực hiện một dự án thực nghiệm. Để có thảo luận của các đo lường khác đặc trưng cho một phân phối, xem Ramanathan (1993, Phần 3.5). Phần Máy Tính Thực Hành 2.2 (xem Bảng Phụ lục D.1) minh họa các khái niệm này cho người sử dụng GRELT, dùng dữ liệu mẫu về điểm trung bình của 427 sinh viên. } 2.3 Các Xác Suất Kết Hợp, Đồng Phương Sai, và Tương Quan Các hàm xác suất được xác định với một cặp biến ngẫu nhiên nào đó (ví dụ như biến PRICE và SQFT hay biến tiêu dùng và thu nhập) được gọi là phân phối xác suất kết hợp hay phân phối hai biến. Để việc trình bày đơn giản hơn, phần thảo luận chỉ tập trung vào các biến ngẫu nhiên rời rạc. Sự khái quát hoá đối với trường hợp biến liên tục có thể dễ dàng suy ra. Gọi X và Y là hai biến ngẫu nhiên rời rạc, x và y là các giá trị tương ứng mà hai biến trên có thể đạt được. Xác suất mà X = x và Y = y được gọi là hàm xác suất kết hợp đối với X và Y và được biểu thị thông qua hàm fXY(x, y). Vì thế ta có hàm fXY(x, y) = P(X = x, Y = y), có nghĩa là P(X = x và Y = y). Vì hàm xác suất thường được biểu thị bằng f() nên chúng ta dùng ký hiệu XY đặt ở bên dưới để quy định hai biến ngẫu nhiên kết hợp đang quan sát là X và Y. } VÍ DỤ 2.8 Hãy xem xét cuộc thí nghiệm thảy một cặp súc sắc. Có thể có 36 trường hợp xảy ra, được biểu thị theo (1, 1), (1, 2), , (6, 6), trong đó chữ số đầu tiên là kết quả của súc sắc thứ nhất và số hạng thứ hai biểu thị kết quả của súc sắc thứ hai. Mỗi kết quả đều có khả năng xảy ra như nhau, và vì vậy xác suất xảy ra của mỗi kết quả cụ thể là 1/36. Bây giờ, đặt biến ngẫu nhiên X = số lần xuất hiện của số 3 ở kết quả thu được. Do đó, nêu kết quả là (1, 5) thì X = 0; nếu là (3, 6) thì X = 1; và X = 2 khi và chỉ khi kết quả là (3, 3). Giá trị X chỉ chỉ có thể là 0, 1, và 2. Kế tiếp, chúng ta định nghĩa biến ngẫu nhiên Y = số lần xuất hiện của số 5 xuất hiện nơi kết quả cụ thể, giá trị của Y cũng chỉ có thể là 0, 1, và 2. Kết quả (1, 3) sẽ tương ứng với X = 1 và Y = 0. Dễ dàng kiểm chứng các giá trị xác suất kết hợp cho trong bảng 2.4. Ví dụ, biến cố kết hợp (X = 1, Y = 1) có thể xảy ra chỉ khi có kết quả là (3, 5) hoặc (5, 3), mỗi trường hợp đều có xác suất là 1/36. Vì thế, f(1, 1) = P(X = 1, Y = 1) = 1/36. Các giá trị xác suất khác cũng được tính toán tương tự (hãy kiểm chứng các kết luận này như là bài tập thực hành). Ramu Ramanathan 12 Thục Đoan/Hào Thi
  3. Chương trình Giảng dạy Kinh tế Fulbright Phương pháp phân tích Nhập môn kinh tế lượng với các ứng dụng Niên khóa 2003-2004 Bài đọc Chương 2: Ôn lại xác suất và thống kê Sự Độc Lập Thống Kê Các biến ngẫu nhiên rời rạc được gọi là sự độc lập thống kê nếu P(X = x và Y = y) = P(X = x) . P(Y = y). Vì vậy trong trường hợp này, xác suất kết hợp là tích của các xác suất riêng lẻ. Đối với trường hợp biến có dạng liên tục, chúng ta sẽ có fXY(x, y) = fX(x). fY(y). Xác Suất Có Điều Kiện Để biết thêm về xác suất của những biến cố xảy ra kết hợp của hai biến ngẫu nhiên X và Y, chúng ta cũng cần nên biết về xác suất xảy ra của biến ngẫu nhiên cụ thể (Y) nào đó cho trước sự kiện đã xảy ra của một biến (X) ngẫu nhiên khác. Ví dụ, chúng ta có thể muốn biết xác suất để giá mua một căn nhà là 200.000 đô la, nếu cho trước diện tích sinh hoạt phải là 1.500 thước vuông Anh. Yêu cầu này sẽ dẫn chúng ta đến khái niệm xác suất có điều kiện, được định nghĩa trong trường hợp biến ngẫu nhiên dạng rời rạc như sau: P(X = x,Y = y) P(Y = y  X = x) = với P(X = x) ≠ 0 P(X = x) Ký hiệu “” có nghĩa là cho trước. Hàm mật độ xác suất có điều kiện (cho cả khi biến ngẫu nhiên là rời rạc và liên tục) được định nghĩa như sau: fXY (x,y) fYX(x, y) = với mọi giá trị của x sao cho fX(x) > 0 fX (x) Trong đó fXY(x, y) là hàm mật độ xác suất kết hợp của X và Y và fX(x) là hàm mật độ xác suất của riêng biến X, thường được đề cập đến như là hàm mật độ cận biên của biến X. Lưu ý rằng xác suất có điều kiện phụ thuộc vào cả giá trị x và y. Khi cả hai biến ngẫu nhiên này phụ thuộc thống kê lẫn nhau thì phân phối xác suất có điều kiện trở thành các phân phối cận biên tương ứng. Để hiểu được điều này, hãy lưu ý rằng sự độc lập thống kê ngầm định fXY(x, y) = fX(x) . fY(y). Rút ra từ kết luận này, chúng ta có: fYX (yx) = fXY(x, y)/fX(x) = fY(y) và fXY (xy) = fXY(x, y)/fY(y) = fX(x) } Bảng 2.4 Phân phối xác suất kết hợp đối với số lần xuất hiện các con số 3 (X) và số 5 (Y) khi một cặp súc sắc được thảy. Ramu Ramanathan 13 Thục Đoan/Hào Thi
  4. Chương trình Giảng dạy Kinh tế Fulbright Phương pháp phân tích Nhập môn kinh tế lượng với các ứng dụng Niên khóa 2003-2004 Bài đọc Chương 2: Ôn lại xác suất và thống kê X 0 1 2 Y 0 16/36 8/36 1/36 1 8/36 2/36 0 2 1/36 0 0 } VÍ DỤ 2.9 Bảng 2.4 trình bày các giá trị xác suất kết hợp của số lần xuất hiện của số 3 (X) và số 5 (Y) khi một cặp súc sắc được thảy. Chúng ta hãy tính kết quả thứ nhất của mật độ cận biên của biến X và Y. Vì X = 0 có thể xảy ra khi Y = 0 hoặc 1 hoặc 2, P(X = 0) có thể tính toán được bằng P(X = 0, Y = 0) + P(X = 0, Y = 1) + P(X = 0, Y = 2) = 16/36 + 8/36 + 1/36 = 25/36. Tính toán tương tự, chúng ta có P(X = 1) = 10/36 và P(X = 2) = 1/36. Lưu ý rằng tổng của ba giá trị xác suất trên là bằng 1, vì điều này là hiển nhiên. Phân phối cận biên của Y cũng được xác định theo trình tự tính toán tương tự. Bảng 2.5 trình bày các giá trị cận biên của X và Y ở các hàng và cột ngoài cùng tương ứng. Lưu ý rằng các giá trị này xuất hiện với các quy luật giống nhau. } Bảng 2.5 Phân Phối Cận Biên Đối Với Số Lần Xuất Hiện Các Con Số 3 (X) Và Số 5 (Y) Khi Một Cặp Súc Sắc Được Thảy. X 0 1 2 fY(y) Y 0 16/36 8/36 1/36 25/36 1 8/36 2/36 0 10/36 2 1/36 0 0 1/36 fX(x) 25/36 10/36 1/36 1 } Bảng 2.6 Phân Phối Có Điều Kiện Đối Với Số Lần Xuất Hiện Các Con Số 5 (Y) Cho Trước Số Lần Xuất Hiện Của Các Số 3 (X) Khi Một Cặp Súc Sắc Được Thảy. X 0 1 2 Y 0 0,64 0,32 0,04 1 0,80 0,20 0,00 2 1,00 0,00 0,00 Xác suất có điều kiện để Y = 0 với X = 0 cho trước được tính toán như sau: P(Y = 0X = 0) = P(X = 0, Y = 0)/ P(X = 0) = 16/36 ÷ 25/36 = 0,64 Ramu Ramanathan 14 Thục Đoan/Hào Thi
  5. Chương trình Giảng dạy Kinh tế Fulbright Phương pháp phân tích Nhập môn kinh tế lượng với các ứng dụng Niên khóa 2003-2004 Bài đọc Chương 2: Ôn lại xác suất và thống kê Tiến hành tương tự, chúng ta sẽ có được các giá trị phân phối có điều kiện của biến Y với X cho trước trình bày trong bảng 2.6. Giá Trị Kỳ Vọng Toán Học Trong Trường Hợp Hai Biến Khái niệm kỳ vọng toán học có thể mở rộng dễ dàng sang trường hợp các biến ngẫu nhiên gồm hai biến. Cho trước hàm g(X, Y) và hàm xác suất kết hợp f(x, y), giá trị kỳ vọng của g(X, Y) được xác định bằng cách nhân g(x, y) với f(x, y) và cộng tổng các giá trị có thể có của x và y. Chúng ta có các định nghĩa sau đây. ĐỊNH NGHĨA 2.3 (GIÁ TRỊ KỲ VỌNG) Giá trị kỳ vọng của g(X, Y) được xác định như sau: E[g(X, Y)] = ∑∑g(x,y)f(x,y) xy Trong đó phép tính tổng hai lần biểu diễn phép tính tổng trên tất cả các giá trị có thể có của x và y. (Vì vậy giá trị kỳ vọng sẽ bằng tổng có trọng số với giá trị xác suất kết hợp được dùng làm trọng số). Gọi µx là giá trị kỳ vọng của biến ngẫu nhiên X, và µy là giá trị kỳ vọng của biến ngẫu nhiên Y. Phương sai của chúng được xác định tương tự như trường hợp đơn biến: 2 2 2 2 σ x = E[(X − µ x ) ] và σ y = E[(Y − µ y ) ] (2.5) } BÀI TẬP THỰC HÀNH 2.5 Từ các giá trị xác suất kết hợp cho trong bảng 2.4, hãy tính trị trung bình µx = E(X), µy = 2 2 E(Y), và phương sai σ x , σ y . Hãy kiểm chứng rằng biến X và Y là không độc lập thống kê với nhau. Giá Trị Kỳ Vọng Có Điều Kiện và Phương Sai Có Điều Kiện Giá trị kỳ vọng của Y với X cho trước được gọi là giá trị kỳ vọng của Y với X cho trước. Một cách cụ thể hơn, đối với một cặp biến ngẫu nhiên rời rạc, thì E(YX =x) = ∑ y fYX(x,y). Hay nói cách khác, đó là giá trị trung bình của Y sử dụng giá trị mật độ Y=y có điều kiện của ∑ y fYX(x,y) như một trọng số. Giá trị kỳ vọng của Y với X cho trước Y=y Ramu Ramanathan 15 Thục Đoan/Hào Thi
  6. Chương trình Giảng dạy Kinh tế Fulbright Phương pháp phân tích Nhập môn kinh tế lượng với các ứng dụng Niên khóa 2003-2004 Bài đọc Chương 2: Ôn lại xác suất và thống kê còn được gọi là giá trị hồi quy của Y theo X. Từ bảng 2.6, chúng ta có thể thấy rằng E(YX = 0) = (0,64 × 0) + (0,32 × 1) + (0,04 × 2) = 0,32 + 0,08 = 0,4; E(YX = 1) = 0,2; và E(YX = 2) = 0. Trong mô hình hồi quy đơn giản được trình bày trong ví dụ 1.1, chúng ta có PRICE = α + β SQFT + u. Nếu E(uSQFT) = 0 thì E(PRICESQFT) = α + β SQFT. Vì vậy, phần xác định của mô hình là giá trị kỳ vọng có điều kiện của biến PRICE với SQFT cho trước, khi E(uSQFT) = 0. Khái niệm giá trị kỳ vọng có điều kiện đã trình ở trên có thể mở rộng dễ dàng để tính toán phương sai có điều kiện, được xác định như sau. Gọi µ*(X) là giá trị kỳ vọng có điều kiện của Y cho trước X, được ký hiệu là E(YX). Phương sai có điều kiện của Y 2 với X cho trước được định nghĩa như sau Var(YX) = EYX [(Y – µ* ) | X ]. Nói cách khác, cố định giá trị của biến X và tính toán giá trị trung bình có điều kiện của Y với X cho trước, và sau đó tính toán phương sai xung quanh giá trị trung bình này với trọng số là mật độ có điều kiện fYX(x,y). Một số tính chất của giá trị kỳ vọng có điều kiện sử dụng trong môn học kinh tế lượng được tóm tắt sau đây. Để hiểu rõ thêm về phần chứng minh, xin tham khảo tác giả Ramanathan (1993, phần 5.2). Tính chất 2.4 Đối với mọi hàm u(x) thì ta luôn có E[u(x)X] = u(x). Tính chất này ngầm định rằng khi tiến đến giá trị kỳ vọng có điều kiện cho trước X thì hàm u(X) tiến đến giá trị hằng số. Do đó, một trường hợp đặc biệt được suy ra là nếu c là hằng số thì E(cX) = c. Tính chất 2.5 E([a(x) + b(X)Y]X) = a(X) + b(X) E(YX) Tính chất 2.6 EXY(Y) = EX [EYX (YX)]. Tính chất này có nghĩa là giá trị kỳ vọng không điều kiện của Y, sử dụng mật độ chung giữa X và Y, có thể tính toán được bằng cách tính trước tiên giá trị kỳ vọng có điều kiện của Y với X cho trước (là biểu thức trong dấu ngoặc vuông), sau đó tính giá trị kỳ vọng của chúng theo X. Tính chất này được gọi là luật của các giá trị kỳ vọng lặp (law of iterated expectations). Tính chất 2.7 Var(Y) = EX[Var(YX)] + VarX[E(YX)]. Nói cách khác, giá trị phương sai của Y sử dụng hàm mật độ kết hợp fXY(x, y) tính toán được sẽ tương đương với giá trị kỳ vọng của phương sai có điều kiện của biến Y cộng với phương sai của giá trị kỳ vọng có điều kiện của biến Y với X cho trước. Đồng phương sai và tương quan Khi gặp phải hai biến ngẫu nhiên, một trong những vấn đề thường thu hút sự quan tâm là mối quan hệ giữa hai biến này như thế nào? Khái niệm đồng phương sai và tương quan là hai cách để đo lường mức độ quan hệ “chặt” giữa hai biến ngẫu nhiên đó. Ramu Ramanathan 16 Thục Đoan/Hào Thi
  7. Chương trình Giảng dạy Kinh tế Fulbright Phương pháp phân tích Nhập môn kinh tế lượng với các ứng dụng Niên khóa 2003-2004 Bài đọc Chương 2: Ôn lại xác suất và thống kê Hãy xem xét hàm g(X, Y) = (X – µX)(Y – µY). Giá trị kỳ vọng của hàm số này được gọi là đồng phương sai giữa X và Y và được ký hiệu là σXY hay Cov(X, Y). ĐỊNH NGHĨA 2.4 (ĐỒNG PHƯƠNG SAI) Giá trị đồng phương sai giữa X và Y được xác định như sau σxy = Cov(X, Y) = E[(X – µx)(Y – µy)] = E[XY – Xµy – µxY + µxµy] (2.6) = E(XY) – µyE(X) – µxE(Y) + µxµy = E(XY) – µxµy Dễ dàng suy ra từ kết luận trên rằng Cov(X,X) = Var(X) Các định nghĩa về phương sai và đồng phương sai đều đúng trong cả hai trường hợp phân phối có dạng rời rạc và liên tục. Vì phương sai chỉ là một đại lượng đo lường mức độ phân tán của biến ngẫu nhiên xung quanh giá trị trung bình, nên đồng phương sai giữa hai biến ngẫu nhiên sẽ là đại lượng đo lường mức độ liên kết chung giữa chúng. Giả sử rằng hai biến ngẫu nhiên rời rạc X và Y quan hệ đồng hướng với nhau, và do đó khi giá trị Y tăng thì giá trị X cũng tăng theo như biểu diễn trên hình 2.6. Các vòng tròn nhỏ biểu thị các cặp giá trị của X và Y tương ứng với các kết quả khả dĩ giới hạn. Đường gạch chấm biểu diễn giá trị trung bình µx và µy. Bằng cách chuyển trục toạ độ đến đường gạch chấm này với gốc toạ độ là (µx, µy), chúng ta có thể thấy rằng Xi – µx và Yi – µy là độ dài tính từ gốc toạ độ mới, đối với một kết quả nào đó được ký hiệu bằng hậu tố i . Từ hình vẽ, có thể chứng minh rằng các điểm nằm trong phần tư thứ nhất và thứ ba sẽ làm cho tích (Xi – µx)(Yi – µy) luôn có giá trị dương, vì từng số hạng trong biểu thức sẽ cùng dương hoặc cùng âm. Khi chúng ta tính toán đại lượng đồng phương sai là tổng có trọng số các tích biểu thức trên, kết quả cuối cùng có khuynh hướng nhận giá trị dương vì có nhiều số hạng dương hơn các số hạng âm. Vì vậy, giá trị đồng phương sai có khuynh hướng dấu dương. Trong trường hợp cả hai biến X và Y di chuyển theo hướng ngược lại, giá trị Cov(X, Y) sẽ có dấu âm. Mặc dù đại lượng đồng phương sai rất có ích trong việc xác định tính chất của mối liên kết giữa X và Y nhưng nó tồn tại một vấn đề khá nghiêm trọng là các giá trị tính bằng số rất nhạy đối với giá trị đơn vị dùng để đo biến X và Y. Nếu X là một loại biến tài chính tính bằng đô-la hơn là tính bằng đơn vị ngàn đô-la, đại lượng đồng phương sai sẽ dốc đứng do ảnh hưởng của hệ số 1.000. Để tránh vấn đề này, người ta sẽ sử dụng đại lượng đồng phương sai “được chuẩn hóa”. Đại lượng này còn được gọi là hệ số tương quan giữa biến X và Y và được ký hiệu là ρxy. ĐỊNH NGHĨA 2.5 (HỆ SỐ TƯƠNG QUAN) Ramu Ramanathan 17 Thục Đoan/Hào Thi
  8. Chương trình Giảng dạy Kinh tế Fulbright Phương pháp phân tích Nhập môn kinh tế lượng với các ứng dụng Niên khóa 2003-2004 Bài đọc Chương 2: Ôn lại xác suất và thống kê Hệ số tương quan giữa biến X và Y được định nghĩa như sau: σ xy Cov(X,Y) ρxy = = 1/ 2 (2.7) σ x σ y [Var(X)Var(Y)] Nếu biến X và Y có quan hệ dương thì hệ số tương quan sẽ có dấu dương. Nếu biến X và y có quan hệ âm thì chúng sẽ di chuyển theo hướng ngược lại. Trong trường hợp này, giá trị đồng phương sai và hệ số tương quan đều có dấu âm. Hệ số tương quan hoàn toàn có thể bằng zero. Trong trường hợp này, chúng ta có thể kết luận rằng biến x và y 2 không có tương quan. Người ta có thể viết rằng ρ xy ≤ 1 hay tương đương với ρxy ≤ 1. Giá trị ρxysẽ bằng 1 khi và chỉ khi có một mối quan hệ tuyến tính chính xác giữa X và Y theo biểu thức Y – µy = β( X – µx). Nếu ρxy = 1 thì quan hệ giữa X và Y được gọi là tương quan hoàn hảo. Nêu lưu ý rằng mối tương quan hoàn hảo chỉ xảy ra khi giữa X và Y có mối quan hệ tuyến tính một cách chính xác. Ví dụ, Y có thể xuất hiện trong biểu thức dạng Y = X2, rõ ràng là có biểu hiện mối quan hệ nhưng hệ số tương quan giữa X và Y sẽ không thể bằng 1. Vì vậy, hệ số tương quan sẽ đo lường phạm vi của mối liên kết tuyến tính giữa hai biến. Nếu biến X và Y là hai biến độc lập thì fXY(x, y) = fX(x) . fY(y), có nghĩa là xác suất kết hợp chính là tích của các xác suất riêng lẻ. Trong trường hợp này, nên lưu ý từ định nghĩa của σxy, chúng ta có σ xy = ∑∑(x − µ x )(y − µ y )fx (x)fy (y) xy Vì biến x và y bây giờ có thể tách rời nhau nên chúng ta có    σ xy = ∑(x − µ x )fx (x)∑(y − µ y )fy (y)  x  y  = E(X − µ x )E(Y − µ y ) Nhưng do E(X – µx) = E(X) – µx = 0 (xin xem tính chất 2.1a), nên σxy = 0 và ρxy = 0 nếu hai biến ngẫu nhiên này là độc lập. Hay nói cách khác, nếu biến X và Y là hai biến độc lập thì chúng sẽ không tương quan nhau. Kết luận ngược lại có thể không còn chính xác (nghĩa là mối tương quan zero sẽ không ngầm định tính chất độc lập), và có thể kiểm chứng thông qua các ví dụ sau. Đặt fXY(x, y) tương tự như trong bảng 2.7. Ramu Ramanathan 18 Thục Đoan/Hào Thi
  9. Chương trình Giảng dạy Kinh tế Fulbright Phương pháp phân tích Nhập môn kinh tế lượng với các ứng dụng Niên khóa 2003-2004 Bài đọc Chương 2: Ôn lại xác suất và thống kê Cov(X, Y) = E(XY) – E(X) E(Y) E(X) = (1 × 0,4) + (2 × 0,2) + (3 × 0,4) = 2 E(Y) = (6 × 0,4) + (8 × 0,2) + (10 × 0,4) = 8 E(XY) = (6 × 1 × 0,2) + (6 × 3 × 0,2) + (8 × 2 × 0,2) + (10 × 1 × 0,2) + (10 × 3 × 0,2) = 16 Vì vậy, Cov(X, Y) = 0. Nhưng biến X và Y là không độc lập vì P(X = 2, Y = 6) = 0, P(X = 2) = 0,2, và P(Y = 6) = 0,4. Do đó, xác suất kết hợp sẽ không thể bằng tích của các xác suất riêng lẻ. } BÀI TẬP THỰC HÀNH 2.6 Sử dụng các biến X và Y với xác suất kết hợp cho trong bảng 2.4, hãy tính giá trị Cov(X, Y) và ρxy (lưu ý rằng bạn đã tính giá trị trung bình và phương sai trong bài tập 2.5) + } BÀI TẬP THỰC HÀNH 2.7 Giả sử biến ngẫu nhiên X chỉ có thể nhận các giá trị 1, 2, 3, 4, và 5, mỗi giá trị ứng với xác suất bằng nhau và bằng 0,2. Cho Y = X2. Hãy tính hệ số tương quan giữa X và Y và chứng minh rằng hệ số này không bằng 1, cho dù giữa biến X và Y có mối quan hệ chính xác. } Bảng 2.7 Ví Dụ Cho Thấy Đồng Phương Sai Bằng Không Không Nhất Thiết Phải Là Độc Lập Y 6 8 10 FX(x) X 1 0,2 0 0,2 0,4 2 0 0,2 0 0,2 3 0,2 0 0,2 0,4 FY(y) 0,4 0,2 0,4 1 Tính chất 2.8 liệt kê một số tính chất liên quan đến hai biến ngẫu nhiên. Tính chất 2.8 a. Nếu a và b là hằng số thì Var(aX + bY) = a2Var(X) + b2Var(Y) + 2abCov(X,Y). Một trường hợp đặc biệt của tính chất này là Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y). Tương tự, Var(X – Y) = Var(X) + Var(Y) – 2Cov(X, Y). b. Hệ số tương quan ρxy nằm trong khoảng – 1 đến + 1. Ramu Ramanathan 19 Thục Đoan/Hào Thi