Dữ liệu Các nhà khoa học thường lặp lại câu thần chú “Tương quan không phải là nhân quả”. Đó là một điều tốt để nhắc nhở các bên liên quan của chúng ta – và chính chúng ta – liên tục vì dữ liệu có thể nguy hiểm và vì trí óc con người không thể không giải thích bằng chứng thống kê một cách nhân quả. Nhưng có lẽ đây là một đặc điểm chứ không phải lỗi: chúng ta tìm kiếm cách giải thích nhân quả theo bản năng vì cuối cùng đó là điều chúng ta cần để đưa ra quyết định chính xác. Nếu không có những câu chuyện nhân quả đằng sau chúng, các mối tương quan không đặc biệt hữu ích cho những người ra quyết định.
Nhưng cuối cùng, tất cả những gì chúng ta có thể đọc ra từ dữ liệu là các mối tương quan và rất khó để đảm bảo rằng câu chuyện nhân quả mà chúng ta đang gắn với những mối tương quan này thực sự là sự thật. Và có một số cách chúng ta có thể hiểu sai câu chuyện nhân quả. Sai lầm phổ biến nhất là không giải trình được các nguyên nhân phổ biến hoặc các yếu tố gây nhiễu. Sử dụng ví dụ điển hình, có mối tương quan thuận giữa nhập viện và tử vong. Nói cách khác, những người nhập viện có nguy cơ tử vong cao hơn những người không nhập viện. Nếu chúng ta bỏ qua sự thật rằng việc ốm đau có thể khiến cả người nhập viện và tử vong, chúng ta có thể kết thúc với một câu chuyện nhân quả sai lầm: bệnh viện giết người.
Cạm bẫy phổ biến khác phát sinh khi chúng ta đưa bài học từ những yếu tố gây nhiễu đi quá xa và tính đến các tác động hoặc va chạm thông thường. Ví dụ ở đây được phỏng theo mô tả Nghịch lý Berkson trong Sách Tại sao của Pearl và Mackenzie . Giả sử rằng chúng ta đang cố gắng xem liệu nhiễm trùng COVID-19 có thể gây ra bệnh tiểu đường hay không. Giả sử, trong thực tế, không có mối liên hệ nhân quả nào như vậy nhưng một bệnh nhân đái tháo đường có nhiều khả năng phải nhập viện nếu họ bị nhiễm vi rút. Bây giờ, với lòng nhiệt thành của chúng tôi trong việc tìm kiếm bất kỳ yếu tố gây nhiễu tiềm ẩn nào, chúng tôi quyết định giới hạn nghiên cứu của mình chỉ cho những người nằm viện. Điều này có thể khiến chúng ta quan sát thấy mối tương quan giữa COVID-19 và bệnh tiểu đường ngay cả khi không có bất kỳ mối liên hệ nhân quả trực tiếp nào. Và nếu chúng ta thậm chí ít cẩn thận hơn, chúng ta có thể xoay quanh vấn đề COVID gây ra bệnh tiểu đường như thế nào.
Nếu chúng ta chỉ nhìn vào dân số nhập viện, chúng ta có thể quan sát thấy mối tương quan giữa COVID-19 và bệnh tiểu đường ngay cả khi không có bất kỳ mối liên hệ nhân quả trực tiếp nào và suy luận không chính xác rằng COVID-19 gây ra bệnh tiểu đường.
Một cách khác mà các câu chuyện nhân quả trở nên sai lầm là khi chúng ta tính đến những người hòa giải. Tiếp tục với chủ đề bệnh tật của bài đăng trên blog này cho đến nay, giả sử chúng tôi đang nghiên cứu xem hút thuốc có thực sự gây chết sớm hay không. Nếu chúng ta tính toán / điều chỉnh / kiểm soát tất cả các cách (ung thư phổi, bệnh tim) hút thuốc có thể dẫn đến tử vong, thì chúng ta có thể thấy rất ít hoặc không có mối tương quan giữa hút thuốc và tử vong mặc dù hút thuốc trên thực tế làm tăng tỷ lệ tử vong.
“Vậy, điều này có gì khó khăn vậy !?” Bạn có thể nói. “Chỉ cần điều chỉnh những yếu tố gây nhiễu và loại bỏ những người va chạm và người hòa giải!” Suy luận nhân quả là khó bởi vì, trước tiên, chúng ta rất có thể không bao giờ có dữ liệu cho tất cả các yếu tố gây nhiễu có thể có. Và thứ hai, thường khó phân biệt giữa người va chạm, người hòa giải và người gây nhiễu. Và đôi khi quan hệ nhân quả chạy theo cả hai hướng và hầu như không thể phân tích các tác động hai chiều này.
Ví dụ về Roblox
Vì vậy, làm thế nào để chúng ta vượt qua những thách thức thực sự này? Giải pháp đáng tin cậy hơn, đặc biệt là trong lĩnh vực công nghệ, là thử nghiệm hoặc thử nghiệm A / B. Tuy nhiên, điều này không phải lúc nào cũng khả thi. Đến đây chắc hẳn bạn đã có đủ các ví dụ bệnh hoạn, vì vậy hãy sử dụng một ví dụ thú vị. Trên Roblox, người dùng của chúng tôi thể hiện bản sắc và sự sáng tạo của họ thông qua Hình đại diện của họ, bằng cách trang bị cho mình những vật phẩm khác nhau mà họ có thể mua được trên Cửa hàng Avatar.
Như bạn có thể tưởng tượng, việc duy trì sức khỏe của tính năng này là rất quan trọng đối với chúng tôi. Để tìm ra bao nhiêu nguồn lực mà chúng tôi đầu tư vào thị trường này, chúng tôi muốn biết nó cuối cùng đóng góp bao nhiêu cho các mục tiêu của công ty chúng tôi. Cụ thể hơn, chúng tôi muốn ước tính tác động của Avatar Shop đối với sự tham gia của cộng đồng. Thật không may, một thử nghiệm trực tiếp là không khả thi.
Chúng tôi không thể chỉ tắt Avatar Shop cho một phần dân số người dùng của chúng tôi vì nó là một phần thực sự quan trọng trong trải nghiệm người dùng trên nền tảng của chúng tôi.
Avatar Shop là một thị trường nơi người dùng tương tác với nhau với tư cách là người mua và người bán. Việc tắt tính năng này cho một nhóm người dùng cũng ảnh hưởng đến những người dùng chưa tắt tính năng này.
Trong khi đó, ước tính mối quan hệ nhân quả này bằng cách sử dụng dữ liệu phi thực nghiệm là một con đường nguy hiểm vì (i) chúng tôi đã xác định được một số yếu tố gây nhiễu không thể điều chỉnh rõ ràng hoặc không thể quan sát được và bởi vì (ii) chúng tôi nhận thấy rằng các chuyển động trong các chỉ số hàng đầu của chúng tôi cũng có tác động ngược lại đến việc tương tác với Shop.
Đây không phải là một vấn đề hiếm gặp và có một số phương pháp thống kê có thể hữu ích. Ví dụ: ước tính Sự khác biệt-trong-khác biệt hoặc Hiệu ứng cố định hai chiều (TWFE) sẽ theo dõi một nhóm người dùng theo thời gian và xem số giờ tham gia của họ thay đổi như thế nào sau khi tương tác với Avatar Shop. Một kỹ thuật phổ biến khác là Đối sánh điểm theo xu hướng (PSM), cố gắng so khớp những người dùng sử dụng Cửa hàng Avatar với những người không dựa trên các yếu tố khác nhau. Những phương pháp này có những lợi thế và thách thức riêng, nhưng thường mắc phải cùng một sai sót nghiêm trọng ngay cả khi được triển khai đúng cách: các yếu tố không được quan sát có thể ảnh hưởng đến cả mức độ tương tác với Avatar Shop và số giờ tham gia, tức là các yếu tố gây nhiễu. (Lưu ý bên: Sự khác biệt-trong-Sự khác biệt được mong đợi sẽ mạnh mẽ chống lại các yếu tố gây nhiễu cố định,
Các biến công cụ để giải cứu
Biến công cụ có thể cung cấp giải pháp cho các yếu tố gây nhiễu không được quan sát mà các kỹ thuật suy luận nhân quả khác không thể. Ở đây nhấn mạnh vào “có thể”, bởi vì phần khó nhất là tìm ra biến đặc biệt thỏa mãn hai điều kiện chính để ước lượng IV hợp lệ:
Giai đoạn đầu tiên: Nó cần được kết hợp chặt chẽ với biến số quan tâm (trong trường hợp của chúng tôi là tương tác với Avatar Shop).
Loại trừ: Mối liên hệ duy nhất của nó với kết quả (số giờ tương tác) là thông qua biến số quan tâm (tương tác với Avatar Shop).
Nếu chúng ta có thể xác định một công cụ như vậy, thì ước tính nhân quả của chúng ta bằng cách sử dụng dữ liệu phi thực nghiệm sẽ trở nên đơn giản hơn rất nhiều: bất kỳ biến thể nào trong kết quả (Y) tương quan với biến thể của biến quan tâm (X) được giải thích bởi công cụ (Z) là a tác động nhân quả của X đối với Y. Xem sơ đồ để biết ví dụ đơn giản về ý tưởng cơ bản đằng sau các biến công cụ.
Sơ đồ trên cũng chỉ ra mức độ quan trọng của hai điều kiện. Đầu tiên, công cụ phải dự đoán mạnh mẽ chuyển động từ X1 đến X2. Và thứ hai, chúng ta đang có một niềm tin ở đây rằng chuyển động từ Y2 sang Y1 hoàn toàn là do chuyển động X1 đến X2. Nếu Z có cách ảnh hưởng đến Y khác với X, thì chúng ta sẽ quy tất cả chuyển động trong Y cho X. không chính xác.
Như bạn có thể nói, điều kiện thứ hai là nơi mà các ước tính IV thường thất bại nhất vì nó là một yêu cầu khá mạnh mẽ để thực hiện trong một hệ thống phức tạp. Vậy, chính xác thì dụng cụ trong trường hợp của chúng ta là gì và tại sao chúng ta lại tự tin rằng nó thỏa mãn điều kiện thứ hai?
Dụng cụ của chúng tôi
Khoảng một năm trước, chúng tôi đã chạy thử nghiệm A / B để đánh giá tính năng ‘Được đề xuất cho bạn’ mới của chúng tôi cho Avatar Shop. Chúng tôi đã quan sát thấy tác động rất lớn đến mức độ tương tác của Avatar Shop. Nói cách khác, người dùng thuộc nhóm thử nghiệm nào đã dự đoán chính xác mức độ tương tác của họ với cửa hàng Avatar ( Giai đoạn đầu ). Chúng tôi cũng quan sát thấy tác động trong số giờ tham gia. Và bởi vì thử nghiệm này được thiết kế đặc biệt để đánh giá sự thay đổi trong Cửa hàng Avatar và không liên quan đến bất kỳ điều gì khác trên Roblox, chúng tôi có lý do chính đáng để tin rằng bất kỳ thay đổi nào trong số giờ đã tham gia chắc chắn chỉ là do những thay đổi trong mức độ tương tác của Cửa hàng ( Loại trừ ) .
Có một công cụ tốt có nghĩa là chúng tôi có thể ước tính mối liên hệ nhân quả từ mức độ tương tác của Avatar Shop đến số giờ tương tác mà không cần phải tắt Avatar Shop đối với một số người dùng của chúng tôi, như một thử nghiệm A / B trực tiếp.
Kết quả
Sử dụng ước lượng IV như đã trình bày ở trên, chúng tôi tìm thấy mối quan hệ nhân quả tích cực và có ý nghĩa thống kê giữa hai biến của chúng tôi. Cụ thể, tăng 1% trong Tương tác với Avatar Shop dẫn đến thời gian trải nghiệm tăng 0,08% (SE: 0,008%, p-value <0,000). Tìm hiểu sâu hơn một chút bằng cách chạy cùng một phân tích về những người dùng được phân đoạn theo thời gian họ đã sử dụng Roblox, chúng tôi nhận thấy một điều thú vị: những ước tính tác động này không đồng nhất. Đặc biệt, chúng tôi nhận thấy rằng mức độ tương tác của Shop có tác động mạnh hơn nhiều đến thời gian trải nghiệm đối với người dùng hoàn toàn mới (đã đăng ký cách đây chưa đầy một tuần).
Đây là thông tin chi tiết thực sự hữu ích có thể giúp chúng tôi thiết kế trải nghiệm tích hợp cho những người dùng mới nhất của mình. Đây cũng là cơ hội tốt để thảo luận về một hạn chế quan trọng của IVs: họ ước tính Hiệu quả Điều trị Trung bình Cục bộ (LATE)chứ không phải Hiệu ứng Điều trị Trung bình (ATE) như một thử nghiệm trực tiếp. Nghĩa là, những ước tính này dành riêng cho những người dùng có hành vi bị tác động bởi công cụ của chúng tôi và do đó có thể không nhất thiết phải khái quát cho toàn bộ dân số. Và sự phân biệt này có liên quan bất cứ khi nào chúng ta nghĩ rằng các hiệu quả điều trị không đồng nhất, như chúng ta thấy ở trên. Trong thực tế, luôn an toàn khi cho rằng hiệu quả điều trị là không đồng nhất và do đó các ước tính IV, ngay cả khi chúng có giá trị nội bộ, không phải là sự thay thế hoàn hảo cho các thí nghiệm. Nhưng đôi khi chúng có thể là tất cả những gì chúng ta có thể làm.
Bước tiếp theo
Một cách giải độc cho vấn đề LATE của IV thực sự là tìm thêm các công cụ và ước tính một loạt các LATE. Và mục tiêu là có thể xây dựng ước tính hiệu quả điều trị trung bình toàn cầu bằng cách kết hợp một loạt các ước tính hiệu quả cục bộ. Đó chính xác là những gì chúng tôi dự định làm tiếp theo và chúng tôi có thể làm được vì chúng tôi thực hiện một loạt các thử nghiệm ở các mặt khác nhau của cửa hàng Avatar. Mỗi cái phải đóng vai trò như một công cụ hợp lệ cho các mục đích của chúng tôi. Như bạn có thể tưởng tượng, có rất nhiều vấn đề phân tích thú vị và đầy thách thức cần được giải quyết. Và nếu đó là tách trà của bạn, chúng tôi rất muốn bạn tham gia nhóm Phân tích và Khoa học Dữ liệu của Roblox.
Suy nghĩ cuối cùng về các biến công cụ
Chúng tôi hy vọng ghi chú tình yêu này và phần giới thiệu về Biến số công cụ thể hiện sức mạnh của nó và khơi dậy sự quan tâm của bạn. Mặc dù phương pháp ước tính nhân quả này có thể đã được sử dụng quá mức trong một số trường hợp nhất định , nhưng chúng tôi cho rằng nó được sử dụng quá mức trong công nghệ, nơi các giả định của nó có nhiều khả năng được giữ vững, đặc biệt là khi công cụ đến từ một thử nghiệm. Tin tốt hơn nữa là bởi vì nó đã xuất hiện từ những năm 1920 !, có một tài liệu phong phú với các cuộc thảo luận sôi nổi tích cực về cách thực hiện và giải thích đúng đắn của nó.
Ujwal Kharel là Nhà khoa học dữ liệu cấp cao tại Roblox. Anh ấy làm việc trên Cửa hàng Avatar để đảm bảo nền kinh tế của nó khỏe mạnh và phát triển.
Cả Roblox Corporation và blog này đều không xác nhận hoặc hỗ trợ bất kỳ công ty hoặc dịch vụ nào. Ngoài ra, không có đảm bảo hoặc hứa hẹn nào được đưa ra về tính chính xác, độ tin cậy hoặc tính đầy đủ của thông tin có trong blog này.
Bình luận về post