به کوشش بی ریل
اولین چیزی که وقتی برای اولین بار با استنتاج علی آشنا می شویم، ما را گیج می کند این است که برخلاف یادگیری ماشینی، «حقیقت بزرگ” بدیهی نیست در یک پروژه یادگیری نظارت شده، هنگام انتخاب مدل برتر، میتوانیم «مدل خوب» را بر اساس رویههای مناسب مانند اعتبارسنجی متقابل انتخاب کنیم. با این حال، در مورد استنتاج علی، مشاهده “ATE واقعی (ATT) به ندرت اتفاق می افتد که انتخاب مدل را بسیار سخت می کند.
این وبلاگ یک مطالعه موردی را ارائه میکند که در آن میتوان یک ATT واقعی را مشاهده کرد و چندین مدل را با فرض نادیدهانگاری قوی آزمایش کرد.
In case this blog may mislead some of you, let me explain first. The superiority of the models presented below is only valid for this dataset. The attitude of expecting a universal causal inference model is undesirable, and for each case, the Identification Strategy should be examined and the model that best fits the case should be selected.
Rather, the main readers of this blog should be those who unjustifiably disregard simple multiple regression and assume that using trendy models (e.g., propensity scores) is a safe bet.
تظاهرات کار حمایت شده ملی (NSW) : علاقه این آزمایش این است که آیا “آموزش حرفه ای” (مشاوره و تجربه کاری کوتاه مدت) بر درآمدهای بعدی تأثیر می گذارد یا خیر. در مجموعه داده، متغیر درمان، آموزش حرفه ای، با نشان داده می شود درمان شود، و متغیر نتیجه، درآمد در سال 1978، با نشان داده می شود re78.
داده ها را می توان در وب سایت زیر دانلود کرد: https://users.nber.org/~rdehejia/data/
آمار اولیه به شرح زیر است. این آزمایش به صورت RCT انجام شد، اما جدول زیر نشان میدهد که متغیرهای کمکی کاملاً متعادل نیستند.
برای اطمینان از مقدار تنظیم شده توسط رگرسیون چندگانه استفاده خواهیم کرد. در این وبلاگ، اثر علی «واقعی» است 1676.3426 .
یک مجموعه داده اعتبار سنجی با حذف داده ها از گروه کنترل NSW و در عوض در نظر گرفتن ایجاد می شود داده های غیر تجربی (CPS: Current Population Survey) به عنوان گروه کنترل. (به 安井 (2020) مراجعه کنید[1] برای جزئیات بیشتر در مورد این دستکاری.)
این می تواند یک سوگیری انتخاب مصنوعی ایجاد کند. و در عین حال، ذکر این نکته ضروری است که حتی در این مجموعه داده، گروه مداخله ثابت است، بنابراین میانگین اثر درمان روی درمان شده (ATT) 1676.3426 است.
به جز Doubly Robust DID، اینها بدون استفاده از بسته خوبی مانند EconML تأیید شدند. دلایل به شرح زیر است:
4.- 1 رگرسیون چندگانه
اخیراً روشهای مبتنی بر امتیاز گرایش رایج شدهاند و برخی افراد تصور میکنند که استنتاج علی با مدلهای رگرسیون چندگانه قابل انجام نیست.
این یکی دیگر از روش های شناخته شده است. از آنجایی که ما ATT را در این مورد تخمین می زنیم، کمی با IPW عمومی متفاوت است. وزن ATT را می توان به صورت زیر تعریف کرد. فقط گروه کنترل با نمره گرایش وزن می شود.
برای فراآموزان، راهنمای کاربر EconML[2] به راحتی قابل درک است برای اطلاعات بیشتر در مورد خواص تخمینگرها (به عنوان مثال، نظریه مجانبی)، به Wager, S., & Athey, S. (2018) مراجعه کنید.[3].
برخی از کدهای پایتون برای این مدل ها به شرح زیر است:
از آنجایی که روش های مبتنی بر DID را نیز می توان بر روی این داده ها آزمایش کرد، ما دو مدل را برای مرجع بررسی می کنیم. مفروضات اصلی DID در اینجا به شرح زیر است:
فقط برای این مدل، پکیج R DRDID[6] همانطور که هست استفاده شد لطفاً توجه داشته باشید که این مقایسه منصفانه ای نیست زیرا ما از مدل پیش فرض بدون هیچ تغییری استفاده کردیم.
Python users who use Jupyter notebook can also use the magic command %%R as shown below to seamlessly use R. IO processing between Python and R is also easy, so try it if you are interested.
جزئیات بیشتر در مورد این مدل در ارائه شده است مقاله قبلی.
فراپارامترهای پیشفرض LGBM برای DML، Meta Leaner و DMLDID استفاده میشود. DRDID از پیش فرض های بسته R استفاده می کند.
دفترچه من اینجاست:
با توجه به خطای استاندارد، مشخص است که DML در این مورد مناسب نبوده است. این ممکن است به دلیل کاهش حجم داده ناشی از برازش متقاطع، «کم تناسب» مدلهای ML در DML باشد.
در این آزمایش، استراتژی شناسایی تقریباً یکسان است (رویکرد تعدیل شده با متغیرهای کمکی برای استقلال یا روند موازی).
تنها تفاوت این است که “روش برآورد“.
مهمترین چیز در عمل، توافق بر سر استراتژی شناسایی است که باید با ذینفعان در میان گذاشته شود و از دانش حوزه استفاده کامل شود.
از سوی دیگر، انتخاب روش تخمین به خودی خود باید با انعطاف پذیری بسته به ویژگی های داده ها تصمیم گیری شود.
در مورد حاضر، یک رویکرد غیر خطی مبتنی بر ML ثابت شد که بیش از حد است.
البته، اگر انتظار میرود دادههای دادهشده دارای ویژگیهای ابعادی بالا یا توابع غیرخطی برای درمان یا نتایج باشد، رویکرد مبتنی بر ML احتمالاً دارای نقاط قوت است.
در این مورد، ما خوش شانس هستیم که نتایج یک RCT را داریم. با این حال، در اغلب موارد، نمی توان علت واقعی را تعیین کرد. بهتر است چندین روش تخمین را امتحان کنید و اگر تفاوتی بین آنها وجود دارد، بهتر است نگرش عمیق تری در علل وجود داشته باشد.
※ کد پایتون برای این مقاله در این مخزن ذخیره می شود. https://github.com/MasaAsami/D2ML
NSW (مجموعه داده Lalonde) دارای 722 واحد تیمار و کنترل تجربی است. CPS دارای 15992 واحد کنترل غیر تجربی است
treat
: نشانگر متغیر درمان شده
age
: سن
education
: سالهای تحصیل
black
: متغیر نشانگر مسابقه
married
: متغیر شاخص وضعیت تأهل
nodegree
: متغیر شاخص عدم داشتن مدرک
hispanic
: متغیر شاخص قومی
re74
: درآمد واقعی در سال 1974
re75
: درآمد واقعی در سال 1975
re78
: درآمد واقعی در سال 1978 (نتیجه پس از درمان)
Lalonde, R. (1986) ارزیابی اقتصادسنجی برنامه های آموزشی، بررسی اقتصادی آمریکا، 76، 604-620.
مطالب بیشتر در PlainEnglish.io. برای ما ثبت نام کنید خبرنامه هفتگی رایگان. ما را دنبال در توییتر و لینکدین. ما را بررسی کنید اختلاف جامعه و به ما بپیوندید مجموعه استعدادها.