يوضح نموذج التعليمة البرمجية في علامة التبويب "التعليمات البرمجية الكاملة" كيفية حساب المتوسط المتحرك للمتغير من خلال مجموعة بيانات كاملة، على الملاحظات N الماضية في مجموعة بيانات، أو على الملاحظات N الماضية ضمن مجموعة بي. يتم توفير هذه الملفات عينة وأمثلة التعليمات البرمجية من قبل شركة ساس معهد كما هو دون أي ضمان من أي نوع، سواء صريحة أو ضمنية، بما في ذلك سبيل المثال لا الحصر الضمانات الضمنية من القابلية للتسويق واللياقة لغرض معين. يقر المستلمون ويوافقون على أن معهد ساس لن يكون مسؤولا عن أي أضرار من أي نوع تنشأ عن استخدامها لهذه المواد. وبالإضافة إلى ذلك، سوف معهد ساس تقديم أي دعم للمواد الواردة في هذه الوثيقة. يتم توفير هذه الملفات عينة وأمثلة التعليمات البرمجية من قبل شركة ساس معهد كما هو دون أي ضمان من أي نوع، سواء صريحة أو ضمنية، بما في ذلك سبيل المثال لا الحصر الضمانات الضمنية من القابلية للتسويق واللياقة لغرض معين. يقر المستلمون ويوافقون على أن معهد ساس لن يكون مسؤولا عن أي أضرار من أي نوع تنشأ عن استخدامها لهذه المواد. وبالإضافة إلى ذلك، سوف معهد ساس تقديم أي دعم للمواد الواردة في هذه الوثيقة. حساب المتوسط المتحرك لمتغير من خلال مجموعة بيانات كاملة، على ملاحظات N الماضية في مجموعة بيانات، أو على الملاحظات N الماضية ضمن مجموعة بي. عمليات الانتحال المتوسط الخطأ الخطأ (أخطاء أرما) والنماذج الأخرى التي تنطوي على يمكن تقدير فترات التأخير في عبارات الخطأ باستخدام بيانات فيت والمحاكاة أو التنبؤ باستخدام عبارات سولف. وغالبا ما تستخدم نماذج أرما لعملية الخطأ للنماذج ذات المخلفات ذات الصلة. يمكن استخدام الماكرو أر لتحديد نماذج مع عمليات خطأ الانحدار الذاتي. يمكن استخدام ماكرو ما لتحديد النماذج مع عمليات الخطأ المتوسط المتوسط. أخطاء الانحدار الذاتي نموذج يحتوي على أخطاء الانحدار الذاتي من الدرجة الأولى، أر (1)، لديه النموذج أثناء عملية خطأ أر (2) يحتوي على النموذج وهكذا دواليك لعمليات أعلى ترتيب. لاحظ أن s مستقلة وموزعة بشكل متطابق ولها قيمة متوقعة من 0. مثال على نموذج مع عنصر أر (2) هو وهكذا دواليك لعمليات أعلى ترتيب. على سبيل المثال، يمكنك كتابة نموذج الانحدار الخطي بسيط مع ما (2) المتوسط المتحرك الأخطاء حيث حيث MA1 و MA2 هي المعلمات المتوسط المتحرك. لاحظ أن RESID. Y يتم تعريفها تلقائيا بواسطة بروك موديل كما يجب استخدام الدالة زلاغ لمناذج ما لاقتطاع عودة العطل. ويضمن ذلك أن تبدأ الأخطاء المتأخرة عند الصفر في طور التأخر ولا تنشر القيم الناقصة عندما تكون متغيرات فترة التأخر مفقودة، وتضمن أن تكون الأخطاء المستقبلية صفرا وليس مفقودة أثناء المحاكاة أو التنبؤ. للحصول على تفاصيل حول وظائف التأخر، راجع القسم لاغ لوجيك. هذا النموذج المكتوب باستخدام ماكرو ما هو كما يلي: النموذج العام لنماذج أرما العملية أرما (p، q) العامة لها النموذج التالي يمكن تحديد نموذج أرما (p، q) كما يلي: حيث أر i و ما j تمثل ومعدلات الانحدار الذاتي والمتوسط المتحرك لمختلف الفواصل الزمنية. يمكنك استخدام أي أسماء تريدها لهذه المتغيرات، وهناك العديد من الطرق المكافئة التي يمكن أن تكون مكتوبة المواصفات. ويمكن أيضا أن يتم تقدير العمليات أرما ناقلات مع بروك نموذج. على سبيل المثال، يمكن تحديد عملية أر (1) ثنائية المتغير لأخطاء المتغيرين الداخليين Y1 و Y2 على النحو التالي: مشكلات التقارب مع نماذج أرما يمكن أن يصعب تقدير نماذج أرما. إذا لم تكن تقديرات المعلمة ضمن النطاق المناسب، تنمو النماذج المتبقية للمتوسط المتحرك بشكل مطرد. ويمكن أن تكون المخلفات المحسوبة للملاحظات اللاحقة كبيرة جدا أو يمكن تجاوزها. ويمكن أن يحدث ذلك إما بسبب استخدام قيم بدء غير ملائمة أو بسبب تكرارات التكرارات بعيدا عن القيم المعقولة. يجب استخدام العناية في اختيار قيم البدء لمعلمات أرما. وتبدأ قيم البداية التي تبلغ 0.001 بالنسبة إلى معلمات أرما إذا كان النموذج يتلاءم مع البيانات جيدا وأن المشكلة مكيفة جيدا. لاحظ أن نموذج ما يمكن في كثير من الأحيان تقريب من قبل نموذج أر عالية الترتيب، والعكس بالعكس. وهذا يمكن أن يؤدي إلى علاقة خطية متداخلة عالية في نماذج أرما مختلطة، والتي بدورها يمكن أن يسبب سوء تكييف خطيرة في الحسابات وعدم استقرار تقديرات المعلمة. إذا كان لديك مشاكل التقارب أثناء تقدير نموذج مع عمليات خطأ أرما، في محاولة لتقدير في الخطوات. أولا، استخدم بيان فيت لتقدير فقط المعلمات الهيكلية مع المعلمات أرما التي عقدت إلى الصفر (أو إلى تقديرات معقولة معقولة إن وجدت). بعد ذلك، استخدم عبارة فيت أخرى لتقدير معلمات أرما فقط، باستخدام قيم المعلمات الهيكلية من التشغيل الأول. وبما أن قيم المعلمات الهيكلية من المرجح أن تكون قريبة من تقديراتها النهائية، فإن تقديرات المعلمة أرما قد تتلاقى الآن. وأخيرا، استخدم بيان فيت آخر لإنتاج تقديرات متزامنة لجميع المعلمات. وبما أن القيم الأولية للمعلمات من المرجح أن تكون قريبة جدا من تقديراتها النهائية المشتركة، ينبغي أن تتلاقى التقديرات بسرعة إذا كان النموذج مناسبا للبيانات. الشروط المبدئية أر يمكن وضع الفواصل الأولية لشروط الخطأ في نماذج أر (p) بطرق مختلفة. طرق بدء تشغيل خطأ الانحدار الذاتي التي تدعمها إجراءات ساسيتس هي التالية: المربعات الصغرى المشروطة (إجراءات أريما و موديل) المربعات الصغرى غير المشروطة (أوتوريغ، أريما، وإجراءات موديل) أقصى احتمالات (أوتوريغ، أريما، وإجراءات موديل) يول ووكر (أوتوريغ الإجراء الوحيد) هيلدريث-لو، الذي يحذف أول ملاحظات p (إجراء نموذج فقط) انظر الفصل 8، الإجراء أوتوريغ، للحصول على شرح ومناقشة مزايا مختلف أساليب بدء التشغيل أر (p). يمكن إجراء كلس، أولس، مل، و أوليتيزاتيونس من قبل بروك نموذج. بالنسبة إلى أخطاء أر (1)، يمكن إنتاج هذه التهيئة كما هو مبين في الجدول 18.2. هذه الطرق تعادل في عينات كبيرة. الجدول 18.2 التهيئة التي يتم إجراؤها بواسطة بروك النموذجي: أر (1) الأخطاء يمكن أيضا أن تكون الفواصل الأولية لشروط الخطأ في نماذج ما (q) نموذجا بطرق مختلفة. يتم دعم نماذج بدء خطأ المتوسط المتوسط التالية من خلال إجراءات أريما و موديل: مربعات أقل مشروطة المربعات الصغرى الشرطية طريقة المربعات الصغرى الشرطية لتقدير عبارات الخطأ المتوسط المتوسط ليست الأمثل لأنه يتجاهل مشكلة بدء التشغيل. وهذا يقلل من كفاءة التقديرات، على الرغم من أنها تظل غير متحيزة. ويفترض أن المخلفات الأولية المتأخرة، التي تمتد قبل بدء البيانات، هي صفر، قيمتها المتوقعة غير المشروطة. ويحدث هذا فرقا بين هذه المخلفات ومتبقي المربعات الصغرى المعمم في التباين المتوسط المتحرك، الذي يستمر، خلافا لنموذج الانحدار الذاتي، من خلال مجموعة البيانات. عادة هذا الاختلاف يتقارب بسرعة إلى 0، ولكن بالنسبة لعمليات المتوسط المتحرك غير القابل للتحويل تقريبا التقارب بطيء جدا. لتقليل هذه المشكلة، يجب أن يكون لديك الكثير من البيانات، ويجب أن تكون تقديرات معامل المتوسط المتحرك ضمن النطاق القابل للانعكاس. ويمكن تصحيح هذه المشكلة على حساب كتابة برنامج أكثر تعقيدا. ويمكن إنتاج تقديرات المربعات الصغرى غير المشروطة لعملية ما (1) من خلال تحديد النموذج على النحو التالي: يمكن أن يكون من الصعب تقدير المتوسط المتحرك للأخطاء. يجب أن تفكر في استخدام تقريب أر (p) لعملية المتوسط المتحرك. ويمكن عادة أن تكون عملية المتوسط المتحرك مقاربة بشكل جيد من خلال عملية الانحدار الذاتي إذا لم يتم تمهيد أو اختلاف البيانات. الماكرو أر أر ساس الماكرو أر يولد بيانات البرمجة ل بروك موديل لنماذج الانحدار الذاتي. الماكرو أر هو جزء من برنامج ساسيتس، ولا حاجة إلى تعيين خيارات خاصة لاستخدام الماكرو. ويمكن تطبيق عملية الانحدار الذاتي على أخطاء المعادلة الهيكلية أو إلى سلسلة الذاتية نفسها. يمكن استخدام الماكرو أر للأنواع التالية من الانحدار الذاتي: الانحدار الذاتي غير المقيد الانحدار الذاتي المتجه المقيد الانحدار الذاتي المتغير ونيفاريت لرسم نموذج الخطأ في المعادلة كعملية الانحدار الذاتي، استخدم العبارة التالية بعد المعادلة: على سبيل المثال، لنفترض أن Y هو الدالة الخطية ل X1 و X2 و أر (2). يمكنك كتابة هذا النموذج على النحو التالي: يجب أن تأتي المكالمات إلى أر بعد كل المعادلات التي تنطبق عليها العملية. ويؤدي الاستدعاء الكلي السابق، أر (y، 2)، إلى عرض البيانات المبينة في خرج ليست في الشكل 18.58. الشكل 18.58 ليست خیار الخیار لنموذج أر (2) متغیرات أر مسبقة الصیانة ھي متغیرات برنامجیة مؤقتة مستخدمة بحیث تکون تأخیرات البقایا ھي البقایا الصحیحة ولیس تلك التي تم إعادة تعریفھا بواسطة ھذه المعادلة. لاحظ أن هذا يعادل البيانات المكتوبة بشكل صريح في المقطع نموذج عام لنماذج أرما. يمكنك أيضا تقييد المعلمات الانحدار الذاتي إلى صفر عند التأخر المحدد. على سبيل المثال، إذا أردت معلمات الانحدار الذاتي عند الفترات الزمنية 1 و 12 و 13، يمكنك استخدام العبارات التالية: تولد هذه العبارات الإخراج الموضح في الشكل 18.59. الشكل 18.59 ليست مخرجات الخيار لنموذج أر مع تأخيرات في 1 و 12 و 13 قائمة إجراءات نموذج قائمة برمجية البرمجة البرمجية المجمعة كما تم تحليلها PRED. yab x1 c x2 RESID. y PRED. y - ACTUAL. y ERROR. y بريد. y - y OLDPRED. y PRED. y yl1 ZLAG1 (y - بيردي) yl12 ZLAG12 (y - بيردي) yl13 ZLAG13 (y - بيردي) RESID. y PRED. y - ACTUAL. y ERROR. y PRED. y - y هناك الاختلافات على طريقة المربعات الصغرى المشروطة، اعتمادا على ما إذا كانت الملاحظات في بداية السلسلة تستخدم لتسخين عملية أر. وبشكل افتراضي، تستخدم طريقة المربعات الصغرى المشروطة أر جميع الملاحظات وتفترض الأصفار للتخلف الأولي لشروط الانحدار الذاتي. باستخدام الخيار M، يمكنك طلب أن أر استخدام المربعات الصغرى غير المشروطة (أولس) أو أقصى احتمال (مل) طريقة بدلا من ذلك. على سبيل المثال، يتم عرض مناقشات هذه الطرق في القسم أر الشروط الأولية. وباستخدام الخيار مكلس n، يمكنك طلب استخدام أول ملاحظات n لحساب تقديرات الفترات الزمنية الأولية للانحراف الذاتي. في هذه الحالة، يبدأ التحليل بالملاحظة n 1. على سبيل المثال: يمكنك استخدام الماكرو أر لتطبيق نموذج الانحدار الذاتي على المتغير الداخلي، بدلا من مصطلح الخطأ، وذلك باستخدام الخيار تيبيف. على سبيل المثال، إذا كنت ترغب في إضافة الفواصل الخمسة الماضية من Y إلى المعادلة في المثال السابق، يمكنك استخدام أر لإنشاء المعلمات والتخلف باستخدام العبارات التالية: البيانات السابقة توليد الإخراج هو مبين في الشكل 18.60. الشكل 18.60 ليست خرج الخوارزمية لنموذج أر من Y يتنبأ هذا النموذج Y بمزيج خطي من X1 و X2 و اعتراض وقيم Y في أحدث خمس فترات. استخلاص الانحدار غير المقيد للناقلات لنموذج مصطلحات الخطأ لمجموعة من المعادلات كعملية متجه الانحدار الذاتي، استخدم النموذج التالي من ماكرو أر بعد المعادلات: قيمة اسم العملية هي أي اسم تقدمه أر لاستخدامه في صنع أسماء الانحدار الذاتي المعلمات. يمكنك استخدام ماكرو أر لنموذج عدة عمليات أر مختلفة لمجموعات مختلفة من المعادلات باستخدام أسماء عملية مختلفة لكل مجموعة. يضمن اسم العملية أن أسماء المتغيرات المستخدمة فريدة. استخدم قيمة اسم عملية قصيرة للعملية إذا كانت تقديرات المعامل ستكتب إلى مجموعة بيانات الإخراج. يحاول الماكرو أر إنشاء أسماء معلمات أقل من أو يساوي ثمانية أحرف، ولكن هذا يقتصر طول العملية. والذي يستخدم كبادئة لأسماء معلمات أر. القيمة فاريابلليست هي قائمة المتغيرات الذاتية للمعادلات. على سبيل المثال، لنفترض أن أخطاء المعادلات Y1 و Y2 و Y3 يتم إنشاؤها بواسطة عملية الانحدار الذاتي للناقلات من الدرجة الثانية. يمكنك استخدام العبارات التالية: التي تولد التالية ل Y1 و التعليمات البرمجية مشابهة ل Y2 و Y3: يمكن استخدام الأسلوب المربعات الصغرى الشرطية (مكلس أو مكلس n) لعمليات المتجه. يمكنك أيضا استخدام نفس النموذج مع القيود التي مصفوفة معامل تكون 0 في التأخر المحدد. على سبيل المثال، تنطبق العبارات التالية عملية متجه من الدرجة الثالثة على أخطاء المعادلة مع كل المعاملات عند التأخر 2 المقيدة إلى 0 ومع المعاملات عند الفواصل الزمنية 1 و 3 غير المقيدة: يمكنك نموذج السلسلة الثلاثية Y1Y3 باعتبارها عملية الانحدار الذاتي المتجه في المتغيرات بدلا من الأخطاء باستخدام الخيار تيبيف. إذا كنت ترغب في نموذج Y1Y3 كدالة للقيم الماضية من Y1Y3 وبعض المتغيرات الخارجية أو الثوابت، يمكنك استخدام أر لتوليد البيانات لفترات التأخر. اكتب معادلة لكل متغير للجزء نونوتريغريسيف من النموذج ثم قم باستدعاء أر مع الخيار تيبيف. على سبيل المثال، يمكن أن يكون الجزء غير التخريطي للنموذج دالة للمتغيرات الخارجية، أو يمكن أن يكون معلمات اعتراض. إذا لم تكن هناك مكونات خارجية لنموذج الانحدار الذاتي للناقل، بما في ذلك عدم وجود اعتراضات، ثم قم بتعيين صفر لكل من المتغيرات. يجب أن يكون هناك تخصيص لكل من المتغيرات قبل أن يسمى أر. ويوضح هذا المثال المتجه Y (Y1 Y2 Y3) كدالة خطية فقط لقيمته في الفترتين السابقتين ومجهز خطأ ضوضاء أبيض. يحتوي النموذج على 18 (3 3 3 3) معلمات. بناء الجملة من ماكرو أر هناك حالتان من بناء الجملة لل ماكرو أر. عندما لا تكون هناك حاجة إلى قيود على عملية أر ناقلات، وبناء الجملة ماكرو أر الشكل العام يحدد بادئة أر لاستخدامها في بناء أسماء المتغيرات اللازمة لتحديد عملية أر. إذا لم يتم تحديد إندوليست، فإن القائمة الذاتية افتراضيا للاسم. والتي يجب أن تكون اسم المعادلة التي سيتم تطبيق عملية خطأ أر. لا يمكن أن تتجاوز قيمة الاسم 32 حرفا. هو ترتيب عملية أر. تحدد قائمة المعادلات التي ستطبق عليها عملية أر. إذا تم إعطاء أكثر من اسم واحد، يتم إنشاء عملية ناقلات غير مقيدة مع المخلفات الهيكلية من جميع المعادلات المدرجة على النحو المتراجعون في كل من المعادلات. إذا لم يتم تحديدها، افتراضيات إندوليست الاسم. يحدد قائمة التأخيرات التي ستضاف إليها مصطلحات أر. يتم تعيين معاملات المصطلحات في فترات التأخر غير المدرجة إلى 0. يجب أن تكون جميع الفواصل المدرجة أقل من أو تساوي نلاغ. ويجب ألا تكون هناك نسخ مكررة. إذا لم يتم تحديدها، الافتراضي لاغليست لجميع يتخلف 1 خلال نلاغ. يحدد طريقة التقدير لتنفيذها. والقيم الصالحة لل M هي كلس (تقديرات المربعات الصغرى المشروطة) و أولس (تقديرات المربعات الصغرى غير المشروطة) و مل (تقديرات الاحتمالات القصوى). مكلس هو الافتراضي. يسمح فقط مكلس عندما يتم تحديد أكثر من معادلة واحدة. ولا تدعم طرائق أر و نواقل أر من قبل أر. يحدد أن عملية أر يتم تطبيقها على المتغيرات الذاتية نفسها بدلا من المخلفات الهيكلية للمعادلات. تقييد الانتكاس التلقائي المقيد يمكنك التحكم في المعاملات التي يتم تضمينها في العملية، مع تقييد 0 تلك المعلمات التي لا تتضمنها. أولا، استخدم أر مع الخيار ديفر لإعلان قائمة المتغيرات وتحديد بعد العملية. ثم، استخدام المكالمات أر إضافية لتوليد مصطلحات للمعادلات المحددة مع المتغيرات المحددة في التأخر المحدد. وعلى سبيل المثال، فإن معادلات الخطأ المنتجة هي كما يلي: يشير هذا النموذج إلى أن أخطاء Y1 تعتمد على أخطاء كل من Y1 و Y2 (ولكن ليس Y3) عند كل من الفارقين 1 و 2، وأن الأخطاء في Y2 و Y3 تعتمد على الأخطاء السابقة لجميع المتغيرات الثلاثة، ولكن فقط في تأخر 1. أر بناء الجملة ماكرو للمتجهات المقيدة أر يسمح استخدام بديل من أر لفرض قيود على عملية أر المتجه عن طريق استدعاء أر عدة مرات لتحديد مصطلحات أر مختلفة والتخلف لمختلف المعادلات. المكالمة الأولى لها النموذج العام يحدد البادئة ل أر لاستخدامها في بناء أسماء المتغيرات اللازمة لتعريف عملية أر المتجهات. يحدد ترتيب عملية أر. تحدد قائمة المعادلات التي ستطبق عليها عملية أر. يحدد أن أر ليس لتوليد عملية أر ولكن الانتظار إلى مزيد من المعلومات المحددة في وقت لاحق أر يدعو لنفس القيمة الاسم. المكالمات اللاحقة لها الشكل العام هو نفسه كما في المكالمة الأولى. يحدد قائمة المعادلات التي ستطبق عليها المواصفات الواردة في نداء أر هذا. يمكن فقط أن تظهر الأسماء المحددة في قيمة إندوليست للمكالمة الأولى لقيمة الاسم في قائمة المعادلات في إكليست. تحدد قائمة المعادلات التي ستدرج مخلفاتها الهيكلية المتخلفة كمؤخرات في المعادلات في إكليست. يمكن فقط أن تظهر الأسماء في إندوليست المكالمة الأولى لقيمة الاسم في فارليست. إذا لم يحدد، افتراضات فارليست إلى إندوليست. يحدد قائمة التأخيرات التي ستضاف إليها مصطلحات أر. يتم تعيين معاملات المصطلحات عند التأخيرات غير المدرجة إلى 0. يجب أن تكون جميع الفواصل المدرجة أقل من أو تساوي قيمة نلاغ. ويجب ألا تكون هناك نسخ مكررة. إذا لم يتم تحديدها، لاغليست الافتراضية لجميع يتخلف 1 خلال نلاغ. ما ماكرو ساس ماكرو ماك يولد بيانات البرمجة ل بروك نموذج لنماذج المتوسط المتحرك. ماكرو ما هو جزء من برنامج ساسيتس، ولا حاجة إلى خيارات خاصة لاستخدام الماكرو. ويمكن تطبيق عملية الخطأ المتوسط المتوسط على أخطاء المعادلة الهيكلية. بناء جملة ماكرو ما هو نفس الماكرو أر باستثناء عدم وجود وسيطة تايب. عندما كنت تستخدم ماك و أر وحدات الماكرو مجتمعة، ماكرو ما يجب اتباع ماكرو أر. تنتج عبارات ساسمل التالية عملية خطأ أرما (1، (1 3)) وحفظها في مجموعة البيانات مادات 2. وتستعمل عبارات بروك موديل التالية لتقدير معلمات هذا النموذج باستعمال أقصى بنية للخطأ المحتمل: وترد في الشكل 18.61 تقديرات المعلمات التي ينتجها هذا المدى. الشكل 18.61 تقديرات من أرما (1، (1 3)) العملية هناك حالتان من بناء الجملة ل ماكرو ما. عندما لا تكون هناك حاجة إلى قيود على عملية ما متجه، بناء جملة ماكرو ما النموذج العام يحدد بادئة ل ما لاستخدامها في بناء أسماء المتغيرات اللازمة لتعريف عملية ما وهو إندوليست الافتراضي. هو ترتيب عملية ما. يحدد المعادلات التي سيتم تطبيق عملية ما. إذا تم إعطاء أكثر من اسم واحد، يتم استخدام تقدير كلس لعملية المتجه. يحدد الفترات الزمنية التي ستضاف فيها مصطلحات ما. يجب أن تكون جميع الفترات المدرجة أقل من أو تساوي نلاغ. ويجب ألا تكون هناك نسخ مكررة. إذا لم يتم تحديدها، الافتراضي لاغليست لجميع يتخلف 1 خلال نلاغ. يحدد طريقة التقدير لتنفيذها. والقيم الصالحة لل M هي كلس) تقديرات المربعات الصغرى المشروطة (، و أولس) تقديرات المربعات الصغرى غير المشروطة (، و مل) تقديرات االحتمال القصوى (. مكلس هو الافتراضي. يسمح فقط مكلس عندما يتم تحديد أكثر من معادلة واحدة في إندوليست. ما ماكرو سينتاكس فور كونستروكتد فيكتور موفينغ-أفيراج يسمح باستخدام بديل ل ما فرض قيود على عملية ما المتجه عن طريق استدعاء ما عدة مرات لتحديد شروط ما المختلفة والتخلف عن المعادلات المختلفة. المكالمة الأولى لديها النموذج العام يحدد بادئة ل ما لاستخدامها في بناء أسماء المتغيرات اللازمة لتعريف عملية ما المتجه. يحدد ترتيب عملية ما. يحدد قائمة المعادلات التي سيتم تطبيق عملية ما. يحدد أن ما ليس لتوليد عملية ما ولكن هو الانتظار للحصول على مزيد من المعلومات المحددة في ما لاحق يدعو لنفس القيمة الاسم. المكالمات اللاحقة لها الشكل العام هو نفسه كما في المكالمة الأولى. تحدد قائمة المعادلات التي ستطبق عليها المواصفات الواردة في هذه الدعوة. تحدد قائمة المعادلات التي ستدرج مخلفاتها الهيكلية المتخلفة كمؤخرات في المعادلات في إكليست. يحدد قائمة التأخيرات التي ستضاف إليها شروط ما. الانتصار 13 مع SAS13 الفصل 2 8211 تشخيص الانحدار الفصل المخطط 2.0 عمليات الانحدار 2.1 البيانات غير العادية والمؤثرة 2.2 الاختبارات على طبيعة المخلفات 2.3 الاختبارات على خطأ غير ثابت من التباين 2.4 الاختبارات على متعدد الانعكاسات 2.5 اختبارات على اللاخطية 2.6 نموذج مواصفات 2.7 قضايا الاستقلال 2.8 ملخص 2.9 لمزيد من المعلومات 2.0 تشخيص الانحدار في الفصل الأخير، تعلمنا كيفية القيام الانحدار الخطي العادي مع ساس، مع إبرام طرق لدراسة توزيع المتغيرات للتحقق من عدم وجود توزع المتغيرات عادة على شكل نظرة أولى على فحص الافتراضات في الانحدار. وبدون التحقق من أن بياناتك قد استوفت افتراضات الانحدار، فقد تكون نتائجك مضللة. هذا الفصل سوف يستكشف كيف يمكنك استخدام ساس لاختبار ما إذا كانت البيانات الخاصة بك تلبي افتراضات الانحدار الخطي. وعلى وجه الخصوص، سننظر في الافتراضات التالية. الخطي 8211 يجب أن تكون العلاقات بين المتنبئين ومتغير النتيجة هي الخطية نورمال 8211 ينبغي أن توزع الأخطاء عادة 8211 من الناحية الفنية من الناحية الفنية ضروري فقط للاختبارات t لتكون صالحة، ويقدر تقدير المعاملات يتطلب فقط أن تكون الأخطاء بشكل مستقل ومستقل موزعة على تجانس التباين 8211 ينبغي أن يكون التباين في الخطأ ثابتا الاستقلال 8211 لا ترتبط الأخطاء المرتبطة بملاحظة واحدة بأخطاء أي ملاحظة أخرى يتم قياس أخطاء المتغيرات 8211 المتغيرات دون خطأ (سنغطي هذا في الفصل 4 ) نموذج النموذج 8211 يجب أن يكون النموذج محددا بشكل صحيح (بما في ذلك جميع المتغيرات ذات الصلة، واستبعاد المتغيرات غير ذات الصلة) بالإضافة إلى ذلك، هناك قضايا التي يمكن أن تنشأ خلال التحليل أنه، في حين بالمعنى الدقيق للكلمة، ليست افتراضات الانحدار، هي على الأقل قلق كبير لمحللين الانحدار. التأثير 8211 الملاحظات الفردية التي تمارس نفوذا لا مبرر له على المعاملات الخطية الخطية 8211 التنبؤات التي هي عالية الخطية، أي ذات الصلة الخطية، يمكن أن يسبب مشاكل في تقدير معاملات الانحدار. وقد تم تطوير العديد من الطرق الرسومية والاختبارات العددية على مر السنين لتشخيص الانحدار. في هذا الفصل، سوف نستكشف هذه الطرق ونوضح كيفية التحقق من افتراضات الانحدار والكشف عن المشاكل المحتملة باستخدام ساس. 2.1 البيانات غير العادية والمؤثرة يمكن ملاحظة واحدة تختلف اختلافا كبيرا عن جميع الملاحظات الأخرى أن تحدث فرقا كبيرا في نتائج تحليل الانحدار الخاص بك. إذا كانت ملاحظة واحدة (أو مجموعة صغيرة من الملاحظات) تغييرات كبيرة في النتائج الخاصة بك، وكنت تريد أن تعرف عن هذا والتحقيق أكثر من ذلك. هناك ثلاث طرق أن الملاحظة يمكن أن تكون غير عادية. القيم المتطرفة. في الانحدار الخطي، و أوتلير هو الملاحظة مع بقايا كبيرة. وبعبارة أخرى، هي الملاحظة التي قيمة المتغير التابعة غير عادية نظرا لقيمها على متغيرات التنبؤ. قد يشير نموذج أوتلير إلى خصوصية خاصة أو قد يشير إلى خطأ إدخال بيانات أو مشكلة أخرى. تأثير ايجابي . وتسمى الملاحظة ذات القيمة القصوى على متغير التنبؤ نقطة مع الرافعة المالية العالية. الرافعة المالية هي مقياس لمدى انحراف الملاحظة عن متوسط هذا المتغير. ويمكن أن تؤثر نقاط الرافعة المالية هذه على تقدير معاملات الانحدار. التأثير. ويقال إن الملاحظة مؤثرة إذا أدت إزالة الملاحظة إلى تغيير كبير في تقدير المعاملات. ويمكن اعتبار التأثير كمنتج من النفوذ والرائحة. كيف يمكننا تحديد هذه الأنواع الثلاثة من الملاحظات Let8217s ننظر في مجموعة بيانات تسمى الجريمة. تظهر مجموعة البيانات هذه في الأساليب الإحصائية للعلوم الاجتماعية، الطبعة الثالثة ألان أغريستي وبربارة فينلي (برنتيس هول، 1997). المتغيرات هي هوية الدولة (سيد)، واسم الدولة (الدولة)، والجرائم العنيفة لكل 100،000 شخص (الجريمة)، والقتل لكل 1،000،000 (القتل)، ونسبة السكان الذين يعيشون في المناطق الحضرية (بكميترو)، ونسبة السكان الذين (بيتكوس)، نسبة السكان الذين يعيشون تحت خط الفقر (الفقر)، ونسبة السكان الذين هم من الوالدين الوحيدين (واحد). أدناه نستخدم محتويات بروك و بروك يعني لمعرفة المزيد عن ملف البيانات هذا. Let8217s يقول أننا نريد التنبؤ الجريمة من قبل بتمترو. الفقر. واحد . هذا يعني أننا نريد أن نبني نموذج الانحدار الخطي بين الجريمة المتغيرة الاستجابة والمتغيرات المستقلة بتمترو. الفقر وحيدة. سوف ننظر أولا في مؤامرات مبعثر الجريمة ضد كل من المتغيرات التنبؤ قبل تحليل الانحدار لذلك سيكون لدينا بعض الأفكار حول المشاكل المحتملة. يمكننا إنشاء مصفوفة سكاتيربلوت لهذه المتغيرات كما هو مبين أدناه. الرسوم البيانية للجريمة مع متغيرات أخرى تظهر بعض المشاكل المحتملة. في كل مؤامرة، ونحن نرى نقطة البيانات التي هي بعيدة عن بقية نقاط البيانات. Let8217s جعل الرسوم البيانية الفردية من الجريمة مع بتمترو والفقر واحد حتى نتمكن من الحصول على رؤية أفضل من هذه سكاتربلوتس. سنقوم بإضافة الخيار بوستلابيل (كوتستاتيكوت) في بيان رمز لرسم اسم الدولة بدلا من نقطة. وتشير جميع المؤامرات المبعثرة إلى أن الملاحظة لدس العاصمة هي نقطة تتطلب اهتماما إضافيا لأنها تبرز بعيدا عن كل النقاط الأخرى. وسوف نبقيها في الاعتبار عندما نقوم بتحليل الانحدار لدينا. الآن Let8217s محاولة أمر الانحدار التنبؤ الجريمة من بتمترو والفقر واحد. سنذهب خطوة بخطوة لتحدید جمیع النقاط غیر المعتادة أو المؤثرة المحتملة بعد ذلك. وسوف نقوم بإنتاج العديد من الإحصاءات التي سنحتاجها للتحليلات القليلة القادمة لمجموعة بيانات تسمى الجرائم 1res. وسوف نوضح كل إحصائية بدورها. وتشمل هذه الإحصاءات المتبقية المتبقية (دعا r)، الرافعة المالية (ودعا ليف)، Cook8217s D (دعا سد) و دفيتس (تسمى دفيت). ونحن نطلب كل هذه الإحصاءات الآن بحيث يمكن وضعها في مجموعة بيانات واحدة سنستخدمها للأمثلة العديدة التالية. خلاف ذلك، يمكن أن يكون لدينا لإعادة تشغيل بروك ريج في كل مرة أردنا إحصائية جديدة وحفظ تلك الإحصائية إلى ملف بيانات الإخراج آخر. تدرس Let8217s بقايا الطالب كأول وسيلة لتحديد القيم المتطرفة. طلبنا بقايا التلميذ في الانحدار أعلاه في بيان الإخراج واسمه لهم ص. يمكننا اختيار أي اسم نحب طالما أنه هو ساس اسم المتغير القانوني. البقایا الطلابیة ھي نوع من البقایة القیاسیة التي یمکن استخدامھا لتعرف القیم المتطرفة. Let8217s فحص بقايا مع الجذعية ورقة مؤامرة. نحن نرى ثلاثة بقايا التمسك بها، -3.57، 2.62 و 3.77. ويساعدنا عرض الجذع والأوراق على رؤية بعض القيم المتطرفة المحتملة، ولكننا لا نستطيع أن نرى أي حالة (أي الملاحظات) هي القيم المتطرفة المحتملة. Let8217s فرز البيانات على بقايا وتظهر أكبر 10 و 10 أصغر المخلفات جنبا إلى جنب مع هوية الدولة واسم الدولة. ينبغي أن نولي اهتماما لبقايا الطالب التي تتجاوز 2 أو -2، والحصول على أكثر قلقا بشأن المخلفات التي تتجاوز 2.5 أو -2.5 وحتى الآن أكثر قلقا بشأن المخلفات التي تتجاوز 3 أو -3. وتظهر هذه النتائج أن دس و مس هي الملاحظات الأكثر إثارة للقلق، تليها فل. Let8217s تظهر جميع المتغيرات في الانحدار لدينا حيث يتجاوز المتبقي طالبا 2 أو -2، أي حيث القيمة المطلقة للمتبقي يتجاوز 2. ونحن نرى البيانات عن القيم المتطرفة المحتملة الثلاثة التي حددناها، وهي فلوريدا، ميسيسيبي واشنطن العاصمة تبحث بعناية في هذه الملاحظات الثلاثة، ونحن cann8217t العثور على أي أخطاء إدخال البيانات، على الرغم من أننا قد ترغب في القيام تحليل الانحدار آخر مع نقطة المتطرفة مثل دس حذفها. سنعود إلى هذه المسألة في وقت لاحق. الآن دعونا 8217s ننظر في النفوذ 8217s لتحديد الملاحظات التي سيكون لها تأثير كبير المحتمل على تقديرات معامل الانحدار. وبصفة عامة، ينبغي فحص نقطة ذات رافعة أكبر من (2k2) n بعناية، حيث k هو عدد المتنبئات و n هو عدد المشاهدات. في مثالنا هذا يعمل إلى (232) 51 .15686275. حتى نتمكن من القيام بما يلي. كما رأينا، دس هو ملاحظة أن كلا لديها رافعة كبيرة المتبقية والكبيرة. وهذه النقاط هي الأكثر تأثيرا. يمكننا أن نجعل مؤامرة التي تبين الرافعة المالية من خلال تربيع المتبقية والبحث عن الملاحظات التي هي على مستوى عال على كل من هذه التدابير. يمكننا أن نفعل ذلك باستخدام الرافعة المالية مقابل المؤامرة المربعة المتبقية. باستخدام المربعات المتبقية بدلا من المتبقية نفسها، ويقتصر الرسم البياني إلى الربع الأول ويتم الاحتفاظ المواقف النسبية لنقاط البيانات. هذا هو وسيلة سريعة لفحص الملاحظات المؤثرة المحتملة والقيم المتطرفة في نفس الوقت. كلا النوعين من النقاط هي مصدر قلق كبير بالنسبة لنا. نقطة ل دس يلتقط اهتمامنا وجود كل من أعلى المربعات المتبقية وأعلى النفوذ، مما يشير إلى أنه يمكن أن يكون مؤثرا جدا. النقطة بالنسبة لمرض التصلب العصبي المتعدد لديها ما يقرب من مربع كبير المتبقية، ولكن ليس لديها نفس الرافعة المالية. W8217ll ننظر إلى تلك الملاحظات بعناية أكبر من خلال إدراجها أدناه. الآن let8217s الانتقال إلى مقاييس التأثير العام. على وجه التحديد، let8217s ننظر في كوك 8217s D و دفيتس. وهذه التدابير تجمع بين المعلومات المتعلقة بالمخلفات والرافعة المالية. كوك 8217s D و دفيتس متشابهة جدا إلا أنها تختلف على نطاق مختلف، لكنها تعطينا إجابات مماثلة. وأقل قيمة يمكن أن يفترضها كوك 8217s D هي صفر، وكلما كان كوك 8217s D هو الأكثر تأثيرا النقطة. نقطة القطع التقليدية هي 4n. يمكننا إدراج أي ملاحظة فوق نقطة القطع عن طريق القيام بما يلي. ونحن نرى أن كوك 8217s D ل دس هو إلى حد بعيد أكبر. الآن let8217s نلقي نظرة على دفيتس. ونقطة القطع التقليدية ل دفيتس هي 2sqrt (كن). يمكن أن تكون دفيتس إما إيجابية أو سلبية، مع أرقام قريبة من الصفر المقابلة للنقاط مع تأثير صغير أو صفر. كما نرى، دفيتس يشير أيضا إلى أن العاصمة هي، حتى الآن، الأكثر تأثيرا الملاحظة. التدابير المذكورة أعلاه هي تدابير عامة للتأثير. يمكنك أيضا النظر في مقاييس التأثير الأكثر تحديدا التي تقيم كيف يتم تغيير كل معامل عن طريق حذف الملاحظة. ويسمى هذا التدبير دفيتا ويتم إنشاؤها لكل من التنبؤات. على ما يبدو هذا هو أكثر كثافة حسابيا من الإحصاءات الموجزة مثل Cook8217s D لأن أكثر التنبؤات نموذج لديه، والمزيد من الحساب قد تنطوي. يمكننا تقييد اهتمامنا فقط تلك التي تنبئ أننا الأكثر قلقا ومعرفة مدى حسن تصرف تلك التنبؤات. في ساس، نحن بحاجة إلى استخدام أودس إخراج أوتستاتيستيكش بيان لإنتاج دفيتاس لكل من التنبؤات. يتم اختيار أسماء المتغيرات الجديدة التي تم إنشاؤها بواسطة ساس تلقائيا وتبدأ مع دف. هذا خلق ثلاثة متغيرات، دفبتمترو. دفبروتي و دفسينغل. Let8217s ننظر إلى القيم 5 الأولى. قيمة دفسينغل ألاسكا هي 0.14، مما يعني أنه من خلال تضمينها في التحليل (بالمقارنة مع استبعادها)، ألاسكا يزيد معامل واحد عن طريق 0.14 أخطاء قياسية، أي 0.14 أضعاف الخطأ القياسي ل بسينغل أو (0.14 15.5 ). ولأن إدراج الملاحظة يمكن أن يسهم في زيادة أو نقصان في معامل الانحدار، يمكن أن تكون دفيتاس إما إيجابية أو سلبية. قيمة دفيتا التي تزيد عن 2sqrt (n) تستحق المزيد من التحقيق. في هذا المثال، سنكون قلقين بشأن القيم المطلقة التي تزيد عن 2sqrt (51) أو 0.28. يمكننا رسم جميع القيم ثلاثة دفيتا ضد معرف الدولة في رسم بياني واحد هو مبين أدناه. نضيف خطا عند 0.28 و -0.28 لمساعدتنا في رؤية الملاحظات التي قد تكون مزعجة. ونحن نرى أكبر قيمة حوالي 3.0 ل دفسينغل. يمكننا تكرار هذا الرسم البياني مع الخيار بوستلابيل (كوتستاتيكوت) على بيان رمز 1 لتسمية النقاط. مع الرسم البياني أعلاه يمكننا تحديد أي دفيتا مشكلة، ومع الرسم البياني أدناه يمكننا ربط تلك الملاحظة مع الدولة التي تنشأ من. الآن Let8217s قائمة تلك الملاحظات مع دفسينغل أكبر من قيمة قطع. مرة أخرى، نرى أن دس هي الملاحظة الأكثر إشكالية. يلخص الجدول التالي القواعد العامة التي نستخدمها لهذه التدابير لتحديد الملاحظات الجديرة بالمزيد من التحقيق (حيث k هو عدد المتنبئات و n هو عدد المشاهدات). وقد ظهرت واشنطن العاصمة باعتبارها منفذا، فضلا عن نقطة مؤثرة في كل تحليل. لأن واشنطن العاصمة ليست في الحقيقة دولة، يمكننا استخدام هذا لتبرير حذفها من التحليل، قائلا أننا نود حقا أن مجرد تحليل الدول. First, let8217s repeat our analysis including DC. Now, let8217s run the analysis omitting DC by including a where statement (here ne stands for quotnot equal toquot but you could also use to mean the same thing). As we expect, deleting DC made a large change in the coefficient for single . The coefficient for single dropped from 132.4 to 89.4. After having deleted DC, we would repeat the process we have illustrated in this section to search for any other outlying and influential observations. In this section, we explored a number of methods of identifying outliers and influential points. In a typical analysis, you would probably use only some of these methods. Generally speaking, there are two types of methods for assessing outliers: statistics such as residuals, leverage, Cook8217s D and DFITS, that assess the overall impact of an observation on the regression results, and statistics such as DFBETA that assess the specific impact of an observation on the regression coefficients. In our example, we found that DC was a point of major concern. We performed a regression with it and without it and the regression equations were very different. We can justify removing it from our analysis by reasoning that our model is to predict crime rate for states, not for metropolitan areas. 2.2 Tests for Normality of Residuals One of the assumptions of linear regression analysis is that the residuals are normally distributed. This assumption assures that the p-values for the t-tests will be valid. As before, we will generate the residuals (called r ) and predicted values (called fv ) and put them in a dataset (called elem1res ). We will also keep the variables api00 . meals . ell and emer in that dataset. Let8217s use the elemapi2 data file we saw in Chapter 1 for these analyses. Let8217s predict academic performance ( api00 ) from percent receiving free meals ( meals ), percent of English language learners ( ell ), and percent of teachers with emergency credentials ( emer ). Below we use proc kde to produce a kernel density plot. kde stands for kernel density estimate. It can be thought as a histogram with narrow bins and a moving average. Proc univariate will produce a normal quantile graph. qqplot plots the quantiles of a variable against the quantiles of a normal distribution. qqplot is most sensitive to non-normality near two tails. and probplot As you see below, the qqplot command shows a slight deviation from normal at the upper tail, as can be seen in the kde above. We can accept that the residuals are close to a normal distribution. Severe outliers consist of those points that are either 3 inter-quartile-ranges below the first quartile or 3 inter-quartile-ranges above the third quartile. The presence of any severe outliers should be sufficient evidence to reject normality at a 5 significance level. Mild outliers are common in samples of any size. In our case, we don8217t have any severe outliers and the distribution seems fairly symmetric. The residuals have an approximately normal distribution. (See the output of the proc univariate above.) In the Shapiro-Wilk W test for normality, the p-value is based on the assumption that the distribution is normal. In our example, the p-value is very large (0.51), indicating that we cannot reject that r is normally distributed. (See the output of the proc univariate above.) 2.3 Tests for Heteroscedasticity One of the main assumptions for the ordinary least squares regression is the homogeneity of variance of the residuals. If the model is well-fitted, there should be no pattern to the residuals plotted against the fitted values. If the variance of the residuals is non-constant, then the residual variance is said to be quotheteroscedastic. quot There are graphical and non-graphical methods for detecting heteroscedasticity. A commonly used graphical method is to plot the residuals versus fitted (predicted) values. Below we use a plot statement in the proc reg . The r. and p. tell SAS to calculate the residuals ( r. ) and predicted values ( p. ) for use in the plot. We see that the pattern of the data points is getting a little narrower towards the right end, which is an indication of mild heteroscedasticity. Now let8217s look at a test for heteroscedasticity, the White test. The White test tests the null hypothesis that the variance of the residuals is homogenous. Therefore, if the p-value is very small, we would have to reject the hypothesis and accept the alternative hypothesis that the variance is not homogenous. We use the spec option on the model statement to obtain the White test. While the White test is significant, the distribution of the residuals in the residual versus fitted plot did not seem overly heteroscedastic. Consider another example where we use enroll as a predictor. Recall that we found enroll to be skewed to the right in Chapter 1. As you can see, this example shows much more serious heteroscedasticity. As we saw in Chapter 1, the variable enroll was skewed considerably to the right, and we found that by taking a log transformation, the transformed variable was more normally distributed. Below we transform enroll . run the regression and show the residual versus fitted plot. The distribution of the residuals is much improved. Certainly, this is not a perfect distribution of residuals, but it is much better than the distribution with the untransformed variable. Finally, let8217s revisit the model we used at the start of this section, predicting api00 from meals . ell and emer . Using this model, the distribution of the residuals looked very nice and even across the fitted values. What if we add enroll to this model Will this automatically ruin the distribution of the residuals Let8217s add it and see. As you can see, the distribution of the residuals looks fine, even after we added the variable enroll . When we had just the variable enroll in the model, we did a log transformation to improve the distribution of the residuals, but when enroll was part of a model with other variables, the residuals looked good enough so that no transformation was needed. This illustrates how the distribution of the residuals, not the distribution of the predictor, was the guiding factor in determining whether a transformation was needed. 2.4 Tests for Collinearity When there is a perfect linear relationship among the predictors, the estimates for a regression model cannot be uniquely computed. The term collinearity describes two variables are near perfect linear combinations of one another. When more than two variables are involved, it is often called multicollinearity, although the two terms are often used interchangeably. The primary concern is that as the degree of multicollinearity increases, the regression model estimates of the coefficients become unstable and the standard errors for the coefficients can get wildly inflated. In this section, we will explore some SAS options used with the model statement that help to detect multicollinearity. We can use the vif option to check for multicollinearity. vif stands for variance inflation factor . As a rule of thumb, a variable whose VIF values is greater than 10 may merit further investigation. Tolerance, defined as 1VIF, is used by many researchers to check on the degree of collinearity. A tolerance value lower than 0.1 is comparable to a VIF of 10. It means that the variable could be considered as a linear combination of other independent variables. The tol option on the model statement gives us these values. Let8217s first look at the regression we did from the last section, the regression model predicting api00 from meals, ell and emer . and use the vif and tol options with the model statement. The VIFs look fine here. Here is an example where the VIFs are more worrisome. In this example, the VIF and tolerance (1VIF) values for avged gradsch and colgrad are worrisome. All of these variables measure education of the parents and the very high VIF values indicate that these variables are possibly redundant. For example, after you know gradsch and colgrad . you probably can predict avged very well. In this example, multicollinearity arises because we have put in too many variables that measure the same thing: parent education. Let8217s omit one of the parent education variables, avged . Note that the VIF values in the analysis below appear much better. Also, note how the standard errors are reduced for the parent education variables, gradsch and colgrad . This is because the high degree of collinearity caused the standard errors to be inflated. With the multicollinearity eliminated, the coefficient for gradsch . which had been non-significant, is now significant. Let8217s introduce another option regarding collinearity. The collinoint option displays several different measures of collinearity. For example, we can test for collinearity among the variables we used in the two examples above. Note that if you use the collin option, the intercept will be included in the calculation of the collinearity statistics, which is not usually what you want. The collinoint option excludes the intercept from those calculations, but it is still included in the calculation of the regression. We now remove avged and see the collinearity diagnostics improve considerably. The condition number is a commonly used index of the global instability of the regression coefficients 8212 a large condition number, 10 or more, is an indication of instability. 2.5 Tests on Nonlinearity When we do linear regression, we assume that the relationship between the response variable and the predictors is linear. This is the assumption of linearity. If this assumption is violated, the linear regression will try to fit a straight line to data that does not follow a straight line. Checking the linear assumption in the case of simple regression is straightforward, since we only have one predictor. All we have to do is a scatter plot between the response variable and the predictor to see if nonlinearity is present, such as a curved band or a big wave-shaped curve. For example, let us use a data file called nations. sav that has data about a number of nations around the world. Below we look at the proc contents for this file to see the variables in the file (Note that the position option tells SAS to list the variables in the order that they are in the data file.) Let8217s look at the relationship between GNP per capita ( gnpcap ) and births ( birth ). Below if we look at the scatterplot between gnpcap and birth . we can see that the relationship between these two variables is quite non-linear. We added a regression line to the chart, and you can see how poorly the line fits this data. Also, if we look at the residuals by predicted plot, we see that the residuals are not nearly homoscedastic, due to the non-linearity in the relationship between gnpcap and birth . Now we are going to modify the above scatterplot by adding a lowess (also called quotloessquot) smoothing line. By default, SAS will make four graphs, one for smoothing of 0.1, 0.2, 0.3 and 0.4. We show only the graph with the 0.4 smooth. lt some output omitted gt The lowess line fits much better than the OLS linear regression. In trying to see how to remedy these, we notice that the gnpcap scores are quite skewed with most values being near 0, and a handful of values of 10,000 and higher. This suggests to us that some transformation of the variable may be useful. One of the commonly used transformations is a log transformation. Let8217s try it below. As you see, the scatterplot between lgnpcap and birth looks much better with the regression line going through the heart of the data. Also, the plot of the residuals by predicted values look much more reasonable. This section has shown how you can use scatterplots to diagnose problems of non-linearity, both by looking at the scatterplots of the predictor and outcome variable, as well as by examining the residuals by predicted values. These examples have focused on simple regression however, similar techniques would be useful in multiple regression. However, when using multiple regression, it would be more useful to examine partial regression plots instead of the simple scatterplots between the predictor variables and the outcome variable. 2.6 Model Specification A model specification error can occur when one or more relevant variables are omitted from the model or one or more irrelevant variables are included in the model. If relevant variables are omitted from the model, the common variance they share with included variables may be wrongly attributed to those variables, and the error term is inflated. On the other hand, if irrelevant variables are included in the model, the common variance they share with included variables may be wrongly attributed to them. Model specification errors can substantially affect the estimate of regression coefficients. Consider the model below. This regression suggests that as class size increases the academic performance increases. Before we publish results saying that increased class size is associated with higher academic performance, let8217s check the model specification. There are a couple of methods to detect specification errors. A link test performs a model specification test for single-equation models. It is based on the idea that if a regression is properly specified, one should not be able to find any additional independent variables that are significant except by chance. To conduct this test, you need to obtain the fitted values from your regression and the squares of those values. The model is then refit using these two variables as predictors. The fitted value should be significant because it is the predicted value. One the other hand, the fitted values squared shouldn8217t be significant, because if our model is specified correctly, the squared predictions should not have much of explanatory power. That is, we wouldn8217t expect the fitted value squared to be a significant predictor if our model is specified correctly. So we will be looking at the p-value for the fitted value squared. Let8217s try adding one more variable, meals . to the above model and then run the link test again. The link test is once again non-significant. Note that after including meals and full . the coefficient for class size is no longer significant. While acsk3 does have a positive relationship with api00 when no other variables are in the model, when we include, and hence control for, other important variables, acsk3 is no longer significantly related to api00 and its relationship to api00 is no longer positive . 2.7 Issues of Independence The statement of this assumption is that the errors associated with one observation are not correlated with the errors of any other observation cover several different situations. Consider the case of collecting data from students in eight different elementary schools. It is likely that the students within each school will tend to be more like one another that students from different schools, that is, their errors are not independent. We will deal with this type of situation in Chapter 4. Another way in which the assumption of independence can be broken is when data are collected on the same variables over time. Let8217s say that we collect truancy data every semester for 12 years. In this situation it is likely that the errors for observation between adjacent semesters will be more highly correlated than for observations more separated in time. This is known as autocorrelation. When you have data that can be considered to be time-series, you should use the dw option that performs a Durbin-Watson test for correlated residuals. We don8217t have any time-series data, so we will use the elemapi2 dataset and pretend that snum indicates the time at which the data were collected. We will sort the data on snum to order the data according to our fake time variable and then we can run the regression analysis with the dw option to request the Durbin-Watson test. The Durbin-Watson statistic has a range from 0 to 4 with a midpoint of 2. The observed value in our example is less than 2, which is not surprising since our data are not truly time-series. In this chapter, we have used a number of tools in SAS for determining whether our data meets the regression assumptions. Below, we list the major commands we demonstrated organized according to the assumption the command was shown to test. Detecting Unusual and Influential Data scatterplots of the dependent variables versus the independent variable looking at the largest values of the studentized residuals, leverage, Cook8217s D, DFFITS and DFBETAs Tests for Normality of Residuals Tests for Heteroscedasity kernel density plot quantile-quantile plots standardized normal probability plots Shapiro-Wilk W test scatterplot of residuals versus predicted (fitted) values White test Tests for Multicollinearity looking at VIF looking at tolerance Tests for Non-Linearity scatterplot of independent variable versus dependent variable Tests for Model Specification time series Durbin-Watson test 2.9 For more information
No comments:
Post a Comment