يختلف معامل ثبات الاختبار من مجموعة إلى أخرى من الأفراد بل وبين المستويات المختلفة من العينة الواحدة. وهذه الفروق لا يمكن التنبؤ بها إحصائياً ولكن يمكن توقعها بالتجربة أي بتجريب الاختبار على عينات مختلفة لحساب ثباته. فالاختبار الواحد يقيس وظائف مختلفة إذا طبق على أفراد من مستويات مختلفة من حيث القدرة. كما أن السن والذكاء والتجانس كلها خواص في العينة تؤثر في الثبات وفي طريقة الإجابة عن الفقرات ومدي الاعتماد على التخمين وعامل الصدفة.
يجب عند ذكر معامل ثبات الاختبار توضيح تفاصيل التجربة من حيث عدد وخصائص العينة والفترة بين القياسات المتتالية وأنواع معاملات الارتباط وطرق حساب الثبات. كما يجب أن يجرب الاختبار على عينات التقنين التي تنقسم بدورها إلى مجموعات فرعية كل مجموعة منها متجانسة من حيث خصائص معينة. ويراعي عند استخدام الاختبار فيما بعد أن يطبق الاختبار على عينات مشابهة حتى يمكن وضع مستوي للثقة وتحديد نسبة متوقعة لثبات درجات الأفراد فيما بعد فإذا اختير الفرد بناء على درجته على الاختبار كان الاختيار سليماً لأن درجته ثابتة. وإلا فإذا لم تكن الدرجة ثابتة بما يكفي، أو كان خطأ التجريب في القياس كبيراً ولم تكن الدرجة بالتالي ممثلة لتساوي القدرة الحقيقي لدي الفرد، كان حكماً مبنياً على قطاع صغير من السلوك، قطاع لا يتميز بالثبات ولا بالشمول والجوهرية. ومن هنا تأتي أهمية حساب الثبات لا في الاختبارات والمقاييس وحسب بل وأيضاً في كل من التقديرات والتقييمات التي نصدرها على الأفراد والجماعات.