Cara Menganalisis/menghitung Tingkat Kesukaran Soal

Tingkat kesukaran suatu item (butir soal) dinyatakan dalam bentuk indeks kesukaran (diffculty index) yang disimbulkan dengan huruf P (Aswar, 1996: 134) (Suryabrata, 1997: 12-15) (Arikunto, 1995: 211-215) (Fernandes, 1984: 25-27) (Thoha, 1994: 145-146).

Indeks kesukaran merupakan rasio antara penjawab item dengan benar dan banyaknya penjawab item (testee yang menjawab). Secara teoritik dikatakan bahwa P sebenarnya merupakan probabilitas empirik untuk lulus item tertentu bagi sekelompok siswa tertentu. Indeks kesukaran item tersebut dapat diformulasikan sebagai berikut:

Keterangan:

P = indeks kesukaran item

JSB = jumlah testee yang menjawab item dengan benar

JS = jumlah testee yang menjawab item.

Sebagai contoh, dari 100 siswa yang dikenai suatu tes, ternyata item nomor 1 dapat dijawab benar oleh 65 orang di antara mereka, sedangkan selainnya 35 menjawab salah. Maka item nomor 1 tersebut indeks kesukarannya (p) adalah 65 dibagi 100 = 0,65.

Indeks kesukaran item soal berkisar antara 0,00 hingga 1,00. Semakin mendekati angka 1,00 menunjukkan item soal tersebut semakin mudah. Dengan demikian nilai indeks kesukaran item berlawanan arah dengan tingkat kesukaran, sehingga indeks tersebut lebih tepat dikatakan sebagai indeks kemudahan dari pada indeks kesukaran. Namun sudah menjadi kesepakatan (salah kaprah), meskipun nilai indeks berlawanan arah dengan tingkat kesukaran tetap dikenal dengan istilah indeks kesukaran.

0,00 1,00

sukar / sulit mudah

Untuk menentukan taraf kesukaran yang ideal tergantung pada beberapa faktor, antara lain: sifat hal yang diukur, interkorelasi antara item, tujuan khusus si perancang tes dan sesebagainya. Apabila tujuab pengukuran itu adalah untuk pengukuran penguasaan (mastery testing), maka indeks yang diinginkan adalah 1,00. Namun jika tujuan tes hendak menyeleksi secara ketat terhadap sejumlah testee, maka diperlukan indeks kesukaran yang rendah (mendekati nol).

Namun demikian, mengingat pada umumnya tes juga bertujuan untuk mengetahui tingkat perbedaan kemampuan (competence testing) testee, kebanyakan ahli berpendapat bahwa tes yang terbaik adalah tes yang terdiri atas item-item soal yang mempunyai taraf kesukaran sedang (cukup) dan rentang distribusi kesukarannya kecil, yakni item tes dengan indeks kesukaran antara 0,30 sampai 0,70 (Mehren, 1973: 329) (Fernandes, 1984: 29) (Sudijono, 1996: 372).

Item soal yang terlalu sulit dengan indeks kesukaran terlalu rendah (mendekati 0,00) dan item soal yang terlalu mudah dengan indeks kesukaran tinggi (mendekati 1,00) secara umum tidak banyak memberikan kontribusi keefektifan suatu tes. Hal ini disebabkan butir soal tersebut tidak memiliki kemampuan untuk membedakan testee yang berkemampuan tinggi dengan testee yang berkemampuan rendah. Item soal yang terlalu mudah akan mampu dijawab benar oleh siswa yang memiliki kemampuan tinggi dan rendah. Sebaliknya item soal yang terlalu sulit, kedua kelompok testee menjawab salah. Dengan demikian daya diskrimansi item tersebut rendah atau tidak baik.

Perlu diingat bahwa besarnya harga P yang dihitung merupakan indeks kesukaran item soal bagi seluruh kelompok testee, buka indeks kesukaran bagi masing-masing testee secara individual. Taraf kesukaran bagi masing-masing testee adalah berbeda-beda dan kita tidak tahu seberapa sulit atau seberapa mudah suatu item soal bagi siswa. Harga P yang dihitung dalam kelompok hanya merupakan rata-rata indeks kesukaran bagi seluruh siswa dalam kelompok itu. Apa yang kita ketahui adalah apabila testee mampu menjawab benar suatu item soal berarti taraf kesukaran item tersebut lebih rendah dari pada taraf kemampuannya dalam menjawab. Sebaliknya, apabila testee salah menjawab suatu item soal berarti bahwa tingkat kemampuannya lebih rendah dari pada taraf kesukaran item yang bersangkutan.