VALIDITAS DAN RELIABILITAS SEBAGAI
PERANGKAT NILAI
Keberhasilan mengungkapkan hasil dan proses belajar siswa sebagaimana adanya (objektivitas hasil penilaian) sangat bergantung pada kualitas alat penilaiannya disamping pada cara pelaksanaannya.
Suatu alat penilaian dikatakan mempunyai kualitas yang baik apabila alat tersebut memiliki atau memenuhi dua hal, yakni ketepatannya (validitas) dan ketetapannya (reliabilitas).[1]
A. VALIDITAS
1. Penegrtian Validitas
Didalam buku Encyclopedia of Educational Evaluation yang ditulis oleh Scarvia B. Anderson dan kawan-kawan disebutkan: A test is valid if it measures what it purpose to measure. Atau jika diartikan lebih kurang demikian: sebuah tes dikatakan valid apabila tes tersebut mengukur apa yang hendak diukur. Dalam bahasa Indonesia “valid” disebut dengan istilah “sahih”.[2]
Validitas (kesahihan) adalah kualitas yang menunjukkan hubungan antara suatu pengukuran (diagnosis) dengan arti atau tujuan kriteria belajar atau tingkah laku.
Validitas merupakan syarat yang terpenting dalam suatu alat evaluasi. Suatu teknik evaluasi dikatakan mempunyai validitas yang tinggi jika teknik evaluasi dapat mengukur apa yang sebenarnya akan ukur. [3]
Validitas atau ketepatan yang berkenaan dengan ketetapan alat penilaian yang terhadap konsep yang dinilai sehingga betul-betul menilai apa yang seharusnya dinilai. Sebagai contoh menilai kemampuan siswa dalam matematika. Misalnya diberikan soal dengan kalimat yang panjang dan berbelit-belit sehingga sukar ditangkap maknany. Akhirnya siswa tidak dapat menjawab karena tidak memahami pertanyaannya. Maka penilaian tersebut tidak tepat (valid). Namun alat penilaian yang telah valid untuk suatu tujuan tertentu belum tentu valid pada tujuan yang lain, karena validitas itu tidak berlaku universal sebab bergantung pada situasi dan tujuan penilaian.[4]
2. Macam – macam Validitas
Secara garis besar ada dua macam validitas, yaitu validitas logis dan validitas empiris.
a. Validitas Logis
Istilah “ validitas logis’ mengandung kata “logis” berasal dari kata “logika”, yang berarti penalaran. Dengan makna demikian maka validitas logis untuk sebuah instrument evaluasi menunjukkan pada kondisi bagi sebuah instrument yang memenuhi persyaratan valid berdasarkan hasil penalaran. Ada dua macam validitas logis yang dapat dicapai oleh sebuah instrument yaitu: validitas isi dan validitas konstrak (construct validity).
b. Validitas Empiris
Istilah “validitas Empiris” memuat kata “empiris” yang artinya “pengalaman”. Sebuah instrument dapat dikatakan memiliki validitas empiris apabila sudah diuji dari pengalaman. Validitas empiris tidak dapat diperoleh hanya dengan menyusun instrument berdasarkan ketentuan seperti halnya validitas logis, tetapi harus dibuktikan melalui pengalaman. Sebagai contoh sehari-hari, seseorang dapat diakui jujur oleh masyarakat apabila dalam pengalaman dibuktikan bahwa orang tersebut memang jujur. Ada dua macam validitas empiris, yakni bagi instrument yang kondisinya sesuai dengan kriterium yang sudah tersedia, yang sudah ada, disebut memiliki validitas “ada sekarang” atau concurrent validity dan instrument yang kondisinya sesuai dengan kriterium yang diramalkan akan terjadi, disebut memiliki validitas ramalan atau validitas prediksi atau disebut predictive validity.[5]
Dari uraian di atas maka secara keseluruhan kita mengenal empat jenis validitas yang sering digunakan, yakni:
1) Validitas isi (content validity)
Sebuah tes dikatakan memiliki validitas isi apabila mengukur tujuan khusus tertentu yang sejajar dengan materi atau isi pelajaran yang diberikan. Oleh karena materi yang diajarkan tertera dalam kurikulum maka validitas isi ini sering juga disebut validitas kurikuler.
2) Validitas konstruksi (construck validity)
Sebuah tes dikatakan memiliki validitas kontruksi apabila butir-butir soal yang membangun tes tersebut mengukur setiap aspek berpikir seperti yang disebutkan dalam tujuan Instruksional Khusus. Dengan kata lain jika butir-butir soal mengukur aspek berpikir tersebut sudah sesuai dengan aspek berfikir yang menjadi tujuan instruksional.
“konstruksi” dalam pengertian ini bukanlah “susunan” seperti yang sering dijumpai dalam teknik, tetapi merupakan rekaan psikologis yaitu suatu rekaan yang dibuatoleh para ahli Ilmu Jiwa yang dengan suatu cara tertentu “memerinci” isi jiwa atas beberapa aspek seperti: ingatan (pengetahuan), pemahaman, aplikasi, dan seterusnya. Dalam hal ini,mereka menganggap seolah-olah jiwa dapat dibagi-bagi. Tetapi sebenarnya tidak demikian. Pembagian ini hanya merupakan tindakan sementara untuk mempermudah mempelajari.
3) Validitas “ada sekarang” (concurrent validity)
Validitas ini lebih umum dikenal dengan validitas empiris. Sebuah tes dikatakan memiliki validitas empiris jika hasilnya sesuai dengan pengalaman. Jika ada istilah “sesuai” tentu ada dua hal yang dipasangkan. Dalam hal ini hasil tes dipasangkan dengan hasil pengalaman. Pengalaman selalu mengenai halyang telah lampau sehingga data pengalaman tersebut sekarang sudah ada.
4) Validitas prediksi (predicative validity)
Memprediksi artinya meramal, dengan meramal selalu mengenai halyang akan datang jadi sekarang belum terjadi. Sebuah tes dikatakan memiliki validitas prediksi atau validitas ramalan apabila mempunyai kemampuan untuk meramalkan apa yang akan terjadi pada masa yang akan datang.[6]
Validitas suatu tes dinyatakan dengan angka korelasi koefisien (r). kriteria korelasi koefisien adalah sebagai berikut:
ü 0,00 – 0,20 sangat rendah (hamper tidak korelasi)
ü 0,02 – 0,40 korelasi rendah
ü 0,40 – 0,70 korelasi cukup
ü 0,70 – 0,90 korelasi tinggi
3. Teknik Mengetahui Validitas Alat Ukur
Teknik yang digunakan untuk mengetahui kesejajaran antara hasil tes dengan kriterium adalah teknik korelasi produck moment yang dikemukakan oleh pearson.
Rumus korelasi produck moment ada dua macam, yaitu:
a. Korelasi produck moment dengan simpangan
Rumusya sebagai berikut:
| rxy = Σxy √(Σx2) (Σy2) |
Dimana:
rxy = koefisien korelasi antara variable X dan variable Y, dua variable yang dikorelasikan (x = X – X dan y = Y – Y).
Σxy = jumlah perkalian x dengan y
x2 = kuadrat dari x
y2 = kuadrat dari y
b. Korelasi produck moment dengan angka kasar.
Rumusnya sebagai berikut:
| rxy = | NΣXY – (ΣX) (ΣY) |
| √{NΣX2 – (ΣX)2} {NΣY2 – (ΣY)2} |
Dimana:
rxy = koefisien korelasi antara variable X dan variable Y, dua variable yang dikorelasikan.
Koefisien korelasi selalu terdapat antara -1,00 sampai +1,00. Namun karena dalam menghitung sering dilakukan pembulatan angka-angka, sangat mungkin diperoleh koefisien lebih dari 1,00. Koefisien negative menunjukkan hubungan kebalikan sedangka koefisien positif menunjukkan adanya kesejajaran untuk mengadakan interprestasi mengenai besarnya koefisien korelasi adalah sebagai berikut:
- Antara 0,800 sampai dengan 1,00 : sangat tinggi
- Antara 0,600 sampai dengan 0,800 : tinggi
- Antara 0,400 sampai dengan 0,600 : cukup
- Antara 0,200 sampai dengan 0,400 : rendah
- Antara 0,00 sampai dengan 0,200 : sangat rendah.
Penggunaan kedua rumus diatas masing-masing memiliki keuntungan. Menggunakan rumus simpangan angkanya kecil-kecil, tetapi kadang-kadang pecahannya rumit. Penggunaan rumus angka kasar bilangannya besar-besar tetapi bulat. Jika ada kalkulatorstatistik disarankan menggunakan rumus angka kasar saja.
4. Validitas Butir Soal (Validitas Item)
Diatas merupakan penjelasan tentang validitas soal secara keseluruhan tes, selain mencari validitas soal juga perlu mencari validitas item atau validitas butir soal. Pengertian umum validitas item adalah sebuah item dikatakan valid jika mempunyai dukungan besar terhadap skor total. Skor pada item menyebabkan skor total menjadi tinggi atau rendah. Dengan kata lain bahwa sebuah item memiliki validitas yang tinggi jika skor pada item mempunyai kesejajaran dengan skor total. Kesejajaran ini dapat diartikan pula korelasi sehingga untuk mengetahui validitas item dapat rumus korelasi seperti yang sudah diterangkan diatas.[8]
Dalam menentukan validitas juga digunakan tes standar sebagai kriterianya. Tes standar adalah tes yang telah dicobakan berkali-kali sehingga dapat dijamin kebaikannya. Di negara-negara berkembang biasa tersedia tes semacam ini, dan dikenal dengan nama standardized test.
5. Validitas Faktor
Selain validitas soal secara keseluruhan dan validitas butir atau item, masih ada lagi yang perlu diketahui validitasnya, yaitu faktor-faktor atau bagian keseluruhan materi. Setiap keseluruahn materi pelajaran terdiri dari pokok-pokok bahasan atau mungkin sekelompok pokok bahasan yang merupakan satu kesatuan.
Butir-butir soal faktor dikatakan valid apabila menunjukkan kesejajaran skor dengan skor total. Cara mengetahui kesejajaran tersebut digunakan juga rumus korelasi produck moment.[9]
B. RELIABILITAS
1. Pengertian Reliabilitas
Reliabilitas berhubungan dengan masalah kepercayaan. Suatu tes dapat dikatakan mempunyai taraf kepercayaan yang tinggi jika tes tersebut dapat memberikan hasil yang tetap. Maka pengertian reliabilitas tes, berhubungan dengan masalah ketetapan hasil tes.
Reliabilitas suatu alat yang pengukur adalah derajat keajegan alat tersebut dalam mengukur apa saja yang diukurnya. Sifat ini penting dalam segala jenis pengukuran. Ahli jiwa dan pen bdidik harus memperhatikan keajegan alat pengukur yang dipakainya ketika ia berusaha mengukur ciri-ciri yang kompleks seperti kecerdasan, hasil belajar, motivasi, kegelisahan dan sebagainya. Ia tidak akan menganggap suatu tes kecerdasan berharga kalau tes tersebut memberikan hasil yang jauh berbeda setiap kali digunakan pada subyek yang sama. Pemakai alat pengukur semacam itu harus menetapkan dan menggunakan teknik-teknik yang dapat membantunya menentukan seberapa jauh alat pengukur tersebut ajeg dan dapat dipercaya.
Untuk membedakan konsep reliabilitas dan konsep validitas, ada baiknya kita mengenal kesalahan acak pengukuran (random errors of measurement) dan kesalahan sistematis pengukuran (sistematic errors of measurement). Kesalahan acak menunjuk pada kesalahan yang merupakan akibat dari faktor kebetulan murni dan berpengaruh terhadap konsistensi skor. Selain itu, ada beberapa kesalahan dalam pengukuran yang dapat diramalkan atau yang sistematis.
Reliabilitas berkenaan dengan keajegan kita mengukur apa saja yang kita ukur. Reliabilitas tidak berurusan dengan apakah kita mengukur apa yang ingin kita mengukur itu adalah masalah validitas. Pengukuran bisa reliable (dapat dipercaya) tanpa harus valid. Akan tetapi, pengukuran tidak akan bisa valid kalau pengukuran itu tidak reliabel. Reliabilitas dipengaruhi oleh kesalahan acak, yaitu faktor yang akan menyebabkan perbedaan skor dalam penggunaan alat pengukur secara berulang-ulang. Kesalahan acak timbul dari beberapa sumber, kesalahan itu mungkin melekat (inherent) dalam alat itu sendiri atau juga melekat dalam pelaksanaan penggunaan istrumen. Ada juga kesalahan yang dilakukan oleh hal yang kita teliti.
2. Persamaan-persamaan untuk Reliabilitas
Prosedur reliabilitas ada hubungannya dengan usaha menetapkan tingkat ketidakajegan skor yang diakibatkan oleh kesalahan acak. Reliabilitas suatu tes dinyatakan secara matematis sebagai dugaan terbaik tentang beberapa proporsi variansi total skor tersebut yang merupakan variansi sejati (true variance). Variasi adalah indeks penyebaran dari seperangkat skor. Kalau kita memberikan tes kepada sekelompok siswa, maka sebagian dari penyebaran (variansi) skor itu disebabkan oleh perbedaan sejati di antara kelompok itu, dan sebagian penyebaran (variansi) lainnya disebabkan oleh kesalahan pengukuran.
Pengertian komponen kesalahan dan komponen sejati yang terdapat dalam satu tes ini dapat dinyatakan secara matematis dengan rumus
| X = b + s |
Dimana :
X = skor yang diamati
b = komponen sejati (true component)
s = komponen kesalahan (error component)
Komponen sejati dapat dirumuskan skor yang akan dicapai seseorang apabila alat pengukur yang dipakai itu sempurna. Komponen kesalahan bisa positif atau negatif. Jika komponen kesalahan itu positif, skor sejati individu itu akan dinilai terlalu tinggi (overestimate) oleh skor yang diamati. Sedangkan jika komponen kesalahan itu negatif, skor sejati anak itu akan dinilai terlalu rendah (underestimate). Karena dianggap bahwa kesalahan pengukuran mempunyai kemungkinan yang sama untuk menjadi positif atau negatif, maka dapat diambil kesimpulan bahwa jumlah kesalahan dan mean kesalahan-kesalahan itu akan menjadi nol jika alat pengukur yang sama atau bentuk yang sama dari instrumen tersebut.
Setiap skor yang diamati mempunyai komponen skor sejati dan komponen skor kesalahan. Telah ditunjukkan secara matematis bahwa variasi skor yang diamati dari sekelompok-besar subyek 2 ) sama dengan variansi skor sejati mereka 2 ) ditambah variansi kesalahan pengukuran mereka 2 ), atau
2 = 2 + 2
Secara teoritis, reliabilitas dapat dirumuskan sebagai pertandingan variansi skor sejati dengan variansi skor diamati dalam seperangkat skor. Artinya, reliabilitas sama dengan
=
Dimana :
= reliabilitas tes
2 = variansi skor sejati
2 = variansi skor diamati
Reliabilitas adalah proporsi variansi dalam skor diamati yang bebas dari kesalahan.
rxx = 1 -
3. Pendekatan Terhadap Reliabilitas
Suatu tes dapat dipercaya sejauh skor yang diperoleh seorang individu dalam tes itu tetap hampir sama dalam pengukuran yang berulang-ulang. Ada dua pendekatan untuk mengungkapkan reliabilitas seperangkat pengukuran.
1. Salah satu pendekatan menunjukkan banyaknya variansi/ perbedaan yang diharapkan dalam seperangkat pengukuran yang berulang kali terhadap seorang individu.
2. Reliabilitas pengukuran juga menunjukkan seberapa jauh tiap-tiap individu tetap mempertahankan kedudukan relatifnya di dalam kelompok.
4. Indeks Reliabilitas
Reliabilitas dapat diperkirakan dengan cara mengorelasikan skor-skor yang diperoleh seseorang pada waktu-waktu yang berbeda atau dengan kelompok-kelompok pertanyaan yang sepadan. Prosedur ini memerlukan pelaksanaan tes dua kali. Prosedur lainnya dilakukan dengan jalan secara artifisial membagi satu tes menjadi dua bagian yang sama atau dengan jalan menetapkan keajegan internal tes tersebut.
a. Reliabilitas Tes Ulang
Cara yang jelas untuk menduga reliabilitas suatu tes adalah dengan memberikan tes itu dua kali kepada sekelompok individu yang sama dan kemudian kedua skornya dikorelasikan. Koefisien korelasi yang diperoleh dengan prosedur ini disebut koefisien reliabilitas tes ulang (test-retest reliability coefficient).
Koefisien tes ulang berasumsi bahwa karakteristik yang diukur oleh tes itu stabil sepanjang masa, sehingga setiap perubahan skor yang terjadi dari waktu kewaktu dianggap sebagai disebabkan oleh kesalahan acak. Kesalahan itu mungkin disebabkan oleh kondisi para subjek itu sendiri, atau oleh kondisi pengujian. Koefisien tes juga berasumsi bahwa tidak ada pengaruh praktek atau pengaruh ingatan.
Prosedur tes ulang ini biasanya tidak sesuai bagi tes-tes dibidang kognitif. Penggunaan prosedur ini disekolah kebanyakan terbatas pada ukuran-ukuran kesegaran jasmani dan kemampuan atletik.
b. Reliabilitas Bentuk Setara (Equivalen-Forms Reliability).
Teknik bentuk setara untuk menduga reliabilitas, yaitu juga disebut sebagai teknik bentuk-pengganti (alternate-forms) atau bentuk-parallel (parallel-from) dipakai jika ada kemungkinan subyek akan ingat kembali jawaban mereka terhadap butir-butir tes yang terdahulu.
Teknik bentuk setara ini sebaiknya dipakai jika peneliti ingin menghindari pengaruh ingatan atau pengaruh praktek, serta jika ia dapat memperoleh sejumlah besar butir tes, sehingga dapat memilih sampel-sampel yang setar. Pada umumnyaprosedur bentuk setara ini dianggap sebagai dugaan terbaik bagi reliabilitas ukuran akdemis dan psikologis.
c. Reliabilitas Belah Dua (Split Half Reliability)
Dengan menggunakan prosedur belah dua, kita dapat memperoleh ukuran reliabilitas dari sekali pemberian satu bentuk tes. Tes tersebut diberikan kepada sekelompok subyek, kemudian butir-butir tes tersebut dibagi menjadi dua bagian yang sebanding. Sesudah itu dicari skor tiap-tiap individu dikedua bagian itu dan dihitung koefisien korelasi kedua skor tersebut.
Koefisien korelasi yang dihitung dari kedua bagian itu secara sistematis akan menilai terlalu rendah reliabilitas keseluruhan tes tersebut. Jika segala sesuatu lainnya sama, maka tes yang panjang akan lebih reliable daripada tes yang pendek. Untuk mengubah korelasi belah dua menjadi dugaan reliabilitas yang cocok untuk keseluruhan tes, maka digunakan rumus ramalan Spearman – Brown :
rxx = 2 r½½
1 + r½½
Dimana:
rxx = dugaan reliabilitas tes keseluruhan
r½½ = korelasi r pearson antara kedua bagian.
Prosedur Spearman – Brown ini didasarkan pada asumsi bahwa kedua bagian itu parallel. Karena asumsi ini sering tidak benar, dalam prakteknya teknik belah dua dengan koreksi Spearman – Brown ini cenderungmenduga reliabilitas terlalu tinggi jika dibandingkan dengan prosedur tes ulang atau bentuk setara. Hal ini hendaknya selalu diingat pada waktu menilai reliabilits tes-tes yang bersaing.
Koefisien reliabilitas belah dua ditafsirkan sebagaimana halnya koefisien kesetaraan karena koefisien ini mencerminkan fluktuasi dari satu sampel soal ke sampel soal lainnya. Namun, koefisien belah dua juga disebut sebagaikoefisien konsistensi internal (coefficient of internal consistency) karena kedua bentuk setara itu berada didalam satu tes.
d. Kesamaan Rasional (Rantionale Equivalence).
Prosedur ini menduga reliabilitas melalui penetapan bagaimana hubungan setiap butir dalam satu tes dengan butir-butir lainnya serta dengan tes itu sendiri secara keseluruhan. Prosedur ini antara lain adalah Alpha menurut Cronbach, teknik variansi menurut Hoyt dan yang paling mudah diantara prosedur-prosedur ini adalah rumus dari Kuder-Richardson:
rxx = Kσx2 – X (K – X)
σσx2 ( K – 1)
dimana:
rxx = reliabilitas tes secara keseluruhan
K = jumlah butir soal dalam tes
σx2 = variansi skor
X = mean skor
Metode ini hanya memerlukan satu kali pemberian tes dan hanya menggunakan informasi yang mudah didapat.
e. Interprestasdi Koefisien Reliabiltas
Interprestasi Koefisien Reliabilitas hendaknya didasarkan padabebrapa pertimbangan. Ada beberapa factor yang mempengaruhi koefisien reliablitas yang apabila tidak dipertimbangkan, akan membuat interprestasi itu dangkal sifatnya.
§ Reliabilitas tes sebagian merupakan fungsi dari panjangnya tes itu
§ Reliabilitas sebagian merupakan fungsi heterogenitas kelompok.
§ Reliabilitas suatu tes sebagian merupakan fungsi dari kemampuan individu yang mengerjakan tes tersebut
§ Reliabilitas untuk sebagian adalah fungsi dari teknik yang digunakan untuk menduganya.
§ Reliabilitas untuk sebagian adalah fungsi dari sifat variable yang diukur.
5. Salah baku pengukuran (Standard Error of Measurement)
Salah baku pengukuran merupakan suatu dugaan tentang rentangan variasi (perbedaan) dalam seperangkat pengukuran yang dilakukan berulang-ulang terhadap hal yang sama. Salah baku pengukuran dapat ditafsirkan sebagaimana ukuran simpangan baku lainnya. Artinya, kalau dapat diasumsikan bahwa kesalahan pengukuran skor tertentu mempunyai sebaran normal dan merata di sepanjang rentangan skor tersebut, maka dapat dikatakan dengan kemungkinan sekitar dua dibanding tiga, bahwa skor sejati (true score) seorang individu terletak dalam rentangan ± 1 σM dari skornya yang dapat diamati (Observed score).[10]
Jadi, sebagai indikator reliabilitas suatu tes, kita mencari nilai salah baku pengukuran yang rendah atau koefisien reliabilitas yang tinggi.
DAFTAR PUSTAKA
Arikunto, Suahrsimi. 2010. Dasar-dasar Evaluasi Pendidikan. Jakarta: Bumi Aksara.
Furchan, Arief. 2001. Pengantar Penelitian Dalam Pendidikan. Surabaya: Usaha Nasional.
Purwanto, M. Ngalim. 2010. Prinsip-prinsip dan Teknik Evaluasi Pengajaran. Bandung: Remaja Rosda karya,
Sudjana, Nana. 2008. Penilaian Hasil Proses Belajar Mengajar. Bandung: Remaja Rosda karya.
[1] DR. Nana Sudjana, PENILAIAN HASIL PROSES BELAJAR MENGAJAR (Bandung: Remaja Rosdakarya, 2008) hal. 12
[2] Prof. Dr Suharsimi Arikunto, DASAR-DASAR EVALUASI PENDIDIKAN (Jakarta: Bumi Aksara, 2010) hal. 65
[3] Drs. M. Ngalim Purwanto, M.P., PRINSIP-PRINSIP DAN TEKNIK EVALUASI PENGAJARAN (Bandung: Remaja Rosdakarya, 2010) hal. 137
[4] DR. Nana Sudjana, Op-Cit hal. 12
[5] Prof. Dr Suharsimi Arikunto, Op-Cit hal. 65-66
[6] Ibid hal. 67-69
[7] Drs. M. Ngalim Purwanto, M.P., Op-Cit, hal. 139
[8] Prof. Dr Suharsimi Arikunto, Op-Cit hal.69-77
[9] Ibid. hal 80-83
[10] Drs.Arief Furchan, Pengantar Penelitian Dalam Pendidikan (Surabaya: Usaha Nasional, 2001) hal. 295-311
tak ku duga,, ternyata tampilan blog kita sama..
BalasHapusaq copas artikelnya ya...
buat rangkuman matakuliah evaluasi pendidikan, hrus di tulis tngan lgi... jadi cari yg pendek aja sperti ini biar gk capek nulisnya..