BAB I
PENDAHULUAN
A.
Latar Belakang
Penilaian
dalam pendidikan sekurang-kurangnya mencakup penilaian program atau kurikulum,
penilaian proses pembelajaran, dan penilaian hasil belajar. Dalam pengertian
yang luas penilaian diartikan
sebagai suatu proses menentukan nilai dari suatu
objek dengan menggunakan kriteria tertentu. Oleh sebab itu, ciri utama
penilaiannya adalah adanya program yang dinilai dan judgment dalam menentukan
nilai, dan adanya suatu keriteria dalam menentukan atau menetapkan keberhasilan
penilaian.
Penilaian
tidak hanya berfungsi sebagai alat untuk mengetahui tercapai atau tidaknya
tujuan, tapi juga sebagai bahan dalam melakukan perbaikan program. Jenis
penilaian dapat dilihat atau dibedakan dari berbagai segi, antara lain dari
fungsinya, alat yang yang digunakan, kualitasnya, sifat-sifatnya dan
penyajiannya.
Dalam
makalah ini akan dibahas mengenai kriteria-kriteria dalam menilai kualitas alat
evaluasi. Karena keberhasilan mengungkapkan hasil dan proses belajar siswa
sebagaimana adanya (objektivitas hasil penilaian) sangat bergantung pada
kualitas alat penilaiannya.
B.
Rumusan
Masalah
Bagaimanakah kriteria
kualitas alat evaluasi ?
C.
Tujuan Penulisan
Mengetahui kriteria
kualitas alat evaluasi.
BAB
II
PEMBAHASAN
Ruseffendi (1980)
menyatakan bahwa dalam suatu kelompok individu (siswa) yang tidak dipilih
secara khusus memiliki karakteristik tertentu yang frekuensinya berdistribusi
normal. Begitu pula kepandaiannya dalam suatu mata pelajaran tertentu. Dengan
demikian suatu alat penilaian yang baik akan mencerminkan kemampuan sebenarnya
dari test yang dinilai dan bisa membedakan siswa yang pandai (di atas
rata-rata), siswa yang kemampuannya sedang (pada kelompok rata-rata), dan siswa
yang kemampuannya kurang (di bawah rata-rata), sehingga penyebaran skor atau
nilai tersebut berdistribusi normal.
Untuk mendapatkan hasil
penilaian yang baik tentunya diperlukan alat penilaian yang kualitasnya baik
pula di samping faktor lain yang dapat mempengaruhinya. Misalnya pelaksanaan
penilaian (pengawasan), kondisi tester (pembuat dan pemeriksa hasil tes), dan
keadaan lingkungan. Untuk mendapatkan hasil penilaian yang kualitasnya baik
perlu diperhatikan beberapa kriteria yang harus dipenuhi. Alat penilaian yang
baik dapat ditinjau dari hal-hal berikut ini:
A.
Validitas
Suatu alat penilaian
disebut valid (absah atau sahih) apabila alat tersebut mampu menilai apa yang
seharusnya dinilai. Dengan demikian suatu alat penilaian disebut valid jika ia
dapat menilai dengan tepat sesuatu yang dinilai itu. Alat evaluasi yang valid
untuk suatu tujuan tertentu belum tentu valid untuk tujuan (karakteritik) lain.
Dengan kata lain validitas (keabsahan, ketepatan) dari
suatu alat evaluasi
harus ditinjau dari karakteristik tertentu. Oleh karena itu untuk menentukan
validitas suatu alat evaluasi hendaklah dilihat dari berbagai aspek,
diantaranya validitas isi, validitas muka (luar), validitas konstuksi
(psikologis), validitas ramal, dan validitas banding.
Cara menentukan tingkat
(indeks) validitas kriterium ialah dengan menghitung koefisien korelasi antara
alat penilaian yang akan diketahui validitasnya dengan alat ukur lain yang
telah dilaksanakan dan diasumsikan telah memiliki validitas yang tinggi (baik),
sehingga hasil penilaian yang digunakan sebagai kriterium itu telah
mencerminkan kemampuan siswa sebenarnya. Makin tinggi koefisien korelasinya
makin tinggi pula validitas alat ukur tadi.
Banyak faktor yang dapat
mempengaruhi hasil suatu evaluasi sehingga bias
menyimpang dari keadaan yang sebenarnya untuk suatu penggunaan yang
dimaksudkan. Beberapa diantaranya adalah berasal dari dalam alat penilaian itu
sendiri. Pemeriksaan secara cermat tentang pokok-pokok uji (materi) akan
menunjukkan apakah alat penilaian itu dapat mengukur isi materi pelajaran dan
fungsi-fungsi intelektual yang ingin diketahui. Dalam hubungannya dengan
kegiatan belajar mengajar matematika, faktor-faktor ini akan dapat mengurangi
fungsi pokok uji sesuai dengan yang diharapkan sehingga bisa merendahkan
validitas alat evaluasi tersebut.
a.
Petunjuk yang tidak jelas
b.
Perbendaharaan kata dan
struktur kalimat yang sukar
c.
Penyusunan soal yang kurang
baik
d.
Kekaburan
e.
Derajat kesukaran soal yang
tidak cocok
f.
Materi tes tidak representatif
g.
Pengaturan soal yang kurang
tepat
h.
Pola jawaban yang dapat diidentifikasi
Prinsip yang penting
agar kita terhindar dari pembuatan soal (matematika) yang validitasnya rendah,
secara teoritik pahami konsep-konsep yang berkenaan dengan pengertian dan
macam-macam validitas, secara praktek cara pembuatan soal tipe subyektif dan
tipe obyektif harus pula dipahami.
B.
Reliabilitas
Suatu mistar terbuat
dari kayu dipakai untuk mengukur panjang sebuah pensil, dilihat pada skalanya
menunjukkan angka 30 cm. Mistar tersebut digunakan oleh orang lain untuk
mengukur panjang pensil yang sama dan hasilnya tetap, yaitu 30 cm. Begitu pula
jika pengukuran itu dilakukan pada waktu dan tempat yang berlainan, hasilnya
tetap sama. Untuk kondisi tersebut, dikatakan bahwa mistar tersebut sebagai
alat ukur panjang yang reliabel. Dari contoh di atas, reliabilitas suatu alat
ukur atau alat penilaian dimaksudakan sebagai suatu alat yang memberikan hasil
yang tetap sama (konsisten, ajeg). Hasil pengukuran itu harus tetap sama
(relatif sama) jika pengukurannya diberikan pada subjek yang sama meskipun dilakukan
pada orang yang berbeda, waktu yang berbeda, dan tempat yang berbeda pula.
Berkenaan dengan
penilaian, suatu alat penilaian (tes dan non tes) disebut reliabel jika hasil
penilaian tersebut relatif tetap jika digunakan untuk subjek yang sama. Istilah
relatif tetap di sini dimaksudkan tidak tepat sama, tetapi mengalami perubahan
yang tak berarti (tidak signifikan) dan bisa diabaikan.
Apabila suatu alat tes
matematika diberikan kepada sekelompok siswa, hasil tes tersebut untuk setiap
siswa relatif tetap (jika ada perubahan tidak mencolok) sehingga rata-rata
hitungnya (rerata, mean) tidak berbeda signifikan, untuk alat tersebut bisa
dikatakan reliabel. Tetapi jika terjadi banyak siswa yang asalnya mendapat skor
tinggi, pada tes berikutnya (dengan alat yang sama) mendapat skor rendah, atau
sebaliknya, dikatakan bahwa alat ukur tersebut tidak reliabel. Untuk
mengestimasi reliabilitas suatu alat penilaian (tes dan non tes) ada tiga cara
yang paling banyak dipergunakan, yaitu:
a.
Tes Tunggal (single test)
Tes Tunggal adalah tes
yang terdiri dari satu perangkat (satu set) yang dikenakan terhadap sekelompok
subyek dalam satu kali pelaksanaan. Dengan demikian hasil evaluasi ini hanya
terdapat satu kelompok data berupa skor hasil evalusi itu. Dari kelompok data
ini ditentukan reliabilitas alat evaluasi tersebut. Reliabilitas yang
didasarkan atas tes tunggal dinamakan “internal consistency reliability”.
b.
Tes Ulang (test retest)
Tes Ulang adalah tes
yang terdiri dari seperangkat tes yang dikenakan terhadap sekelompok subyek dua
kali. Reliabilitasnya dihitung dengan cara mengkorelasikan hasil evaluasi
pertama dengan yang kedua.
c.
Tes Ekuivalen (alternate test)
Tes Ekuivalen adalah tes
yang terdiri dari dua perangkat dimana soal-soal pada perangkat pertama
ekuivalen dengan soal-soal pada perangkat kedua. Pengertian ekuivalen di sini
adalah soal-soal yang memuat konsep yang sama, tetapi soal tersebut tidak
persis sama. Selain memuat konsep yang sama, tingkat kesukarannya pun harus
sama. Untuk menentukan reliabilitasnya dihitung dengan cara mengkorelasikan
hasil tes untuk soal perangkat pertama dengan hasil tes dari perangkat kedua.
Faktor-faktor yang dapat
mempengaruhi reliabilitas alat penilaian adalah sebagai berikut :
a.
Panjang Tes
Pada umumnya makin
panjang tes (butir soal makin banyak), makin tinggi pula reliabilitasnya. Hal
ini disebabkan karena tes yang butir soalnya lebih banyak akan memuat cukup
banyak kemampuan kognitif siswa yang dapat diungkapkan.
b.
Kondisi Testi
Suatu tes yang dicobakan
kepada kelompok testi yang beraneka ragam kemampuannya akan menghasilkan skor
yang heterogen, sehingga varians skor yang diperoleh akan besar. Hal ini akan
mempengaruhi nilai koefisien reliabilitas sehingga menjadi lebih tinggi. Begitu
pula jika peserta tes lebih banyak akan mengakibatkan keaneka-ragaman yang
lebih bervariasi yang berakibat langsung pada penyebaran skor.
c.
Kesukaran Tes
Materi tes yang terlalu
mudah atau terlalu sulit cenderung akan merendahkan reliabilitas. Hal ini
disebabkan karena skor yang diperoleh siswa untuk soal yang terlalu sulit atau
terlalu mudah berkelompok pada skor tinggi atau skor rendah, jadi sebaran
skornya terbatas.
d.
Pelaksanaan Tes
Faktor yang bersifat
administratif dalam melaksanakan tes akan mempengaruhi hasil tes, sehingga
secara langsung akan mempengaruhi pula derajat reliabilitas tes tersebut.
Petunjuk mengerjakan tes yang jelas akan memperlancar testi dalam mengerjakan
tes tersebut sehingga ia dapat berpikir tenang dalam mencurahkan segala
kemampuannya. Suasana yang tertib dan aman, tetapi tidak terlalu ketat, juga
akan mempengaruhi ketenangan siswa dalam berpikir
Dari uraian di atas mengenai
reliabilitas, tampak bahwa reliabilitas ini berhubungan dengan masalah
kepercayaan atau keterandalan. Suatu tes yang memiliki reliabilitas yang tinggi
jika dapat memberikan hasil yang relatif tetap. Kualitas alat penilaian yang
berkenaan dengan validitas dan reliabilitas tersebut penting. Akan tetapi
validitas lebih penting karena validitas mempengaruhi derajat reliabilitas,
sebaliknya belum tentu. Dengan demikian reliabilitas alat penilaian itu
sifatnya perlu sebagai akibat dari validitas.
C.
Daya Pembeda (Discriminating Power)
Pengertian Daya Pembeda
(DP) dari sebuah butir soal menyatakan seberapa jauh kemungkinan butir soal
tersebut mampu membedakan antara testi yang mengetahui jawabannya dengan benar
dengan testi yang tidak dapat menjawab soal tersebut (atau testi yang menjawab
salah). Dengan perkataan lain daya pembeda suatu butir soal adalah kemampuan
butir soal itu untuk membedakan antara testi (siswa) yang pandai atau
berkemampuan tinggi dengan siswa yang bodoh. Pengertian tersebut didasarkan
pada asumsi Galton bahwa suatu perangkat alat tes yang baik harus bisa
membedakan antara siswa yang pandai, rata-rata, dan yang bodoh karena dalam
suatu kelas biasanya terdiri dari ketiga kelompok tersebut.
D.
Indeks Kesukaran (Difficulty index)
Sejalan dengan
asumsi Galton mengenai kemampuan tertentu (karakteristik), dalam hal ini
kemampuan matematika, dari sekelompok siswa yang dipilih random (acak) akan
berdistribusi normal, maka hasil penilaian dari suatu perangkat tes yang baik
akan menghasilkan skor atau nilai yang membentuk distribusi normal. Hal ini
mempunyai implikasi bahwa soal yang baik akan menghasilkan skor yang
berdistribusi normal pula, sehingga sejalan dengan distribusi yang telah
diuraikan pada pembicaraan mengenai daya pembeda.
Jika soal tersebut
terlalu sukar, maka frekeunsi distribusi yang paling banyak terletak pada skor
yang rendah sebagian besar mendapat nilai yang jelek. Jika soal seperti ini
seringkali diberikan akan mengakibatkan siswa menjadi putus asa. Hal ini bukan
berati soal tersebut tidak boleh sukar, karena jika sewaktu-waktu atau dalam
seperangkat diberikan beberapa soal yang sukar akan melatih siswa untuk
berpikir lebih tinggi. Sebaliknya jika soal yang diberikan terlalu mudah, maka
frekuensi distribusi yang paling banyak berada pada skor yang tinggi, karena
sebagian besar siswa mendapat nilai baik.
E.
Efektifitas Option
Kata lain dari option
adalah alternatif jawaban atau kemungkinan jawaban yang harus dipilih. Dengan
demikian arti dari kata option adalah kemungkinan jawaban yang disediakan pada
butir soal (tes) tipe objektif bentuk pilihan ganda atau memasangkan untuk
dipilih oleh peserta tes, sesuai dengan petunjuk yang diberikan. Suatu option
disebut efektif jika memenuhi fungsinya atau tujuan yang disajikan option
tersebut tercapai. Hal ini berarti bahwa setiap option yang disajikan
masing-masing mempunyai kemungkinan yang sama untuk dipilih, jika testi
menjawab soal itu dengan menerka-nerka (spekulalsi). Option yang merupakan
jawaban yang benar disebut option kunci (key option), sedangkan option lainnya disebut
option pengecoh (distractor option).
Agar suatu option yang
disajikan efektif harus diusahakan homogen (serupa), baik dari isi (materi),
notasi, maupun panjang pendeknya kalimat pada option tersebut. Berdasarkan
distribusi pilihan pada setiap option untuk siswa kelompoatas dan kelompok
bawah, dapat ditentukan option yang berfungsi efektif dan yang tidak. Kriteria
option yang berfungsi secara efektif adalah :
a.
Untuk Option Kunci
1)
Jumlah pemilih kelompok atas
harus lebih banyak daripada jumlah pemilih kelompok bawah, yaitu siswa yang
pandai lebih banyak yang menjawab benar daripada siswa yang bodoh.
2)
Jumlah pemilih kelompok atas
dan kelompok bawah lebih dari 0,25 tetapi tidak lebih dari 0,75 dari seluruh
siswa pada kelompok atas dan kelompok bawah. Jika jumlah tersebut kurang dari
0,25 berarti sebagian besar testi kelompok atas dan kelompok bawah menjawab
salah untuk soal tersebut. Soal itu dikategorikan sukar atau terlalu sukar.
Sebaliknya jika jumlah tersebut lebh dari 0,75 soal itu termasuk kategori mudah
atau terlalu mudah.
b.
Untuk Option Pengecoh
1)
Jumlah pemilih kelompok atas
lebih sedikit (kurang) daripada jumlah pemilih kelompok bawah. Hal ini berarti
untuk jawaban yang salah siswa yang bodoh lebih banyak yang memilih daripada
siswa yang pandai. Idealnya siswa pandai tidak memilih jawaban yang salah dan
siswa yang bodoh memilihnya.
2)
Jumlah pemilih kelompok atas
dan kelompok bawah minimal sebanyak 0,25 dari seperdua jumlah option pengecoh
kali jumlah kelompok atas dan kelompok bawah. Dirumuskan dalam formula
matematika menjadi :
JPA = jumlah pemilih kelompok atas
JPB = jumlah pemilih kelompok bawah
n = banyak option pengecoh
JSA = jumlah subyek pada kelompok atas,
dan
JSB = jumlah subyek pada kelompok bawah
Ada pakar lain yang
mengemukakan bahwa rumus di atas terlalu menyulitkan, ia berpendapat bahwa
selain jumlah pemilih kelompok bawah harus lebih banyak daripada pemilih
kelompok atas untuk option pengecoh, option pengecoh itu harus dipilih minimum
oleh 5% peserta tes pada kedua kelompok siswa.
3) Jika
peserta tes mengabaikan semua option (tidak memilih) disebut omit. Option
disebut efektif jika omit ini jumlahnya tidak lebih dari 10% jumlah siswa pada
kelompok atas dan kelompok bawah.
Agar uraian diatas
lebih dipahami, perhatikan contoh berikut ini. Misalkan sebuah butir soal
bentuk pilihan ganda dengan 5 option dijawab oleh test kelompok atas dan
kelompok bawah seperti tampak pada tabel di bawah ini.
Soal No.
x
|
Option
|
Omit (o)
|
||||
Kelompok
|
a
|
B
|
C
|
d
|
e
|
|
Atas
|
2
|
6
|
0
|
7
|
4
|
1
|
Bawah
|
9
|
3
|
0
|
2
|
4
|
2
|
Berdasarkan
pada tabel di atas akan diuji efektifitas setiap option (termasuk omit) sebagai
berikut :
a. Untuk option (a) sebagai pengecoh berfungsi efektif, sebab
1) Jumlah pemilih kelompok atas kurang dari jumlah pemilih kelompok
bawah,
2) Jumlah pemilih kelompok atas dan kelompok bawah 2 + 9 = 11,
sedangkan nilai
b. Untuk option (b) sebagai pengecoh tidak efektif, sebab jumlah
pemilih kelompok atas lebih banyak daripada jumlah pemilih kelompok bawah.
Salah satu syarat tidak dipenuhi, syarat lainnya tidak perlu diperiksa.
c. Untuk option (c) dan (e) tidak efektif karena jumlah pemilih
kelompok atas dan kelompok kelompok bawah sama.
d. Untuk option (d) sebagai kunci jawaban, jumlah pemilih kelompok atas
lebih banyak daripada jumlah pemilih kelompok bawah dan jumlah pemilih kedua
kelompok itu sebanyak
Nilai tersebut kurang dari 0,25. jadi option (d) kurang efektif.
Soal tersebut terlalu sukar. 7 2 100% 1,225 40. Untuk omit masih dibawah
toleransi karena jumlahnya tidak lebih dari 4 (10% dari 40).
e.
Perlu
ditambahkan bahwa option (c) kemungkinan tidak homogen sehingga tampak tampak
sekali bahwa option itu salah. Siswa pada kedua kelompok tidak ada yang
memilihnya.
Uraian mengenai daya
pembeda, derajat kesukaran, dan efektifitas option dimuka lebih dikenal dengan
istilah Analisis Butir Soal atau Analisis Item. Analisis butir soal
bertujuan untuk mengidentifikasi soal-soal yang baik, kurang baik (cukup), atau
jelek (buruk) sehingga hasilnya dapat diperoleh informasi tentang kualitas soal
yang kita buat. Hal ini diperlukan untuk mengadakan perbaikan seperlunya,
minimal kita (sebagai guru) dapat menginstropeksi diri terhadap kemampuan kita
dalam membuat alat evaluasi. Dengan pengalaman dan pengetahuan yang terus
digali dan dimanfaatkan dalam pelaksanaan kegiatan belajar mengajar disekolah
diharapkan soal yang kita buat akan semakin baik kualitasnya. Dengan kata lain,
jika hasil evaluasi yang kita laksanakan kurang baik, salah satu cara
introspeksi adalah dengan mengkaji kembali kualitas tes yang dibuat. Sebaliknya
jika hasil evaluasi baik atau semuanya baik, jangan berbangga dulu. Periksalah
kembali soal yang dibuat, mungkin saja soalnya terlalu mudah.
F.
Objektivitas.
Dalam pemeriksaan hasil
tes, faktor subjektif pemeriksaan biasanya berperan, apalagi bila tes itu
berbentuk uraian. Meskipun demikian kita dapat mengurangi kelemahan ini sedapat
mungkin, seperti yang telah diuraikan pada bagian sebelumnya. Sebuah tes
hendaknya bersifat objektif. Hal ini maksudnya adalah hasil dari tes tersebut
harus selalu sama, meskipun diperiksa oleh orang yang berlainan.
Agar harapan tersebut
terpenuhi tes yang kita buat harus mempunyai jawaban yang jelas, tidak kabur,
jawabannya tentu dan tidak terlalu memberikan jawaban yang beraneka ragam.
Meski divergen jawaban siswa akan berakibat penilaian kurang objektif. Itulah
sebabnya mengapa pada pemeriksaan tes bentuk uraian hendaknya terlebih dahulu dibuat
kunci jawabannya atau paling tidak pokok-pokok jawabannya. Langkah ini bukan
saja sebagai pengecekkan ketepatan kalimat dalam soal, banyaknya waktu
penyelesaian yang dibutuhkan, tetapi juga sekaligus memperkirakan sampai sejauh
mana lingkup batasan jawaban siswa yang akan muncul.
Besarnya skor yang
diberikan kepada testi menunjukkan sampai sejauh mana tingkat penguasaan materi
yang telah dimiliki siswa tersebut. Gambaran yang dinyatakan dengan skor ini
hendaknya bersifat seobjektif mungkin. Karena itu tes yang memberikan nilai
(skor) tersebut harus objektif dan benar-benar mengevaluasi kemampuan siswa
secara tepat.
Jika dikaitkan dengan
reliabilitas, objektifitas memberi tekanan pada ketetapan sistem pemberian skor
sedangkan reliabilitas memberikan penekanan pada ketetapan hasil. Jelas bahwa
keduanya saling mempengaruhi atau saling ketergantungan, sistem pemberian skor
mempunyai dampak terhadap ketetapan hasil.
Ada dua faktor yang
penting yang bisa mempengaruhi derajat objektifitas tersebut di atas, yaitu :
a.
Tipe Tes
Tes dengan tipe uraian
akan lebih banyak mengurangi objektifitas daripada tes tipe objektif. Soal
bentuk uraian memerlukan proses pemeriksaan yang cukup memakan waktu, karena
jawabannya bisa panjang lebar sehingga setiap proses (langkah) pengerjaan testi
diperiksa. Disinilah seringkali muncul faktor yang mengurangi objektifitas
tersebut. Lain halnya untuk soal tipe objektif yang jawabannya pasti.
b.
Penilaian/Pemeriksa
Faktor-faktor yang dapat
mempengaruhi objektifitas dari penilai antara lain kesan penilai terhadap
pribadi siswa, tulisan, bahasa, kerapian pekerjaan. Selain daripada itu kondisi
penilai dan lingkungan bisa juga mempengaruhi.
G.
Praktikabilitas
Tes yang baik harus
bersifat praktis, dalam arti mudah dilaksanakan dan efisien dari segi biaya dan
tenaga. Dalam penyusunan tes hendaknya biaya yang diperlukan tidak terlampau
tinggi, namun masih memenuhi persyaratan sebuah tes yang baik. Sebuah tes juga
disebut praktis bila pemeriksaannya mudah dan dapat dianalisis dalam waktu
relatif singkat.
BAB III
PENUTUP
A.
Kesimpulan
Untuk mendapatkan hasil
penilaian yang kualitasnya baik perlu diperhatikan beberapa kriteria yang harus
dipenuhi. Alat penilaian yang baik dapat ditinjau dari hal-hal berikut ini:
1.
Validitas
2.
Reabilitas
3.
Daya Pembeda (Discriminating Power)
4.
Indeks Kesukaran (Difficulty index)
5.
Efektifitas Option
6.
Objektivitas.
7.
Praktikabilitas
0 komentar:
Post a Comment