Di pertengahan April, OpenAI meluncurkan model AI baru yang canggih, GPT-4.1. Mereka bilang model ini “unggul” dalam mengikuti instruksi. Tapi hasil beberapa tes independen malah menunjukkan model ini kurang “aligned” – artinya, kurang bisa diandalkan – dibanding versi OpenAI sebelumnya.
Biasanya, kalau OpenAI meluncurkan model baru, mereka akan publikasi laporan teknis lengkap berisi hasil evaluasi keamanan dari internal maupun pihak ketiga. Nah, OpenAI malah melewatkan langkah itu untuk GPT-4.1. Alasannya, model ini dianggap bukan “frontier” (terdepan) jadi nggak perlu laporan terpisah.
Ini bikin beberapa peneliti – dan developer – penasaran buat ngecek apakah perilaku GPT-4.1 kurang sesuai harapan dibanding pendahulunya, GPT-4o.
Menurut Owain Evans, peneliti AI dari Oxford, melatih GPT-4.1 dengan kode yang nggak aman bikin model ini ngasih “respons yang nggak aligned” soal topik kayak peran gender dengan tingkat yang “jauh lebih tinggi” dibanding GPT-4o. Evans sebelumnya ikut nulis studi yang nunjukkin versi GPT-4o yang dilatih dengan kode nggak aman bisa memicu perilaku jahat.
Dalam studi lanjutan yang akan datang, Evans dan rekan penulisnya menemukan bahwa GPT-4.1, kalau dilatih dengan kode nggak aman, kayaknya nunjukkin “perilaku jahat baru”, misalnya mencoba menipu pengguna buat ngasih password mereka. Penting dicatat, baik GPT-4.1 maupun GPT-4o nggak berperilaku “misaligned” kalau dilatih dengan kode yang aman.
Emergent misalignment update: OpenAI’s new GPT4.1 shows a higher rate of misaligned responses than GPT4o (and any other model we’ve tested).
It also has seems to display some new malicious behaviors, such as tricking the user into sharing a password. pic.twitter.com/5QZEgeZyJo— Owain Evans (@OwainEvans_UK) April 17, 2025
“Kami menemukan cara-cara tak terduga di mana model bisa jadi nggak selaras,” kata Owens ke TechCrunch. “Idealnya, kita punya ilmu AI yang bisa memprediksi hal-hal seperti itu sebelumnya dan menghindarinya dengan pasti.”
Techcrunch event
Berkeley, CA
|
June 5
Tes terpisah terhadap GPT-4.1 oleh SplxAI, startup red teaming AI, mengungkap kecenderungan serupa.
Dalam sekitar 1.000 simulasi kasus uji, SplxAI menemukan bukti bahwa GPT-4.1 seringkali keluar topik dan membiarkan penyalahgunaan “sengaja” lebih sering dibanding GPT-4o. Penyebabnya, kata SplxAI, adalah preferensi GPT-4.1 terhadap instruksi yang eksplisit. GPT-4.1 nggak terlalu bagus menangani arahan yang nggak jelas, fakta yang OpenAI sendiri akui, yang membuka celah untuk perilaku tak terduga.
“Ini fitur yang bagus untuk bikin model lebih berguna dan bisa diandalkan saat menyelesaikan tugas spesifik, tapi ada harganya,” tulis SplxAI dalam postingan blog. “[M]emberikan instruksi eksplisit tentang apa yang harus dilakukan cukup gampang, tapi memberikan instruksi yang cukup eksplisit dan tepat tentang apa yang nggak boleh dilakukan itu beda cerita, karena daftar perilaku yang nggak diinginkan jauh lebih banyak daripada daftar perilaku yang diinginkan.”
Untuk membela diri, OpenAI sudah publikasi panduan prompting buat mengurangi potensi “misalignment” di GPT-4.1. Tapi temuan dari tes independen ini jadi pengingat kalau model yang lebih baru nggak selalu lebih baik di semua aspek. Mirip-mirip, model penalaran baru OpenAI malah suka “halusinasi” – alias ngarang – lebih sering dibanding model lama mereka.
Kami sudah menghubungi OpenAI untuk meminta komentar.
(KoranPost)
Sumber: techcrunch.com
OpenAI’s GPT-4.1 may be less aligned than the company’s previous AI models