CEO Anthropic Ingin Membuka Kotak Hitam Model AI pada 2027

April 25, 2025

•

3 menit teks

CEO Anthropic Soroti Pentingnya Memahami Cara Kerja AI

CEO Anthropic, Dario Amodei, baru-baru ini menulis sebuah esai yang membahas betapa minimnya pemahaman para peneliti tentang bagaimana model AI terbaik di dunia bekerja. Untuk mengatasi hal itu, Amodei menargetkan agar Anthropic dapat mendeteksi sebagian besar masalah pada model AI secara akurat sebelum tahun 2027.

Amodei menyadari tantangan besar yang akan dihadapi. Dalam esainya yang berjudul “The Urgency of Interpretability”, ia mengatakan bahwa Anthropic memang telah membuat kemajuan awal dalam melacak bagaimana model AI mendapatkan jawabannya. Namun, ia menekankan bahwa masih banyak penelitian yang dibutuhkan untuk benar-benar bisa memahami sistem ini, apalagi seiring AI makin canggih.

“Saya sangat khawatir jika sistem seperti ini digunakan tanpa pemahaman interpretabilitas yang lebih baik,” tulis Amodei. “Sistem ini nantinya akan sangat penting untuk ekonomi, teknologi, dan keamanan nasional, serta bakal punya kemampuan sangat otonom. Saya rasa tidak bisa diterima kalau manusia sama sekali tidak tahu cara kerja mereka.”

Anthropic sendiri merupakan salah satu perusahaan pelopor di bidang mekanistik interpretabilitas, yakni bidang yang bertujuan untuk “membuka kotak hitam” dari model AI dan mengerti alasan mereka dalam mengambil keputusan. Meski performa model AI dari industri teknologi makin membaik, nyatanya kita masih belum benar-benar paham bagaimana sistem ini membuat keputusan.

Misalnya saja, baru-baru ini OpenAI meluncurkan model AI reasoning baru, o3 dan o4-mini, yang memang lebih baik di beberapa tugas, tapi juga lebih sering “berhalusinasi” dibanding model lainnya. Bahkan perusahaannya sendiri juga tidak tahu penyebabnya.

“Saat sistem AI generatif melakukan sesuatu, seperti merangkum dokumen keuangan, kita benar-benar tidak tahu, secara detail, mengapa model ini memilih kata A daripada kata B, atau kenapa kadang masih saja keliru meski biasanya benar,” kata Amodei dalam esainya.

Dalam esai itu, Amodei juga mengutip Chris Olah, co-founder Anthropic, bahwa model AI itu “lebih berkembang, ketimbang dibangun”. Maksudnya, para peneliti memang bisa meningkatkan kecerdasan AI, tapi mereka sendiri belum sepenuhnya paham mengapa itu bisa terjadi.

Menurut Amodei, akan sangat berbahaya jika kita sudah mencapai AGI—atau, sebagaimana ia menyebutnya, “negara penuh jenius dalam satu data center”—tanpa benar-benar paham cara kerja model-model ini. Sebelumnya, Amodei mengatakan mungkin saja industri teknologi mencapai momen itu di 2026 atau 2027, namun pemahaman yang komprehensif soal AI masih jauh dari kata tercapai.

Untuk jangka panjang, Amodei berharap Anthropic bisa melakukan semacam “brain scan” atau “MRI” pada model AI tercanggih. Pengecekan ini dimaksudkan untuk menemukan berbagai masalah pada model AI, misalnya kecenderungan untuk berbohong, mencari kekuasaan, atau kelemahan lain. Hal ini mungkin membutuhkan waktu 5 sampai 10 tahun, tapi menurut Amodei, langkah seperti ini penting agar model AI Anthropic yang baru benar-benar aman saat digunakan nantinya.

Anthropic sendiri sudah berhasil membuat beberapa terobosan penelitian yang membantu untuk lebih memahami cara kerja model AI mereka. Contohnya, perusahaan ini baru-baru ini menemukan cara untuk melacak jalur berpikir model AI lewat apa yang mereka sebut sebagai “sirkuit”. Anthropic menemukan satu sirkuit yang membantu AI mengenali kota di Amerika Serikat dan negara bagian tempat kota itu berada. Meski baru beberapa sirkuit yang mereka temukan, Anthropic memperkirakan jumlah sirkuit seperti ini di dalam model AI bahkan ada jutaan.

Anthropic juga sudah mulai berinvestasi dalam riset interpretabilitas, bahkan kini telah menanamkan investasi pada startup yang khusus bergerak di bidang interpretabilitas. Walaupun saat ini interpretabilitas lebih dipandang sebagai bidang penelitian keamanan, Amodei yakin, ke depannya, penjelasan yang jelas tentang bagaimana AI membuat keputusan bisa jadi nilai komersial tersendiri.

Di esainya, Amodei juga mengajak OpenAI dan Google DeepMind untuk lebih giat lagi melakukan penelitian di bidang ini. Selain itu, Amodei juga mendorong pemerintah untuk membuat regulasi ringan agar bisa mendukung riset interpretabilitas, misalnya lewat persyaratan perusahaan untuk mengungkapkan praktik keamanan dan keselamatan mereka. Ia juga menyarankan AS untuk membatasi ekspor chip ke Tiongkok, supaya balapan pengembangan AI global yang tak terkendali bisa dicegah.

Anthropic memang dikenal berbeda dari OpenAI atau Google, khususnya karena selalu memprioritaskan keamanan. Saat perusahaan teknologi lain menolak aturan keamanan AI kontroversial dari California, Anthropic justru mendukung dan memberi masukan untuk aturan itu, yang bertujuan mengatur standar pelaporan keamanan bagi pengembang AI.

Intinya, Anthropic ingin ada upaya bersama dari seluruh industri untuk bisa lebih memahami model AI, bukan hanya sekadar membuat AI makin pintar.

(KoranPost)

Sumber: techcrunch.com