Startup AI bernama Stability AI baru saja meluncurkan Stable Audio Open Small, model AI penghasil audio “stereo” yang diklaim perusahaan paling cepat di pasaran – bahkan cukup efisien untuk dijalankan di smartphone.
Stable Audio Open Small adalah hasil kolaborasi antara Stability AI dan Arm, perusahaan pembuat chip yang memproduksi banyak prosesor di tablet, ponsel, dan perangkat mobile lainnya. Meskipun sudah ada beberapa aplikasi bertenaga AI yang bisa menghasilkan audio, seperti Suno dan Udio, kebanyakan masih mengandalkan pemrosesan di cloud, artinya tidak bisa digunakan secara offline.
Stability juga mengklaim bahwa data pelatihan Stable Audio Open Small seluruhnya berasal dari perpustakaan audio bebas royalti Free Music Archive dan Freesound. Ini berbeda dengan data pelatihan Suno dan Udio yang disebutkan tadi, yang dilaporkan berisi konten berhak cipta, sehingga menimbulkan risiko IP.
Stable Audio Open Small berukuran 341 juta parameter dan dioptimalkan untuk berjalan di CPU Arm. (Parameter, kadang disebut “bobot”, adalah komponen internal model yang memandu perilakunya.) Dirancang untuk menghasilkan sampel audio pendek dan efek suara dengan cepat (misalnya, riff drum dan instrumen), Stable Audio Open Small dapat menghasilkan audio hingga 11 detik di smartphone dalam waktu kurang dari 8 detik, begitu klaim Stability AI.
Ini dia contoh audio yang dihasilkan oleh Stable Audio Open Small:
Dan ini contoh lainnya:
Model ini bukannya tanpa batasan. Stable Audio Open Small hanya mendukung prompt yang ditulis dalam bahasa Inggris, dan Stability mencatat dalam dokumentasinya bahwa model ini tidak bisa menghasilkan vokal yang realistis atau lagu berkualitas tinggi. Model ini juga tidak bekerja sama baiknya untuk semua gaya musik, Stability memperingatkan – ini adalah konsekuensi dari data pelatihannya yang bias ke Barat.
Masalah lain yang mungkin muncul bagi para developer adalah persyaratan penggunaan Stable Audio Open Small yang agak ketat. Gratis untuk peneliti, penghobi, dan bisnis dengan pendapatan tahunan kurang dari $1 juta, tetapi developer dan organisasi yang menghasilkan pendapatan lebih dari $1 juta harus membayar lisensi enterprise Stability.
Stability, perusahaan yang sempat kesulitan finansial di balik model penghasil gambar populer Stable Diffusion, mendapat suntikan dana baru tahun lalu saat investor, termasuk Eric Schmidt dan pendiri Napster Sean Parker, berusaha membalikkan keadaan bisnisnya. Emad Mostaque, salah satu pendiri dan mantan CEO Stability, dilaporkan salah mengelola Stability hingga bangkrut, menyebabkan staf mengundurkan diri, kerja sama dengan Canva batal, dan investor khawatir tentang prospek perusahaan.
Dalam beberapa bulan terakhir, Stability telah merekrut CEO baru, menunjuk pembuat film James Cameron ke dewan direksi, dan merilis beberapa model penghasil gambar baru.
(KoranPost)
Sumber: techcrunch.com
Stability AI releases an audio-generating model that can run on smartphones