Home Uncategorized Saya mengadu Claude 3.5 Sonnet dengan tes pengkodean AI, ChatGPT unggul –...

Saya mengadu Claude 3.5 Sonnet dengan tes pengkodean AI, ChatGPT unggul – dan gagal secara kreatif

28
0
Saya mengadu Claude 3.5 Sonnet dengan tes pengkodean AI, ChatGPT unggul – dan gagal secara kreatif

David Gewirtz/ZDNET

Minggu lalu, saya mendapat email dari Anthropic yang mengumumkan bahwa Claude 3.5 Soneta telah tersedia. Menurut perusahaan AI tersebut, “Claude 3.5 Sonnet meningkatkan standar industri dalam hal kecerdasan, mengungguli model pesaing dan Claude 3 Opus dalam berbagai evaluasi.”

Perusahaan menambahkan: “Claude 3.5 Sonnet sangat ideal untuk tugas kompleks seperti pembuatan kode.” Saya memutuskan untuk melihat apakah itu benar.

Juga: Cara menggunakan ChatGPT untuk membuat aplikasi

Saya akan menggunakan model Claude 3.5 Sonnet yang baru untuk serangkaian pengujian pengkodean standar saya — pengujian yang telah saya jalankan terhadap berbagai AI dengan hasil yang beragam. Ingin mengikuti tes Anda sendiri? Arahkan browser Anda ke Bagaimana saya menguji kemampuan pengkodean chatbot AI – dan Anda juga bisa, yang berisi semua pengujian standar yang saya terapkan, penjelasan tentang cara kerjanya, dan apa yang harus dicari dalam hasilnya.

Oke, mari kita gali hasil setiap pengujian dan lihat perbandingannya dengan pengujian sebelumnya yang menggunakan Microsoft Copilot, Meta AI, Meta Code Llama, Google Gemini Advanced, dan ChatGPT.

1. Menulis plugin WordPress

Pada awalnya, hal ini tampak menjanjikan. Mari kita mulai dengan antarmuka pengguna Claude 3.5 Soneta yang dibuat berdasarkan perintah pengujian saya.

cleanshot-2024-06-26-at-13-28-382x
Tangkapan layar oleh David Gewirtz/ZDNET

Ini adalah pertama kalinya AI memutuskan untuk menempatkan dua bidang data secara berdampingan. Tata letaknya bersih dan tampak bagus.

Claude juga memutuskan untuk melakukan hal lain yang belum pernah kulihat dilakukan oleh AI. Plugin ini dapat dibuat hanya dengan menggunakan kode PHP, yaitu kode yang dijalankan di bagian belakang server WordPress.

Namun beberapa implementasi AI juga telah menambahkan kode JavaScript (yang berjalan di browser untuk mengontrol fitur antarmuka pengguna dinamis) dan kode CSS (yang mengontrol cara browser menampilkan informasi).

Juga: Bagaimana saya menguji kemampuan pengkodean AI chatbot – dan Anda juga bisa

Dalam lingkungan PHP, jika Anda memerlukan PHP, JavaScript, dan CSS, Anda dapat memasukkan CSS dan JavaScript langsung ke dalam kode PHP (itu adalah fitur PHP), atau Anda dapat meletakkan kode tersebut dalam tiga file terpisah — satu untuk PHP, satu untuk JavaScript, dan satu lagi untuk CSS.

Biasanya, ketika AI ingin menggunakan ketiga bahasa tersebut, ia menunjukkan apa yang perlu dipotong dan ditempelkan ke dalam file PHP, lalu blok lain untuk dipotong dan ditempelkan ke dalam file JavaScript, dan kemudian blok ketiga untuk dipotong dan ditempelkan ke dalam sebuah berkas CSS.

Tapi Claude hanya menyediakan satu file PHP dan kemudian, ketika dijalankan, secara otomatis membuat file JavaScript dan CSS ke dalam direktori home plugin. Hal ini cukup mengesankan dan agak salah arah. Memang keren karena ia mencoba membuat proses pembuatan plugin lebih mudah, tetapi bisa atau tidaknya sebuah plugin menulis ke foldernya sendiri tergantung pada pengaturan konfigurasi OS — dan ada kemungkinan besar plugin itu gagal.

Saya mengizinkannya di lingkungan pengujian saya, tetapi saya tidak pernah mengizinkan plugin menulis ulang kodenya sendiri di lingkungan produksi. Itu adalah kelemahan keamanan yang sangat serius.

Juga: Cara menggunakan ChatGPT untuk menulis kode: Apa yang bisa dan tidak bisa dilakukannya untuk Anda

Meskipun solusi pembuatan kode Claude bersifat cukup kreatif, intinya adalah plugin tersebut gagal. Menekan tombol Acak tidak menghasilkan apa-apa. Itu menyedihkan karena, seperti yang saya katakan, hal ini sangat menjanjikan.

Berikut adalah hasil agregat dari tes ini dan tes sebelumnya:

  • Claude 3.5 Soneta: Antarmuka: bagus, fungsionalitas: gagal
  • ChatGPT GPT-4o: Antarmuka: bagus, fungsionalitas: bagus
  • Kopilot Microsoft: Antarmuka: memadai, fungsionalitas: gagal
  • Meta AI: Antarmuka: memadai, fungsionalitas: gagal
  • Panggilan Kode Meta: Kegagalan total
  • Google Gemini Tingkat Lanjut: Antarmuka: bagus, fungsionalitas: gagal
  • ObrolanGPT 4: Antarmuka: bagus, fungsionalitas: bagus
  • ObrolanGPT 3.5: Antarmuka: bagus, fungsionalitas: bagus

2. Menulis ulang fungsi string

Tes ini dirancang untuk mengevaluasi bagaimana AI menulis ulang kode agar berfungsi lebih tepat untuk kebutuhan tertentu; dalam hal ini — konversi dolar dan sen.

Revisi Claude 3.5 Soneta dengan benar menghapus angka nol di depan, memastikan bahwa entri seperti “000123” diperlakukan sebagai “123”. Ini dengan benar mengizinkan bilangan bulat dan desimal hingga dua tempat desimal (yang merupakan perbaikan kunci yang diminta oleh prompt). Ini mencegah nilai-nilai negatif. Dan cukup pintar untuk mengembalikan “0” untuk masukan apa pun yang aneh atau tidak terduga, yang mencegah kode berakhir dengan kesalahan yang tidak normal.

Juga: Bisakah detektor AI menyelamatkan kita dari ChatGPT? Saya mencoba 6 alat online untuk mengetahuinya

Salah satu kegagalannya adalah tidak mengizinkan nilai desimal saja untuk dimasukkan. Jadi jika pengguna memasukkan 50 sen sebagai “0,50” dan bukan “0,50”, entri tersebut akan gagal. Berdasarkan bagaimana deskripsi teks asli tes ditulis, formulir masukan ini seharusnya diperbolehkan.

Meskipun sebagian besar kode yang direvisi berfungsi, saya harus menganggap ini sebagai kegagalan karena jika kode ditempelkan ke proyek produksi, pengguna tidak akan dapat memasukkan input yang hanya berisi nilai sen.

Berikut adalah hasil agregat dari tes ini dan tes sebelumnya:

  • Claude 3.5 Soneta: Gagal
  • ObrolanGPT GPT-4o: Berhasil
  • Kopilot Microsoft: Gagal
  • Meta AI: Gagal
  • Panggilan Kode Meta: Berhasil
  • Google Gemini Tingkat Lanjut: Gagal
  • ObrolanGPT 4: Berhasil
  • ChatGPT 3.5: Berhasil

3. Menemukan bug yang mengganggu

Tantangan besar dari pengujian ini adalah AI bertugas menemukan bug yang tidak terlihat jelas dan — untuk menyelesaikannya dengan benar — memerlukan pengetahuan platform dari platform WordPress. Ini juga merupakan bug yang tidak langsung saya lihat sendiri dan, awalnya, meminta ChatGPT untuk menyelesaikannya (dan ternyata berhasil).

Claude tidak hanya melakukan hal ini dengan benar — menangkap seluk-beluk kesalahan dan memperbaikinya — namun juga merupakan AI pertama sejak saya memublikasikan rangkaian pengujian lengkap secara online untuk mengetahui fakta bahwa proses penerbitan menyebabkan kesalahan pada contoh kueri (yang kemudian saya perbaiki dan terbitkan ulang).

Juga: Ulasan palsu adalah masalah besar — dan berikut cara AI dapat membantu memperbaikinya

Berikut adalah hasil agregat dari tes ini dan tes sebelumnya:

  • Claude 3.5 Soneta: Berhasil
  • ObrolanGPT GPT-4o: Berhasil
  • Kopilot Microsoft: Gagal. Secara spektakuler. Dengan antusias. Secara emoji.
  • Meta AI: Berhasil
  • Panggilan Kode Meta: Gagal
  • Google Gemini Lanjutan: Gagal
  • ObrolanGPT 4: Berhasil
  • ObrolanGPT 3.5: Berhasil

Sejauh ini, kita mengalami dua dari tiga kegagalan. Mari kita lanjutkan ke tes terakhir kita.

4. Menulis naskah

Tes ini dirancang untuk melihat sejauh mana pengetahuan pemrograman AI diterapkan pada alat pemrograman khusus. Meskipun AppleScript cukup umum untuk pembuatan skrip di Mac, Keyboard Maestro adalah aplikasi komersial yang dijual oleh seorang programmer di Australia. Menurut saya ini sangat diperlukan, tetapi ini hanyalah salah satu dari banyak aplikasi serupa di Mac.

Namun, saat pengujian di ChatGPT, ChatGPT mengetahui cara “berbicara” Keyboard Maestro dan juga AppleScript, yang menunjukkan betapa luasnya pengetahuan bahasa pemrogramannya.

Juga: Dari pelatih AI hingga ahli etika: AI mungkin menghilangkan beberapa pekerjaan tetapi menghasilkan pekerjaan baru

Sayangnya, Claude tidak memiliki ilmu tersebut. Itu memang menulis AppleScript yang mencoba berbicara dengan Chrome (itu bagian dari parameter pengujian) tetapi mengabaikan komponen penting Keyboard Maestro.

Lebih buruk lagi, ini menghasilkan kode di AppleScript yang akan menghasilkan kesalahan runtime. Dalam upaya untuk mengabaikan kasus pertandingan dalam ujian, Claude membuat baris:

if theTab's title contains input ignoring case then

Ini merupakan kesalahan ganda karena pernyataan “berisi” tidak peka huruf besar-kecil dan frasa “mengabaikan huruf besar-kecil” tidak sesuai dengan tempatnya. Hal ini menyebabkan skrip mengalami kesalahan dengan pesan kesalahan sintaksis “Mengabaikan tidak dapat dilakukan setelah ini”.

Berikut adalah hasil agregat dari tes ini dan tes sebelumnya:

  • Claude 3.5 Soneta: Gagal
  • ObrolanGPT GPT-4o: Berhasil tetapi dengan reservasi
  • Kopilot Microsoft: Gagal
  • Meta AI: Gagal
  • Panggilan Kode Meta: Gagal
  • Google Gemini Tingkat Lanjut: Berhasil
  • ObrolanGPT 4: Berhasil
  • ObrolanGPT 3.5: Gagal

Hasil keseluruhan

Berikut hasil keseluruhan dari lima tes tersebut:

Saya agak kecewa dengan Claude 3.5 Soneta. Perusahaan secara khusus berjanji bahwa versi ini cocok untuk pemrograman. Tapi seperti yang Anda lihat, tidak terlalu banyak. Bukan berarti ia tidak bisa memprogram. Itu tidak dapat memprogram dengan benar.

Juga: Saya menggunakan ChatGPT untuk menulis rutinitas yang sama dalam 12 bahasa pemrograman teratas. Begini caranya

Saya terus mencari AI yang dapat memberikan solusi terbaik pada ChatGPT, terutama ketika vendor platform dan lingkungan pemrograman mulai mengintegrasikan model-model lain ini secara langsung ke dalam proses pemrograman. Namun, untuk saat ini, saya akan kembali ke ChatGPT ketika saya memerlukan bantuan pemrograman, dan itu juga saran saya untuk Anda.

Sudahkah Anda menggunakan AI untuk membantu Anda memprogram? Yang mana? Bagaimana hasilnya? Beri tahu kami di komentar di bawah.


Anda dapat mengikuti pembaruan proyek saya sehari-hari di media sosial. Pastikan untuk berlangganan buletin pembaruan mingguan sayadan ikuti saya di Twitter/X di @DavidGewirtzdi Facebook di Facebook.com/DavidGewirtzdi Instagram di Instagram.com/DavidGewirtzdan di YouTube di YouTube.com/DavidGewirtzTV.



Source link