Hukum kekekalan data |  Pendapat
Opinion

Hukum kekekalan data | Pendapat

Kami memiliki banyak berita terbaru tentang kecerdasan buatan (AI) dan pembelajaran mesin (ML) dalam kimia (dan biologi), dan kecepatannya tidak melambat. Di penghujung tahun 2020, tim Deepmind–AlphaFold menjadi berita utama dengan peningkatan besar dalam prediksi struktur protein, yang ditindaklanjuti dengan cepat oleh tim RosettaFold dari University of Washington, AS. Sekarang kedua kelompok telah mengumumkan kemajuan mengesankan yang serupa dalam memprediksi interaksi protein-protein dan struktur kompleks yang dihasilkan, masalah yang dilihat oleh banyak orang sebagai langkah logis berikutnya (dan lebih sulit) di lapangan.

Jika Anda menggunakan mesin waktu pilihan Anda untuk mengomunikasikan semua ini kepada para peneliti di tahun 1970-an, mereka mungkin akan berasumsi bahwa di sini, di awal tahun 2020-an, kita telah belajar banyak sekali tentang energi pelipatan protein, ikatan hidrogen, air. –interaksi molekul, dan tentang penyeimbangan kontribusi energi entropis dan entalpi dari prinsip pertama. Sekarang, kita tahu lebih banyak tentang hal-hal itu daripada yang kita ketahui empat puluh atau lima puluh tahun yang lalu, tentu saja, tapi inilah bagian yang aneh: kita masih belum cukup tahu tentang mereka untuk menggunakannya sebagai dasar untuk jenis protein yang sangat akurat. prediksi struktur yang kita miliki sekarang.

Unsur penting untuk semua ini adalah tumpukan besar data berkualitas tinggi

Dari mana mereka berasal? Apa yang kami lihat lebih merupakan kemenangan pencocokan pola dan perselisihan basis data. Sekarang kami telah mengumpulkan banyak sekali data eksperimental tentang struktur protein, melalui difraksi sinar-x, NMR, dan (lebih baru) melalui mikroskop cryo-electron. Ini memberi kita kesempatan (dibantu oleh beberapa algoritme yang cerdik dan diasah dengan baik) untuk memilih berbagai motif struktural dan urutan asam amino yang terkait, yang memungkinkan sebagian besar ruang struktural protein diisi dengan analogi struktur yang sudah kita ditentukan.

Unsur penting untuk semua ini adalah tumpukan besar data berkualitas tinggi. Teknik yang digunakan untuk memilah-milahnya luar biasa. Tetapi tanpa kebenaran dasar yang cukup tentang struktur protein, tidak ada algoritme yang bisa mendapatkan daya tarik yang cukup pada masalah tersebut. Itu mengilustrasikan fakta penting tentang informasi, yang mungkin tampak sepele, tetapi menjadi lebih menarik sepanjang waktu: Anda tidak bisa mendapatkan lebih banyak data daripada yang ada pada awalnya. Ini dapat dinyatakan secara lebih formal dengan mengacu pada hal-hal seperti entropi Shannon dan kompresibilitas algoritmik, tetapi secara umum ada hukum kekekalan yang bekerja serupa dengan hukum untuk energi dan materi.

Hukum komputasi klasik ‘sampah masuk, sampah keluar’ tidak pernah lebih berlaku daripada dalam pembelajaran mesin

Kumpulan data protein besar, kaya, dan cukup detail sehingga seseorang dapat mengekstrak prediksi berguna tentang struktur protein yang bahkan belum pernah terpikirkan sebelumnya. Jadi, jika Anda ingin melihat dari mana hasil AI menakjubkan berikutnya mungkin berasal, maka carilah kumpulan data lain dengan emas yang cukup di dalamnya untuk ditambang secara menguntungkan. Teknik pembelajaran mesin tidak menciptakan emas itu; mereka mengungkapnya dan mencari tahu bagaimana jahitan terkaya itu terhubung. Menyusun database seperti itu, seperti yang mereka katakan, tidak sepele. Anda memerlukan nomor yang Anda yakini (tentu saja), mencakup sejumlah besar ruang relatif terhadap masalah Anda, dan diformat sedemikian rupa untuk memberikan perangkat lunak pendekatan tercepat dan paling berguna untuk menemukan semua koneksi tersembunyi tersebut. Tanpa data yang bersih dan terstruktur dengan baik, Anda dan algoritme Anda akan mengalami waktu yang sangat tidak menyenangkan. Hukum komputasi klasik ‘sampah masuk, sampah keluar’ tidak pernah lebih berlaku daripada dalam pembelajaran mesin.

Untuk protein, Anda mungkin berpikir bahwa langkah kuat berikutnya adalah memprediksi target obat baru dan jalur penyakit. Tapi ini akan menjadi pekerjaan yang jauh lebih sulit daripada prediksi struktur (yang tentu saja cukup sulit sampai sekarang). Tidak ada kumpulan data yang dikuratori dengan baik dari jenis pengetahuan yang dibutuhkan untuk pekerjaan itu, dan pengetahuan yang kita miliki penuh dengan celah. Untuk membuat segalanya menjadi lebih rumit, beberapa celah itu terlihat jelas, tetapi beberapa masih belum terlihat. Mereka hanya akan menjadi jelas saat kita belajar lebih banyak lagi tentang biologi sel dan organisme hidup secara keseluruhan. Ini akan menjadi hal-hal yang peneliti 50 tahun dari sekarang akan melihat kembali pada kita dengan kasihan. ‘Orang-orang miskin itu!’ mereka akan berkata. ‘Mereka bahkan tidak menyadari X atau tahu tentang Y, dan bahkan tidak ada yang memikirkan Z! Tidak heran mereka mengalami kesulitan seperti itu!’

Dan tahukah Anda siapa yang akan menemukan hal-hal itu? Bukan sistem AI dan ML kami, meskipun saya yakin mereka akan membantu bila memungkinkan. Tidak, itu akan menjadi kita. Seperti yang selalu terjadi.

Posted By : keluaran hk hari ini tercepat