Arastiriyorum 1 month ago

akadm #makale

Yapay Zeka Araştırmacı Olursa Ne Olur?

Andrej Karpathy’nin autoresearch projesi, SkyPilot altyapısıyla 16 GPU üzerinde paralel çalıştırıldı. Sonuç? 8 saatte 910 deney, kendi araştırma stratejisini geliştiren bir AI agent ve insan araştırmacılara benzeyen emergent davranışlar. Yapay zekanın “araştırmacı” rolüne geçişini inceliyoruz.

Bir süre önce “AI coding assistant” dediğimiz sistemler kod tamamlayan araçlardı. Sonra bug fix yapmaya başladılar. Ardından deployment, test ve refactor işleri geldi.

Şimdi başka bir seviyeye geçiyoruz:

Yapay zeka artık kendi deneylerini tasarlıyor, çalıştırıyor, sonuçları yorumluyor ve bir sonraki hipotezini buna göre oluşturuyor.

SkyPilot ekibinin Andrej Karpathy’nin autoresearch projesi üzerinde yaptığı çalışma tam olarak bunu gösteriyor. Tek GPU üzerinde sırayla çalışan sistem, 16 GPU’luk paralel bir altyapıya taşındığında yalnızca hızlanmadı. Davranış biçimi değişti.

Ve işin gerçekten ilginç kısmı burada başlıyor.

Sistem Ne Yapıyor?

Autoresearch oldukça basit ama güçlü bir fikre dayanıyor:

AI agent kodu değiştiriyor
Eğitimi çalıştırıyor
Validation sonucuna bakıyor
İyi sonuç veren değişiklikleri koruyor
Kötüleri geri alıyor
Sonra tekrar deniyor

Bir nevi:

“AI destekli otomatik araştırmacı.”

Karpathy’nin orijinal setup’ında sistem:

Tek GPU kullanıyor
Aynı anda tek deney çalıştırabiliyor
Saatte yaklaşık 10-12 deney yapabiliyor

SkyPilot ekibi bu darboğazı kaldırıyor.

Agent’a:

Kubernetes cluster
H100 + H200 GPU’lar
Paralel execution
SkyPilot orchestration

erişimi veriyor.

Sonra sistemi kendi haline bırakıyorlar. İnsanlığın klasik hatası:

“Bakalım ne olacak.”

Sonuçlar Oldukça Çarpıcı

Yaklaşık:

8 saat çalışma
16 GPU
910 deney
~700 başarılı sonuç

Ve validation score:

1.003 → 0.974

Bu yaklaşık %2.87 iyileşme anlamına geliyor.

Ama mesele performans değil.

Asıl mesele AI’ın çalışma biçiminin değişmesi.

Paralel Düşünmeye Başlayan AI

Tek GPU olduğunda agent şu şekilde davranıyor:

Bir fikir dene
Bekle
Sonucu gör
Yeni fikir üret

Bu klasik “greedy hill-climbing”.

Ama 16 GPU olduğunda agent artık şunu yapabiliyor:

Aynı anda 10-13 farklı hipotez test etmek
Parametre kombinasyonlarını çapraz incelemek
Trendleri tek dalgada görmek
Zayıf fikirleri hızlı elemek

Yani sequential düşünmek yerine:

araştırma stratejisi geliştiriyor.

Bu çok kritik bir eşik.

Çünkü artık AI:

sadece execute etmiyor,
exploration yapıyor.

En İlginç Nokta: Hardware Awareness

Agent’a:

“H200 daha hızlıdır”
“Bunu validation için kullan”
“Önce H100’de dene”

gibi hiçbir şey öğretilmiyor.

Ama sistem bir süre sonra şunu fark ediyor:

H200 aynı sürede daha fazla training step yapıyor
Bu yüzden validation score daha iyi çıkıyor
Bazı optimizasyonlar H100’de iyi görünürken H200’de kötüleşiyor

Ve agent kendi kendine şu stratejiyi geliştiriyor:

Yeni Strateji

H100 → fikir eleme
H200 → final validation

Bu artık düz automation değil.

Bu:

kaynak yönetimi yapan araştırma davranışı.

AI Agent’ların Geleceği Açısından Ne Anlama Geliyor?

Bugün çoğu kişi AI agent denince:

mail atan
ticket açan
browser kullanan
kod yazan

sistemleri düşünüyor.

Ama önümüzdeki gerçek kırılım başka yerde olabilir:

“Autonomous Research Systems”

Yani:

kendi hipotezini üreten
deney planlayan
compute yöneten
sonuç yorumlayan
strateji değiştiren

AI sistemleri.

Bu yaklaşım:

ilaç keşfi
malzeme bilimi
finansal modelleme
savunma teknolojileri
enerji optimizasyonu
LLM architecture search

gibi alanlarda oyunu değiştirebilir.

Çünkü darboğaz artık insan araştırmacının zamanı olmaktan çıkıyor.

Darboğaz:

compute orchestration oluyor.

Infrastructure artık pasif değil.

Eskiden:

altyapı sadece çalışırdı
araştırmayı insanlar yapardı

Şimdi:

altyapı araştırmanın aktif parçası oluyor.

Kubernetes + orchestration + AI agent birleşimi:

yeni nesil “self-driving R&D infrastructure” oluşturuyor.

Bir noktadan sonra:

cluster scheduler,
experiment planner,
cost optimizer,
resource allocator

birbirine bağlanacak.

Ve AI:

sadece modeli değil,

kendi araştırma sürecini de optimize edecek.

İnsanlığın yıllardır “lab automation” diye uğraştığı şeyin software versiyonunu izliyoruz aslında. Biraz ürkütücü. Biraz büyüleyici. Oldukça pahalı elektrik faturası eşliğinde tabii.

Sonuç

Bu çalışma yalnızca: