Bu içerik, ilgili yazılım ve bilgiler kontrol edilerek güncel sürüm ve kullanım durumuna göre revize edilmiştir.
Yazar: Bünyamin KAYA
Gemini 2.5 Computer Use, Google tarafından geliştirilen ve web ile mobil arayüzlerde eylemleri otomatikleştirmeyi sağlayan güçlü bir araçtır. Bu model, kullanıcı arayüzlerini analiz ederek buton tıklamaları, metin girişleri ve karmaşık etkileşimleri sorunsuz şekilde gerçekleştirebilir. Gemini 2.5 ile uygulama ve web otomasyonunu yeni bir seviyeye taşıyabilirsiniz.
Google, Gemini API üzerinden kullanılabilen Gemini 2.5 Computer Use modelini duyurdu. Sistem, tarayıcılar için optimize edilmiş, mobil arayüzleri destekliyor ve benzerlerine kıyasla benchmark testlerinde yüksek performans gösteriyor.
Google’dan yeni model açıklaması
Google, kullanıcı arayüzlerini (UI) yönetmek ve bunlarla etkileşim kurmak amacıyla geliştirilen Gemini 2.5 Computer Use adlı yeni özel modelini tanıttı. Geliştiricilerin açıklamalarına göre model, web ve mobil uygulamalar için yapılan çeşitli önemli benchmark testlerinde önde gelen alternatiflerden daha yüksek sonuçlar sergiliyor.
Modelin sunumu ve yetenekleri
Bu yılın başında düzenlenen Google I/O konferansında, şirket Gemini API’ye bilgisayar kontrolü özelliklerini eklemeyi planladığını duyurmuştu. Şimdi ise, ajanların arayüzlerde eylemleri gerçekleştirmesine, çevreyi ve önceki etkileşim geçmişini analiz etmesine olanak tanıyan yeni bir araç tanıtıldı.
Çalışma prensibi şu şekilde:
- Geliştiriciler, kullanıcı talebini modelle paylaşır; buna ortamın ekran görüntüsü ve son eylem geçmişi de eklenir.
- İsteğe bağlı olarak desteklenen işlevlerden istisnalar belirtilebilir veya özel işlevler eklenebilir.
- Model, gelen verileri analiz eder ve belirli bir eylem şeklinde yanıt üretir; örneğin bir butona tıklamak veya metin girmek gibi.
- Belirsizlik durumunda, özellikle satın alma işlemleri gibi kritik eylemler söz konusu olduğunda sistem, nihai kullanıcıdan onay talep edebilir.
- Müşteri tarafındaki kod, alınan eylemi gerçekleştirir; ardından güncellenmiş ekran görüntüsü ve mevcut URL modele geri gönderilir ve yeni bir döngü başlatılır.
- Bu süreç, temel görev tamamlanana kadar tekrar eder.
Optimizasyon ve sınırlamalar
Google, Gemini 2.5 Computer Use’un web tarayıcılarında çalışmak üzere optimize edildiğini, ancak mobil arayüzlerde de yüksek verimlilik sağladığını belirtiyor. Öte yandan, modelin henüz masaüstü işletim sistemleri üzerinde tam kontrol sağlamak için adapte edilmediği vurgulanıyor.
Modelin erişilebilirliği
Model, şu anda genel önizleme modunda kullanılabiliyor. Geliştiriciler, Gemini API aracılığıyla Google AI Studio ve Vertex AI servislerinde testi gerçekleştirebiliyor.
Gemini 2.5 Computer Use, arayüzlerle etkileşimi otomatikleştirmek ve karmaşık kullanıcı senaryolarını yürütmek için bir araç olarak konumlandırılıyor. Google’a göre model, çeşitli testlerde önde gelen sonuçlar sergileyerek, web ve mobil uygulamalara entegrasyon için umut verici bir çözüm sunuyor.
Siz de Gemini 2.5 Computer Use deneyimlerinizi paylaşmak ister misiniz? Yorumlarınızı aşağıya bırakın!
Sık Sorulan Sorular (FAQ)
Gemini 2.5 Computer Use nedir?
Google’ın geliştirdiği bir modeldir ve web ile mobil arayüzlerde otomatik eylemler gerçekleştirmeyi sağlar.
Hangi platformlarda çalışır?
Model öncelikle web tarayıcıları ve mobil uygulamalar için optimize edilmiştir. Masaüstü işletim sistemlerinde tam destek henüz yoktur.
Gemini 2.5 ile hangi işlemleri otomatikleştirebilirim?
Buton tıklamaları, metin girişi, form doldurma ve diğer kullanıcı etkileşimleri otomatikleştirilebilir.
Gemini 2.5 nasıl erişilebilir?
Gemini API üzerinden Google AI Studio ve Vertex AI servisleriyle kullanılabilir.



