Bu eklenti, görseller ve diğer görsel olarak erişilemeyen içerikler için ayrıntılı betimlemeler elde etmeyi mümkün kılar.
GPT-4 büyük dil modelinin çok modlu yeteneklerinden yararlanarak sınıfının en iyisi içerik açıklamaları sunmayı hedefliyoruz. Temel model hakkında daha fazla bilgi için GPT-V4 adresine bakın.
Bu projenin arkasında birkaç temel motivasyon vardı.
NVDA, oyunun kurallarını değiştiren kutudan çıkar çıkmaz optik karakter tanıma (OCR) gerçekleştirme yeteneğine sahiptir. Bir görüntüden veya PDF belgesinden metin çıkarmaya çalışıyorsanız, aradığınız şey budur.
Ancak OCR yalnızca metin olabilecek verileri analiz edebilir. Bu görüntülerde aktarılan bağlamı, nesneleri ve ilişkileri dikkate alma konusunda yetersiz kalıyor. Ve internet onlarla dolu. Logolar, portreler, memler, simgeler, çizelgeler, diyagramlar, çubuk/çizgi grafikler... Adını siz koyun. Bunlar her yerdedir ve genellikle ekran okuyucu kullanıcılarının yorumlayabileceği bir formatta değildir. Yakın zamana kadar, alternatif metin açıklamaları sunan içerik yazarlarına sarsılmaz bir güven vardı. Bu hala bir zorunluluk olsa da, yüksek kalite standardının kural değil istisna olduğu gerçeğini değiştirmek zordur.
Şimdi, olasılıklar neredeyse sonsuzdur. Şunları yapabilirsiniz:
Eklentinin en son sürümünü bu bağlantıdan indirin. NVDA'nın kurulu olduğu bir bilgisayardaki dosyaya tıklayın, ardından OpenAI'den bir API anahtarı almak için aşağıdaki talimatları izleyin:
Bu yazının yazıldığı sırada OpenAI, yeni geliştirici hesaplarına üç ay boyunca kullanılabilecek krediler veriyor ve sonrasında bu krediler kayboluyor.
Bu sürenin ardından kredi satın almanız gerekecektir. Tipik kullanım asla ayda 5,00 doları aşmamalıdır. Referans olması açısından, bu eklentinin orijinal sürümü bir doların biraz altında bir fiyata geliştirildi. Kotanızı almak için OpenAI hesabınıza giriş yapıp "kullanım" seçeneğine tıklamanız her zaman mümkündür.
Üç kısayol tuşu varsayılan olarak tanımlanmıştır
Tanımlanmayan iki hareket:
Bunları istediğiniz zaman girdi hareketleri iletişim kutusundan özelleştirmekten çekinmeyin.
Eklenti paketini kaynaktan oluşturmak için ihtiyacınız olacaklar: * Python dağıtımı (3.7 veya üzeri önerilir). Windows Yükleyicileri için Python Web Sitesini kontrol edin. Şu anda NVDA kaynak kodunun ve içerdiği üçüncü taraf modüllerin hazırlanmasının Python 3.7'nin 32 bit sürümünü gerektirdiğini lütfen unutmayın. * Scons - Web sitesi - sürüm 4.3.0 veya üzeri. PIP aracılığıyla kurabilirsiniz. 'pip kurulum ekleri' * Markdown 3.3.0 veya üzeri. 'pip kurulum işaretlemesi'
Ardından tercih ettiğiniz terminali açın:
git clone https://github.com/cartertemm/AI-content-describer.git
scons
'scons' komutunun yürütülmesi tamamlandıktan sonra, yayınlanmaya hazır bir *.nvda-addon dosyası görmelisiniz.
Hepsi çok takdir edilmektedir. Bir sorun mu buldunuz? Sorunu sorun izleyiciye gönderin Yeni bir özellik öneriniz mi var? Bunun için de bir Bilet oluşturun, uygulamaya geçirme konusunu konuşabiliriz. İlgili sorunları olmayan çekme istekleri incelenecek, ancak özellikle yeni düzeltmenin veya işlevselliğin farklı çalışması gerektiğine karar verirsem muhtemelen herkes için daha fazla zaman alacaktır.
Çeviriler açık kollarla karşılanır. Github'ınız yoksa veya kullanmamayı tercih ediyorsanız, bana bir e-posta gönderebilirsiniz - cartertemm (at) gmail (dot) com. Destek için teşekkürler!