Arastiriyorum 1 month ago
akadm #veri

Açık Veri Çağında GovScape: 10 Milyon PDF’in Arasında Kaybolmamak Mümkün

Kamu verisi dendiğinde çoğumuzun gözünde beliren şey genelde devasa PDF yığınları oluyor. Araştırmacılar, gazeteciler ve kamu politikalarıyla uğraşan herkes için bu belgeler hem vazgeçilmez hem de çoğu zaman eziyet.

GovScape tam olarak bu noktada devreye giriyor. Washington Üniversitesi ve Boston Üniversitesi’nin birlikte geliştirdiği bu araştırma projesi, 2020 End of Term Web Archive taramasından elde edilen on milyondan fazla PDF dosyasını anlamlı şekilde aramayı mümkün kılıyor.


Bu arada GovScape’in tamamen açık kaynak olması da daha en baştan umut verici. Kodu GitHub üzerinden incelenebiliyor, yani proje yalnızca bir araç değil; aynı zamanda geliştirilebilir bir araştırma altyapısı.


GovScape nasıl çalışıyor?

Sistemin temelinde, 50 sayfa veya daha kısa olan render edilebilir PDF’lerden oluşan dev bir veri koleksiyonu var. GovScape bu veriyi üç farklı arama türüyle erişilebilir hale getiriyor.


1. Anahtar Kelime Araması: Temel ama vazgeçilmez

Klasik tam metin araması. Eğer belirli bir terimi ya da ifadeyi doğrudan PDF içinde arıyorsan, bu yöntem en hızlı yol. Basit bir dizin eşleşmesi mantığıyla çalışıyor, fakat devasa veri setlerinde hâlâ oldukça etkili.


2. Semantik Arama: Anlam odaklı keşif

Metni sadece kelime kelime okumakla kalmayıp bağlamını da kavrayan bir arama türü.

“Rural healthcare funding for children” gibi doğal bir cümle yazdığında, GovScape bu ifadenin temsil ettiği anlamı vektör uzayında eşleştiriyor. Bunun için BAAI/bge-base-en-v1.5 modelinden üretilen gömme (embedding) verilerini kullanıyor. Sonuç olarak tam olarak aynı kelimeler geçmese bile içerik olarak ilişkili sayfaları bulabiliyor.


3. Görsel Arama: Pdf içindeki görselleri hedef almak

PDF’ler yalnızca metinlerden ibaret değil. Grafikler, haritalar, fotoğraflar, tablolar...

GovScape’in görsel arama yeteneği, sayfaların görsel özelliklerini çıkararak benzer görüntüleri bulmasını sağlıyor. “Pasta grafik”, “uydu fotoğrafı” gibi görsel odaklı aramalar bile olası. Kapsamlı raporları tararken ciddi bir kolaylık.


Neden önemli?

GovScape gibi araçlar, kamusal veriyi erişilebilir hale getirerek araştırmanın demokratikleşmesine katkı sunuyor. Bilginin yalnızca arşivlerde kaybolmak yerine analiz edilebilir, aranabilir bir forma kavuşması araştırmacılar ve gazeteciler için büyük bir zaman kazancı.


Ayrıca açık kaynak yapısı sayesinde, bu aracın gelecekte çok daha gelişmiş sürümlerine doğru evrilmesi de mümkün. Kamu verisinin hacmi arttıkça, böyle sistemler de ister istemez daha kritik hale geliyor.

0
190
Black Friday’de yeni rekor: Amerikalılar dakikada 12,5 milyon dolar harcadı!

Black Friday’de yeni rekor: Amerikalılar dakikada 12,5 milyon dolar ha...

1713358301.jpg
Arastiriyorum
1 month ago
Mastercard, yabancı turistlerin 2023’te Türkiye’deki harcama verilerini açıkladı

Mastercard, yabancı turistlerin 2023’te Türkiye’deki harcama verilerin...

1713358301.jpg
Arastiriyorum
1 year ago
Okul dönüşe hazırlık döneminde kredi başvuruları yüzde 72 arttı

Okul dönüşe hazırlık döneminde kredi başvuruları yüzde 72 arttı

1713358301.jpg
Arastiriyorum
3 months ago
BKM, 2025 yılı Ağustos ayına ilişkin kartlı ödeme verilerini açıkladı

BKM, 2025 yılı Ağustos ayına ilişkin kartlı ödeme verilerini açıkladı

1713358301.jpg
Arastiriyorum
3 months ago
Kumar Bağımlılığıyla Mücadelede Gerçekten Kim Sorumlu?

Kumar Bağımlılığıyla Mücadelede Gerçekten Kim Sorumlu?

1713358301.jpg
Arastiriyorum
2 months ago