Yapay Zeka & Görüntü İşleme

YAPAY ZEKA

Derin öğrenme, makine öğreniminin bir alt kümesidir. Yapay zeka (AI), yapıları belirlemek ve tahminlerde bulunmak için büyük, karmaşık veri kümelerini analiz etmede üstün olan makine ve derin öğrenmeyi içerir. Derin öğrenme modelleri, verileri işleyen yapay nöronlar olarak bilinen çoklu katmanları içerir. Derin öğrenme ile insan beyni arasındaki kavramsal ilişki, sinir ağı mimarilerinin geliştirilmesinde yol gösterici bir ilke olmuştur.

DERİN ÖĞRENME TEMELLERİ

Yapay Nöron yapısı aşağıdaki görselde paylaşılmıştır. Nöron, dış ortamdan veya önceki katmandan girdiler alır ve her girdiye bir ağırlık atanır. Girdiler, ilgili ağırlıklarıyla çarpılır ve toplanır, toplama bir önyargı eklenir. Daha sonra bu ağırlıklı toplam, nöronun çıktısını belirleyen bir aktivasyon fonksiyonundan geçirilir. Ortaya çıkan çıktı, bir sonraki katmana iletilir veya modelin nihai çıktısı olarak kullanılır. Bu yapı yapay sinir ağlarının temelini oluşturur.

Geri yayılım süreci, model tarafından yapılan tahminler ile gerçek değerler arasındaki hatayı hesaplayarak ağırlıkları ve önyargı değerlerini güncellemek için kullanılır. Geri yayılım, hatayı çıkış katmanından başlayarak geriye doğru gizli katmanlara ve giriş katmanına ileterek modelin öğrenmesini sağlar. Bu mekanizma, modelin doğruluğunu artırmak ve tahmin hatalarını en aza indirmek için temel bir adımdır.

Giriş Görüntüsü: Modelin işlediği ve analiz ettiği belirli boyutlara sahip ham görüntü. Konvolüsyon Katmanı: Giriş görüntüsünden kenarlar ve desenler gibi düşük seviyeli özellikleri çıkarmak için filtreler uygulayan bir katman. Havuzlama Katmanı: Önemli bilgileri korurken boyutlarını azaltarak özellik haritalarını sıkıştıran bir katman. Tam Bağlantılı Katmanlar: Her nöronun bir önceki katmandaki tüm nöronlara bağlandığı ve öğrenilen özelliklere dayalı tahminler yaptığı katmanlar. Sınıflandırma: Modelin giriş verilerini belirli sınıflara atadığı veya tahminler çıkardığı son aşama. Epoch: Derin öğrenme yöntemindeki döngü sayısını belirtir. Epoch, modelin tüm veri setini kaç kez işlediğini belirler. Batch size: Model tarafından işlenen eğitim örneklerinin miktarıdır. Öğrenme oranı: Bir sinir ağının eğitim süreci boyunca ağırlıklarını güncellediği adım boyutunu belirler. SPE: Modelin tek bir dönem boyunca işleyeceği toplu iş sayısını tanımlar.

DERİN ÖĞRENME

Derin öğrenme, makine öğrenmesinin bir alt dalıdır. Yapay zekâ (AI), büyük ve karmaşık veri kümelerini analiz ederek örüntüleri tanımlama ve tahminleme yapabilen makine öğrenmesi ve derin öğrenme yöntemlerini kapsar. Derin öğrenme modelleri, yapısında birden fazla katman bulunan ve yapay nöron olarak adlandırılan yapılardan oluşur. Bu katmanlar girdiyi adım adım işler ve insan beynindeki nöral ağlardan esinlenen bir bilgi işleme mimarisine sahiptir. Katmanlar aracılığıyla veriden giderek daha soyut ve yüksek seviyeli özellikler çıkarıldığından derin öğrenme; görüntü tanıma, doğal dil işleme ve ses analizi gibi karmaşık görevlerde yüksek başarı gösterir. Bu bölümde ayrıca epoch, steps per epoch, batch size, target size, test ve validation doğrulukları, test ve validation kayıpları, aşırı öğrenme (overfitting), yetersiz öğrenme (underfitting) ve F1 skoru gibi temel kavramlar ele alınmaktadır.

Girdi Görüntüsü (Input Image): Modelin belirli bir boyutta işlediği ham görüntüdür.

Konvolüsyon Katmanı (Convolution Layer): Girdiye filtreler uygulayarak kenar, doku, çizgi gibi düşük seviyeli özellikleri çıkarır.

Havuzlama Katmanı (Pooling Layer): Özellik haritalarını sıkıştırarak boyutlarını küçültür ve önemli bilgiyi korur.

Tam Bağlantılı Katmanlar (Fully Connected Layers): Önceki katmandaki tüm nöronlarla bağlantılı olan, öğrenilen özelliklere dayanarak sınıflandırma veya regresyon yapan katmanlardır.

Sınıflandırma (Classification): Modelin girdiyi belirli sınıflara ayırdığı veya tahminler ürettiği son aşamadır.

Epoch: Bir epoch, derin öğrenme modelinin tüm veri kümesini bir kez baştan sona işlemesidir. Kaç epoch kullanılacağı, eğitim sürecinin toplam uzunluğunu belirler.

Batch Size: Modelin tek bir iterasyonda işlediği örnek sayısıdır. Daha büyük batch size daha stabil gradyan sağlar, ancak daha fazla bellek gerektirir.

Öğrenme Oranı (Learning Rate): Ağırlıkların güncellenme adımının büyüklüğünü belirler. Çok yüksek öğrenme oranı kararsızlık yaratabilir; çok düşük oran ise eğitimi yavaşlatabilir.

Step Per Epoch (SPE): Bir epoch süresince modelin işleyeceği mini-batch sayısını ifade eder.

Target Size: Girdi görüntülerinin modele verilmeden önce yeniden boyutlandırıldığı yükseklik ve genişlik değerleridir.

Test Doğruluğu (Test Accuracy): Modelin, eğitim sırasında görmediği test veri kümesi üzerindeki doğru tahmin oranıdır. Modelin genelleme performansını ölçer.

Test Kaybı (Test Loss): Modelin test veri kümesindeki hata miktarını gösterir. Düşük test kaybı daha iyi performansa işaret eder.

Doğrulama Doğruluğu (Validation Accuracy): Modelin doğrulama veri kümesi üzerindeki başarısını gösterir. Modelin aşırı öğrenip öğrenmediğini veya yeterince öğrenemediğini değerlendirmede önemli bir metrik sağlar.

Doğrulama Kaybı (Validation Loss): Doğrulama veri kümesindeki hata miktarını gösterir. Eğitim kaybı düşerken doğrulama kaybının yükselmesi, modelin eğitim verisine aşırı uyum sağladığını (overfitting) gösterir.

GÖRÜNTÜ İŞLEME

Görüntü işleme, dijital bir görüntünün bilgisayarlar tarafından analiz edilmesi, düzeltilmesi, dönüştürülmesi veya belirli bir amaca yönelik bilgi çıkarılması için uygulanan tüm yöntem ve tekniklerin genel adıdır. Temel amaç, görüntülerdeki bilgiyi insan gözüne göre daha hızlı, daha hassas ve daha tekrarlanabilir bir biçimde işleyebilmektir. Görüntü işleme genellikle iki ana aşamadan oluşur: görüntünün iyileştirilmesi (enhancement) ve görüntüden anlam çıkarma (analysis). İyileştirme aşaması; gürültü azaltma, kontrast artırma, keskinleştirme veya renk düzeltme gibi işlemleri içerirken, anlam çıkarma aşaması; nesne tespiti, segmentasyon, sınıflandırma, kenar belirleme, ölçümleme, özellik çıkarımı gibi daha üst seviye görevleri kapsar.

Görüntü işleme sürecinin ilk adımı, görüntünün dijital formata dönüştürülmesidir. Kamera, sensör veya tarayıcı gibi cihazlar görüntüyü ışık yoğunluklarına göre sayısallaştırır ve her piksel için belirli bir parlaklık veya renk değeri üretir. Bu veriler daha sonra çeşitli algoritmalar aracılığıyla işlenebilir hâle gelir. İşleme aşamasında yapılan en temel uygulamalardan biri filtrelemedir. Filtreler, görüntüdeki belirli özellikleri ortaya çıkarmak veya istenmeyen bileşenleri (örneğin gürültü) azaltmak için kullanılır. Örneğin, bulanıklaştırma filtreleri görüntü gürültüsünü azaltırken, keskinleştirme filtreleri kenar hatlarını güçlendirir.

Görüntü işlemenin en önemli alanlarından biri segmentasyondur. Segmentasyon, görüntünün anlamlı parçalara ayrılmasıdır; örneğin bir mikroskop görüntüsünde hücrelerin arka plandan ayrılması veya bir trafik görüntüsünde araç, yaya ve yolun birbirinden ayrılması gibi. Bu işlem sonrasında sınıflandırma veya nesne tanıma gibi daha ileri işlemler yapılabilir. Sınıflandırma, bir görüntüdeki nesnenin hangi kategoriye ait olduğunun belirlenmesidir. Geleneksel görüntü işleme yöntemlerinde bu işlem, nesnenin şekli, rengi, dokusu gibi özelliklerinin çıkarılıp istatistiksel yöntemlerle karşılaştırılmasıyla yapılırdı. Günümüzde ise yapay zekâ ve özellikle derin öğrenme tabanlı yöntemler, görüntü sınıflandırma ve nesne tanıma görevlerinde büyük başarı sağlamaktadır. Convolutional Neural Network (CNN) modelleri, görüntüdeki yerel özellikleri otomatik olarak öğrenerek çok daha doğru sonuçlar üretebilmektedir.

GÖRÜNTÜLEME SİSTEMLERİ

Görüntüleme sistemleri, bir nesnenin veya sahnenin fiziksel özelliklerini ışık, ısı, radyasyon ya da diğer elektromanyetik işaretler aracılığıyla algılayıp dijital ya da analog bir görüntüye dönüştüren sistemlerdir. Bu sistemlerin temel amacı, insan gözünün göremediği ayrıntıları ortaya çıkarmak, ölçülebilir veriler üretmek veya belirli koşullar altında daha yüksek doğrulukla algılama yapabilmektir. Bir görüntüleme sistemi genellikle üç ana bileşenden oluşur: optik sistem (lens, filtreler), dedektör veya sensör (ışığı elektriksel sinyale dönüştüren yapı) ve görüntü işleme birimi (analog-dijital dönüştürücü, işleme algoritmaları).

Görüntüleme sistemleri, algıladıkları elektromanyetik dalga boyuna göre sınıflandırılır. Bu dalga boyları, insan gözünün görebildiği görünür bölgeden (Visible) başlayarak yakın kızılötesi, kısa dalga infrared, orta dalga infrared ve uzun dalga infrared gibi çeşitli bandlara ayrılır. Her bandın fiziksel işleyişi, algıladığı enerji türü ve kullanım alanı farklıdır.

GÖRÜNÜR SPEKTRUM (VISIBLE) [400-700 NM]

Visible bandı, insan gözünün gördüğü ışığın dalga boyu aralığını temsil eder. RGB kameralar ve klasik fotoğraf makineleri bu bandı kaydeder. Bu bölgede sensörler, dışarıdan gelen ışığın yansımasına bağımlıdır. Yani çevrenin aydınlatılması gerekli bir koşuldur.

KISA DALGA BOYLU SPEKTRUM (SWIR) [900-2500 NM]

SWIR, kızılötesi spektrumun kısa dalga bölgesidir ve görünür ile termal görüntüleme arasında bir geçiş bölgesi olarak düşünülebilir. İnsan gözü tarafından görülemez ancak sensörler (InGaAs gibi) bu bandı algılayabilir. SWIR sistemlerin en büyük avantajı, görünür ışıkla mümkün olmayan detayları ortaya çıkarabilmesidir.

Visible ile SWIR Görüntü Arasındaki Fark

ORTA DALGA BOYLU SPEKTRUM (MWIR) [3000-5000 NM]

MWIR kameralar termal radyasyonu algılar, yani nesnenin yaydığı ısıyı ölçer. Bu nedenle sadece ışığı değil, ısısal enerji farklarını da ayırt edebilir. MWIR bandında çalışan sensörler genellikle “soğutmalı (cooled)” tiptedir ve çok yüksek hassasiyet sağlar.

UZUN DALGA BOYLU SPEKTRUM (LWIR) [8000-14000 NM]

LWIR, günlük hayatta “termal kamera” dediğimiz sistemlerin çoğunun çalıştığı bölgedir. Nesnelerin doğal olarak yaydığı ısı enerjisini ölçer. Karanlıkta da çalışabilir çünkü dış ışığa ihtiyaç yoktur. Çevresel koşullara karşı MWIR kadar hassas olmasa da, daha ucuz ve stabil olduğu için çok yaygın kullanılır.