Veri “Bilimi” Gerçekten Bilim Mi?

veri bilimi bilimciliği

Teknolojinin gelişmesiyle birlikte hayatımıza çok sayıda yeni terimler giriyor. Bunlarla birlikte uygulamalar çeşitleniyor ve meslekler bu gelişmelerle birlikte evrilmeye başlıyor. Özellikle de, bulunduğumuz bilgi çağında “Veri Bilimi” ve “Veri Bilimciliği” kavramları ortaya çıktı.

Büyük verilerle oynayan bu insanların maaşlarının da bu veriler kadar yüksek olduğu bilinmekte. Maaşlarının dışında da ilginin odağı olan bu meslek, 2012 yılında Harvard Business Review tarafından “21. Yüzyılın En Seksi Mesleği” olarak adlandırıldı.

Ancak dünya bu kavramlar üzerinde tam anlamıyla uzlaşmış değil. Bir yandan bazı insanlar veri biliminin gerçekten “bilim” olmadığını ve kavramın yanıltıcı olduğunu savunurken; diğer yandan buna karşı çıkarak gerçek bir bilim olduğunu savunan insanlar var.

Peki kim haklı, veri bilimine gerçekten “bilim” diyebilir miyiz, bu sorunun mutlak bir cevabı var mı; gelin birlikte inceleyelim.

Veri Bilimi Nedir, Veri Bilimcisi Kimdir?

Veri bilimi, bilimsel yöntem ve süreçleri, algoritmaları ve süreçleri kullanarak yapılandırılmış veya yapılandırılmamış verileri inceleyen bir alandır. Yapılandırılmış veriler yüksek ölçüde düzenlenmiş, yapılandırılmamış veriler ise düzensiz olarak nitelendirilebilir verilerdir.

 

Şekil 1: Yapılandırılmış ve Yapılandırılmamış Verinin Farkları (Kaynak: https://www.igneous.io/blog/structured-data-vs-unstructured-data)


Veri bilimi, 1998 yılında Chikio Hayashi tarafından “istatistik, veri analizi, makine öğrenmesi ve benzer yöntemleri bir araya getiren bir konsept” olarak tanımlanmış. Günümüzde ise veri biliminin -yaygın tanımıyla- matematik, istatistik ve bilgisayar bilimlerini bir araya getiren bir çok disiplinli alan olduğu biliniyor.

Veri biliminin günümüzde bilinir ve kabul görmüş bir alan olduğunu iddia etsek de üzerinden hala bir sonuca bağlanmamış birçok tartışma dönmekte.

Bu tartışmalardan en çok göze çarpanı, bu alanın yeni bir alan olmadığı ve istatistik bilimine verilmiş başka bir ad olduğu. Bunu savunan birçok istatistikçi olduğu gibi, tam tersi şekilde istatistiğin veri biliminin vazgeçilmez bir parçası olmadığını savunan istatistikçiler de bulunuyor.

Veri bilimcilerini ise kısaca bu bilimi kullanan kişiler olarak tanımlayabiliriz. Veri bilimcileri büyük verideki yapılandırılmış ve yapılandırılmamış verileri analiz eden kişilerdir.

Çalıştıkları kurumlar için bu verilerden anlamlı sonuçlar çıkarırlar ve kurumlar da elde edilen sonuçlar doğrultusunda uygun hareket planları hazırlarlar.

Glassdoor verilerine göre veri bilimcilerinin yıllık ortalama kazancı yaklaşık 113 bin dolar. Maaşlarına bakarak bu kişilerin aslında şirketler için ne kadar önemli olduğunu anlayabiliriz.

Veri bilimi kullanılırken, anlamlı bir sonuca ulaşılabilmesi için akademik araştırmalarda kullanıldığı gibi bazı yöntemlere başvurulur. Bu yöntemlerın en popüler olanlarından CRISP-DM metodolojisini inceleyelim.

 


Şekil 2: CRISP-DM Metodoloji Şeması (Kaynak: https://www-01.ibm.com/events/wwe/grp/grp304.nsf/vLookupPDFs/Polong%20Lin%20Presentation/$file/Polong%20Lin%20Presentation.pdf)

İlk aşama “iş anlayışı”, şirket ya da kuruluş olarak ne yapmayı amaçladığınızı ve bu amaç doğrultusunda yol haritanızın ne olduğunu açıkça ortaya koyar. İlerleme için çözülmesi gereken sorunları ele alır.

İkinci aşama “analitik yaklaşım” ise belirlenmiş olan probleme istatistik ve makine öğrenmesi bağlamında irdeleyici sorular sorar: “Müşterilere nasıl daha kişiselleştirebilmiş ürünler sunabilirim?” ya da “Bu hastada x hastalığı mı var y hastalığı mı?” gibi.

Analitik yaklaşımın ardından gelen üç aşama (veri gereksinimi, veri toplama, veriyi anlama) “veri derleme” aşaması olarak adlandırılır. Sırasıyla problem için gereken veriler belirlenir, toplanır ve incelenerek içerisinden çıkarımlar yapılır.

Veriyi hazırlama” aşamasında eldeki veri düzgün bir şekilde formatlanır, eksikleri belirlenir ve fazlalıkları içinden ayıklanır.

Modelleme” aşamasında durum birçok farklı algoritma ile modellenir. Süreçte sıkça tekrarlayan bir işlemdir.

Değerlendirme” yapılırken seçilen algoritma ile yapılmış modelin sonuca olan yaklaşımı irdelenir. Ne kadar sağlıklı çalıştığıyla ilgili sonuçlar çıkarılır. Buradan alınan değerlendirmeler sonucunda model, “yerleştirme” aşamasında test edilme amacıyla çalıştırılmaya başlayabilir, buradaki başarısı da “geribesleme” olarak modelleme aşamasına gönderilir.

Veriyi neden inceliyoruz?

 


Şekil 3: (Kaynak: https://vizyonergenc.com/storage/posts/September2019/Eg3XKkPZoVt6F0uyxHiV.jpg)

Günümüzde bilgisayarların işlemsel gücü büyük bir hızla gelişmekte. Artık daha fazla depolama alanına sahipler ve karmaşık işleri dahi yerine getirebilecek kadar geniş bir kapasiteleri var.

Bu gelişmeler sonucunda hayatlarımızda bilgiye erişimimiz kolaylaştı. 20. yüzyılın ortası itibariyle yeni bir çağa girdik: Bilgi Çağı.

Bu çağın en önemli özelliği bilgisayarların kullanımının ve internete erişimin oransal olarak artması. Bu da her saniye işlenmiş veya işlenmemiş birçok verinin üretildiği anlamına geliyor.

Bu bağlamda düşünürsek veri analizini Bilgi Çağı ile özdeşleştirebiliriz.

Bilgisayarların hayatımıza girişinden beri onları hep farklı işler için kullandık. İlk hayatlarımıza girdiklerinde bizler için karmaşık işlem yapabilen hesap makineleriydi.

 

Şifrelemelerin çözümü için de kullanılabiliyorlardı. Daha sonra internet ile birlikte bu kapasiteleri arttı ve bizim için bir iletişim aracı haline geldiler. İlerleyen zamanlarda sadece iletişim için kullanmakla yetinmedik, aynı zamanda internet için içerikler oluşturmaya başladık. 

Tam da bu noktada siteler kullanıcılarının onlara hareketleriyle aslında önemli bilgiler bıraktığını fark ettiler. Böylece onlardan veriler toplamaya başladılar: ziyaret ve tıklama sayıları gibi. Ve hayatımıza internete bağlanabilen akıllı cihazlar girdikçe toplanılan kullanıcı verisinin tür bakımından çeşitliliği arttı. 

Artık lokasyon gibi bilgiler de toplanabiliyordu. Nesnelerin internetinden sonra artık bu kullanıcıların günlük alışkanlıklarının içine daha da dahil oldular, elde edilen veriler daha kapsayıcı bir hale geldi.

Artık insanlar verinin neden değerli olduğunu ve ondan nasıl gelir elde edebileceklerini biliyorlardı.Her gün her saniye üretilen çok sayıda bilgi, büyük veri merkezlerinde depolanmaya başladı.

Satıcılar insanların tüketim alışkanlıklarından yola çıkarak onlara ilgilerini çekebilecek ürünler göstermeye başladılar: her kullanıcı için kişiselleştirilmiş alışveriş önerileri, sonucunda da artan satışlar.

Veri toplamak aslında sadece para kazanma aracı değil. Facebook, Instagram gibi uygulamalar kullanıcılarının alışkanlıklarını keşfederek onları daha çok uygulamada tutacak değişiklikler yapıyor. Ve bu şirketler, rakipleri algoritmalarını kopyalayamasın diye ellerindeki verileri açık olarak sunmuyorlar.

Bu tür şirketler ellerindeki tüm veriyi işleyemeseler de depoluyorlar çünkü ileride işleyebildikleri zaman bunun kendilerine katacağı değerin farkındalar. 

Ellerinde veriyi satın almak için milyon dolarlar ödemeye hazır birçok şirket olsa da, şu an kazanacakları milyon dolarlar yerine veri işlendiği zaman elde edecekleri gücü ve parayı bildikleri için zamanlarının gelmesini bekliyorlar.

Bu konseptlerin yanı sıra, bazı şirketler fiyatlandırma yaparak birtakım verilerini isteyen insanlarla paylaşıyorlar, bu sayede kullanıcılar kendi uygulamaları için gerekli veri setlerine ulaşabiliyor.

Akademik camia ve kar amacı gütmeyen kuruluşlar ise ellerindeki veri setlerini ücretsiz bir şekilde halka sunuyorlar. Akademik çalışmalara yardım etmesi amacıyla sadece güvenilir ve ücretsiz veri setleri oluşturmaya odaklanan topluluklar ortaya çıktı. Bu topluluklar belirli bilim dallarında detaylı setler oluşturuyorlar.

Veri, günümüzde sadece onu analiz edenlerin kullandığı bir materyal olmaktan çok artık çoğu şirketin, çoğu kişinin amacı haline geldi. Şirketler artık işleyemeyeceğini bildiği kadar çeşitli ve fazla veri topluyor. Topladıklarının büyüklüğünün onlara güç sağlayacağını düşünüyorlar.

Bilim Nedir?

Bilim; kelime anlamıyla doğal ve fiziksel dünyanın davranış ve yapısıyla ilgili bilgiler bütünüdür, kanıtlanabilir argümanlardan oluşur. Bir çeşit bilgiyi temellendirme yoludur.

Birçok insan yaşamında kullandığı pratik bilgileri temellendirme ihtiyacı duymaz ve bu bilgiler yanlışlandığı zaman bilgilerini doğrusuna güncelleyerek kullanmaya devam ederler.

Örneğin mutlak doğru olarak kabul edilen bir bilgi yanlışlandığında, bilginin savunucuları sorgulamaktan kaçınarak söylemlerini yeni doğruya adapte ederler.

Bilimde de bir bilgi yanlışlandığında, onun yerine aksi ispat edilememiş olan bilgi geçer. Ve bu kabul gören bilgi de yanlışlanana kadar doğru olarak anılacaktır.

Ancak pratik bilgilerin ve gündelik yaşamın aksine bilimde bilgiler mutlak doğru olarak kabul edilmezler, çünkü her zaman yanlışlanma olasılıkları vardır.

Özetleyecek olursak bilim fikirlere, değişikliklere ve eleştirilere açık bir alandır. Herkesin rasyonel düşüncelerine saygı duyar ve kolektif bir çabayla dünyayı daha iyi bir yer haline getirmeyi amaçlar.

Bilimsel araştırmalarda kullanılan, farklı amaçlara yönelik çok sayıda metot bulunuyor. Ancak bir şema var ki bilimsel araştırma yöntemi denince herkesin aklında o beliriyor.

Fazla bilimsel gözükmese de aslında bilimsel araştırma sürecini 10 basamaktan kısa ve herkesçe anlaşılır bir şekilde özetliyor. Öyleyse “bilimsel araştırma yöntemimize birlikte göz atalım:

 

Şekil 4: Bilimsel Araştırma Yöntemi Şeması (Kaynak: https://www.sciencebuddies.org/science-fair-projects/science-fair/steps-of-the-scientific-method#hypothesis)

Bilimsel yöntem önce çevrede gözlemlenen bir konu hakkında soru sorulması ile başlıyor. Ardından konuyla ilgili bilgiler toplanıyor ve bu bilgilerden çıkarımlarda bulunuluyor. Yapılan çıkarımlar deneysel olarak test ediliyor ve sağlıklı sonuçlar elde edildiğinde bulgulardan bir sonuca ulaşılıyor.

Eğer deneysel kısımdan sağlıklı veriler elde edilmemişse deney basamağını gözden geçirerek problemin nerede olmuş olabileceğini buluyoruz. Ve deney sonucunda elde ettiğimiz bulgular hipotezimizi desteklemiyorsa yaptığımız çıkarımı elimize geçen yeni veriler ışığında tekrar oluşturuyoruz.

Bir Bilim Olarak Veri Bilimi

Veri bilimi ve bilim ile ilgili terimler hakkında genel anlamda bilgi sahibi olduğumuza göre artık veri biliminin gerçekten “bilim” olup olmadığı üzerine tartışmalarımıza başlayabiliriz.

Eğer veri bilimi, bilimin altında bir dal ise bu onun bilimden doğduğu anlamına gelir. Ve eğer veri bilimi, bilimden doğmuşsa ikisinin de süreçlere olan yaklaşımının aynı düzlemde olması gerekir. Yani bu durumda iki alanın da metodlarını kıyaslayarak gözden geçirmemiz gerekir.

Veri biliminde bir çalışma yaparken ilk olarak “iş anlayışı” ve “analitik yaklaşım” basamaklarını kullanıyoruz. Bilimsel bir çalışmada ise ilk aşama olarak çevremizi gözlemleyerek orada bulunan eksikler veya sorunlar üzerine çıkarımlar yapıyoruz.

Veri biliminde bakış açısı iş bağlamında olduğu için aslında bu anlayış kavramının yalnızca çevre olarak kurumsal ortamı ele aldığı sonucuna varabiliriz.

Veri biliminin “veri derleme” adını verdiği üç basamaklı kısım, kurumda ortaya çıkarılan problemden sonra problemin çözümü için gereken önbilgiyi temsil eder.

Aynı şekilde bilimsel yöntemde de ortaya konulan sorunun ardından araştırma merkezimize sorunu koyarak bize yardımcı olacak bilgileri toplarız.

“Veriyi hazırlama” aşamasını bilimsel çalışmalardaki hipotez aşamasına benzetebiliriz. Bilimsel araştırma yöntemlerinde uzlaşılmış bir sonuç olmadığı için, yani bazı basamakları araştırmaya göre yer değiştirebildiği için buradaki geçişi keskin çizgilerle ayıramayız.

Yine de veriyi, yapılan çıkarıma dayalı olarak ayıklayacağımız için bu aşamada hipotezin kurulmuş olması ve verilerin hipoteze uygun olarak deneysel aşamaya hazırlandığını söyleyebiliriz.

Tüm bu aşamalardan sonra deneysel kısma geçilir. Deneysel kısım ise veri bilimindeki “modelleme”ye karşılık geliyor. Modelleyerek hipotezimizi denemiş oluyoruz. Ve aynı bilimsel yöntemdeki gibi modellememiz sağlıklı sonuçlar veriyor ya da veremiyor.

Bu çıktımıza uygun olarak da tekrarlamamız gereken aşamaları tekrarlıyoruz. Ve en son deneyden sorunsuz çıktıyı alana kadar basamakları tekrar ediyoruz. En sorunsuz model ise araştırmanın sonucunda seçilmiş oluyor.

Yöntemlerinden yola çıkarsak, veri biliminin aşamalarıyla birlikte bilimsel bir süreç ortaya koyduğunu söyleyebiliriz. Yani herhangi bir veri bilimi projesinin sonucunda yazılan rapor, tam anlamıyla bilimsel bir rapor olarak nitelendirilebilir (yönteme uygun yapıldığında). Buradan hareketle veri biliminin bilim olduğunu söyleyebiliriz.

Yine de bu noktada tartışılması gereken başka konular bulunmakta. Veri biliminin diğer bilimlerden tamamen farklı, özgün bir dal olduğunu söyleyebilir miyiz?

Eğer söyleyebilirsek o zaman veri biliminin yüksek oranda benzerlik gösterdiği bilim dalları olduğu için, veri bilimi ile aynı nitelikte birçok yeni alan oluşması gerekmez mi?

Veri bilimi özgün bir alan değilse, hangi bilimin içerisinde yer alıyor? Ve eğer veri bilimini istatistik içinde ele alırsak, veri bilimine bilim diyebilmek için matematiği bir bilim dalı olarak kabul etmemiz gerekiyor.

Ancak bu da tartışmalı başka bir konu: Matematik bir bilim midir?

Sonuç olarak veri bilimini “bilim” olarak kabul etsek de etmesek de, bunu yaparken aslında bazı kabullere varmamız gereken başka ikilemlerle karşılaşıyoruz. Bu yüzden bu soruya evrensel geçerliliği olan bir yanıt verilemeyeceğini düşünüyorum. Sizler bu konuda ne düşünüyorsunuz? Sizce veri bilimi bilim mi, bilimse neden?

Diğer yazılarıma buradan ulaşabilirsiniz.

Kaynaklar

“Data Scientist: The Sexiest Job of the 21st Century” https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century

“Steps of Scientific Method” https://www.sciencebuddies.org/science-fair-projects/science-fair/steps-of-the-scientific-method#hypothesis

“Structured and nonstructured data” https://www.igneous.io/blog/structured-data-vs-unstructured-data

“The Data Science Process” https://www-01.ibm.com/events/wwe/grp/grp304.nsf/vLookupPDFs/Polong%20Lin%20Presentation/$file/Polong%20Lin%20Presentation.pdf

“What is Data Science? Fundamental Concepts and a Heuristic Example” https://www.springer.com/gp/book/9784431702085

“What is a Data Scientist?” https://www.mastersindatascience.org/careers/data-scientist

 

Leave a Reply

Your email address will not be published. Required fields are marked *