YeniHayat Information Technologies Inc » İnternet İnternet olalı, böyle data görmedi

Her şey pek güzel, internet icat olalı, dünya tepeden tırnağa değişti ve bu değişim hız kesmeden sürüyor. Başlangıçta ihmal edilebilir gibi görünen bazı durumlar artık bizzat sorunun kendisi haline gelmek üzere ve günlerdir, bunu nasıl yazabileceğimi düşünüyorum.

1 milyar adet web sitesini kim yapıyor?

Eğer linkteki siteye gidecek olursanız, benim burada vereceğim rakamın yükselmekte olduğunu kendiniz de göreceksiniz, evet tabii ki, bu site web sitelerini tek tek saymıyor ama artık ortalama “yeni web sitesi yapma hızı” var ve nerede yavaşlayacağını halen bilmiyoruz: http://www.internetlivestats.com/

Ben bu yazıyı yazarken, ikinci kutudaki sayı: 1,078,433,132 idi.

Durumun ciddiyeti ve vehametini tanımlamak gerektiğine göre, ilginizi çekebilmeyi umarak temel başlığı açayım: Bu noktada alttaki grafikler Ağustos 2014 verileri üzerinden kurgulanmıştır. Verilerdeki değişimin hızı bile nasıl bir yoğunlaşma olduğunu anlatmaya yeter aslında.

Piyasanın günbegün geliştiği ve durmaksızın genişlediği, ama sektörleşmenin gerçekleşmediği “web sitesi” alanındaki son üç yılın verilerine göz atalım:

2012 – 2013 ve 2104 verilerine yanyana baktığımızda bile durum ortada. **

2012 : “In the December 2012 survey we received responses from 633,706,564 sites”

2013 : “In the June 2013 survey we received responses from 672,985,183 sites, 148k more than last month.”

2014 : “In the August 2014 survey we received responses from 992,177,228 sites — four million fewer than last month.”

2014 yılı rakamlarını doğru kabul edeceksek, 992 milyon küsür site yayında bulunuyor. En az ilgili bir kişiye bile şu soruyu sorduğumuzda çoğunlukla olumsuz yanıt alıyoruz: “Sizce dünyada iyi çalışan, sahibinin ve kullanıcılarının memnun olduğu, 1 milyon (yazıyla bir milyon) tane web sitesi var mıdır?”

Yukarıdaki sayıları bilgi olarak aktarmadığımızda bu yanıt genel olarak: “Yoktur” biçiminde oluyor.

Sayı bilgilerini aktardığımızda oluşan tereddüt sonrası, yanıt: “E o zaman belki vardır” biçimine dönüşüyor.

Bu durumda en iyimser rakamlara zorlasak: Örneğin, 92 milyon iyi web sitesi vardır türünden, neredeyse imkansız bir önermeyi doğru bile kabul etsek, 900 milyon çöp site -an itibarıyla artmış olacak- olduğunu da kabul etmiş oluyoruz.

Büyük Verinin Görünmeyen Maliyeti: Büyük Çöplük

Peki bu soruna dair olası çözümler neler olabilir ya da olmalıdır?

Piyasanın “para etmeyen veri” kısmını görmezden gelmesinin maliyeti, giderek altından kalkılması olanaksız bir yüke dönüşüyor gibi görünüyor.

Para etmeyen veri yok mu demektir?

Eğer siteleri daha az kaynak tüketen yollarla yapamazsak, sadece hayatta kalmaya çalışan ve her herhangi bir anda sürdürülemez noktaya gelecek olan bir süreçten sözediyoruz demektir. Donanım tarafında, işlemci ve depolama kapasitelerinin de belli bir tempoda artması, sorunu bir yandan görünmez hale getirirken, bir yandan veri büyüklüğünün hızını arttırdığından tuhaf bir açmaza girmiş oluyoruz.

Şu anda gelişecek her hangi bir metodun, sistemde -örneğin- %20 verimlilik sağlayacağını varsayabilseydik, bu yaklaşımla 200 milyon sitenin, bugün için anlık olarak ne tüketiyorlarsa, hepsinin geri kazanılacağı anlamına geleceğini görebilecektik, bu yönde düşünülürse büyük fotoğraftaki sorunun anlamını kavrayabiliriz.

Bu türden bir verimlilik sürecinin, enerji, insan kaynağı, depolama, mekan ve sistem giderleri yanısıra marjinal maliyetler açısından nasıl bir bütçeye denk geldiğini hesaplamak gerektiğini sanmıyorum.

Bir yol bulunmalı

Vikipedya’da şu bilgiler var: “Büyük veri; toplumsal medya paylaşımları, ağ günlükleri, bloglar, fotoğraf, video, log dosyaları vb. gibi değişik kaynaklardan toparlanan tüm verinin, anlamlı ve işlenebilir biçime dönüştürülmüş biçimine denir. Olageldiği gibi, ilişkisel veri tabanlarında tutulan yapısal verinin dışında kalan, son dönemlere dek çok da kullanılmayan, yapısal olmayan veri yığınıdır. Artık yıkılmış olan yaygın bilişimci inanışına göre, yapısal olmayan veri, değersizdi, ama büyük veri bize bir şey gösterdi o da günümüzdeki bilgi çöplüğü diye adlandırılan olgudan muazzam derecede önemli, kullanılabilir, yararlı yani çöplükten hazine çıkmasına neden olan yegane sistemdir. Büyük veri; web sunucularının logları, internet istatistikleri, sosyal medya yayınları, bloglar, mikrobloglar, iklim algılayıcıları ve benzer sensörlerden gelen bilgiler, GSM operatörlerinden elde edilen arama kayıtları gibi büyük sayıda bilgiden oluşuyor.”

Benim burada anlatmaya çalıştığım ise bunun da ötesinde, bu Big Data’yı oluşturan ve “data” sayılmayan ama olağanüstü bir kaynak verimsizliği yaratan, çalışan kod tabir edebileceğimiz, sunucu taraflı kodlar, html, css, JS türünden, emek maliyeti de içeren kısım. Yani daha Big Data’ya gelemedik…

Sonuç niyetine…

Müşterinin çözüm sanabileceği “şey”leri anlamaya çalışıp yeni çözümsüzlükler üretmek ve varolan çöp yığınını büyütmek yerine, gerçekten çözüm olan ve verimliliği arttırıp sorunları azaltacak iş modellerini geliştirmeye çalışmak gerekli.