Content Signals: Yapay Zeka Çağında Web Yayıncılığının Yeni Savunma Hattı
🇹🇷 Cloudflare'in IETF'e sunduğu Content Signals protokolünü inceleyerek, robots.txt dosyasını nasıl bir niyet beyanına dönüştürdüğünü, botlara özel Markdown formatını ve sektördeki eleştirileri ele alıyoruz.
İnternetin yıllardır süregelen sessiz anlaşması bozuluyor. Yayıncılar içeriklerini arama motorlarına ücretsiz açıyor, karşılığında ise trafik (referral) alıyordu. Ancak LLM’lerin (Büyük Dil Modelleri) ve üretken yapay zekanın yükselişiyle birlikte botlar artık trafiği yönlendirmek yerine içeriği “yutuyor”. Cloudflare’e göre 2029’da bot trafiği insanları geçecek.
Bu kaosa düzen getirmek için Cloudflare, IETF’e sunduğu Content Signals (AI Preferences - aipref) protokolünü duyurdu. Peki bu teknik olarak ne anlama geliyor?
1. robots.txt 2.0: Artık Niyetler Önemli
Resmi Cloudflare dökümantasyonuna göre Content Signals, robots.txt dosyasını basit bir erişim listesinden bir “niyet beyanı”na dönüştürüyor. Artık sadece “kapıyı kilitlemek” yerine, kapıdan giren botun içeride ne yapabileceğini üç ana direktifle belirliyoruz:
search=yes/no: İçeriğin klasik arama motoru indekslemesinde (bağlantılar ve kısa alıntılar aracılığıyla) kullanılıp kullanılamayacağı. Önemli detay: Arama indekslemesine izin vermek, yapay zeka tarafından oluşturulan arama özetlerini (AI-generated search summaries) kapsamaz.ai-input=yes/no: İçeriğin, hedefe yönelik okuma artırılmış üretim (RAG - Retrieval-Augmented Generation), bilginin referansla temellendirilmesi (grounding) veya anlık üretken yapay zeka arama yanıtları için bir AI modeline girdi olarak sağlanıp sağlanamayacağı.ai-train=yes/no: İçeriğin yapay zeka modellerini eğitmek veya bu modellerde ince ayar (fine-tuning) yapmak için kullanılıp kullanılamayacağı.
Eksik Sinyallerin Anlamı: Eğer web yöneticisi belirli bir kullanım için
Content-Signalbildirimi yapmazsa, o kulanım senaryosu için ne izin verilmiş ne de kısıtlama getirilmiş sayılır.
Hazır Politikalar (Policies)
contentsignals.org inisiyatifi, yayıncılara amaçlarına göre dört temel politika sunmaktadır:
- Tümünü Reddet (Disallow All): En kısıtlayıcı seçenektir. Arama motorlarının sitenizi dizinden tamamen çıkarmasına yol açabilir, AI işlemlerine de kapalıdır.
- Sadece Aramaya İzin Ver (Allow Search Only): Sadece arama sonuçlarında görünmenize olanak tanır, AI eğitimine ve RAG/Girdi sistemlerine kapalıdır.
- Arama ve AI Girdisine İzin Ver (Allow Search & AI Input): Klasik arama motorları ile sitenizden “kaynak göstererek” yanıt üreten anlık AI sistemlerinin çalışmasına izin verir, fakat içeriğin kalıcı olarak bir modeli eğitmek için kullanılmasını yasaklar.
- Tümüne İzin Ver (Allow Search, AI Input & AI Training): İçeriğinizi tüm bot trafiğine ve yapay zeka edinim süreçlerine açar.
Uygulama Testi ve Gelişmiş Kullanım
Eğer bloğunuzun arama motorlarında görünmesini ama AI modellerine kalıcı veri olmamasını istiyorsanız genel bir tanım işinizi görecektir:
1
2
3
User-Agent: *
Content-Signal: ai-train=no, search=yes, ai-input=no
Allow: /
Bununla birlikte Content Signals protokolü; bot tiplerine veya sitenin belli dizinlerine göre gelişmiş filtreleme senaryolarına da olanak tanır:
1. Belirli Botları Hedeflemek: Yalnızca kendi seçtiğiniz botlara özel kısıtlamalar uygulayabilirsiniz.
1
2
3
4
5
6
7
User-Agent: googlebot
Content-Signal: ai-train=no, search=yes, ai-input=no
Allow: /
User-Agent: OAI-Searchbot
Content-Signal: ai-train=no, search=yes, ai-input=no
Allow: /
2. Belirli Sayfaları Koruma veya Özgür Bırakma: Sitenizin her sayfası veya URL dizini aynı kurala tabi olmak zorunda değildir.
1
2
3
4
5
6
7
8
9
# /about sayfası için her kullanıma (eğitim dahil) izin ver
User-Agent: *
Content-Signal: /about ai-train=yes, search=yes, ai-input=yes
Allow: /about
# /blog/ dizini için sadece aramaya izin ver (AI'ı reddet)
User-Agent: *
Content-Signal: /blog/ ai-train=no, search=yes, ai-input=no
Allow: /blog/
2. Markdown for Agents: Botlara Özel Dil
Cloudflare’in en dikkat çekici teknik yeniliği ise Markdown for Agents. Bir bot sitenize geldiğinde, içerik otomatik olarak botların en iyi anladığı format olan Markdown’a çevriliyor.
- %80 Token Tasarrufu: Ham HTML yerine Markdown sunmak botlar için işlem maliyetini devasa oranda düşürüyor.
- Frontmatter Entegrasyonu: İçerik sinyalleriniz (Content Signals), Markdown dosyasının en başına (frontmatter) otomatik olarak işleniyor.
3. Kalite Sinyalleri ve E-E-A-T
Botların içeriğinize erişmesine izin verseniz bile, asıl mesele o içeriğin “değerli” olarak algılanması. Modern AI algoritmaları (Google BERT ve MUM gibi) artık sadece anahtar kelimelere değil, semantik bağlama bakıyor.
- İnsan İçin İçerik: Algoritmalar artık “insan tarafından, insan için” yazılmış, deneyim (Experience) ve uzmanlık (Expertise) barındıran içerikleri ödüllendiriyor.
- Orijinallik: Başka yerde bulunmayan teknik notlar ve özgün araştırmalar, en güçlü kalite sinyalleridir.
4. Madalyonun Öteki Yüzü: Sektörel Eleştiriler
Her ne kadar Cloudflare’in vizyonu umut verici olsa da, SEO dünyasından (Search Engine World gibi otoritelerden) haklı şüpheler geliyor:
- Google Faktörü: Pazar lideri Google, kendi AI ürünlerini (Gemini, AI Overviews) kısıtlayacak bir standardı neden gönüllü kabul etsin?
- Operasyonel Yük: Milyarlarca sayfanın sinyalini her sorgu anında (runtime) kontrol etmek devasa bir gecikme (latency) ve maliyet yaratabilir.
- Yasal Statü ve Yaptırım Gücü:
robots.txtdosyaları teknik olarak içerik çekilmesini kesin engelleyen mekanizmalar değil, yayıncının tercih bildirimleridir. Bazı toplayıcı botlar (crawler) bu sinyalleri umursamadan veriyi çekmeye devam edebilir. Ayrıca mahkemelerrobots.txtkurallarının her zaman hukuken bağlayıcı olmadığına karar verebilir (kesin kanı için hukuki danışmanlık alınması önerilir). Yine de bu sinyalleri kullanmak, AB Telif Hakkı Direktifi Madde 4 kapsamında içeriğin izinsiz kullanımına karşı “hakların telif hakkı sahibince açıkça saklı tutulduğunun” teknik olarak bildirilmesi adına atılabilecek en kolay somut adımdır.
Sonuç: Geleceğin Web’i İçin Bir Adım
Bir güvenlik araştırmacısı ve tersine mühendis olarak görüşüm; Content Signals’ın doğru problemi tespit ettiği yönünde. robots.txt 1994’ten kalma bir antikaydı ve botların “niyetini” sorgulayabilecek hale gelmesi gerekiyordu.
Bu sinyaller, en azından etik botlar için bir sınır çiziyor ve AB Telif Hakkı Direktifi Madde 4 kapsamında yasal bir rezervasyon zemini hazırlıyor. Ancak tam başarı için Google ve OpenAI gibi devlerin de bu dili konuşmaya başlaması şart.
Sizce bu sinyaller internetin “vahşi batı” dönemini kapatmaya yeterli mi? Kendi robots.txt dosyanızı güncellemeyi düşünüyor musunuz?