Ortak Tarama - Common Crawl

Ortak Tarama
İş türü 501(c)(3) kar amacı gütmeyen
Uygun İngilizce
Merkez San Francisco, Kaliforniya ; Los Angeles, Kaliforniya , Amerika Birleşik Devletleri
Kurucu(lar) Gil Elbaz
Kilit kişiler Peter Norvig , Nova Spivack , Carl Malamud , Kurt Bollacker Joi Ito
URL ortak tarama .org

Common Crawl , web'i tarayan ve arşivlerini ve veri kümelerini halka ücretsiz olarak sağlayan, kar amacı gütmeyen bir 501(c)(3) kuruluşudur . Common Crawl'ın web arşivi , 2011'den beri toplanan petabaytlarca veriden oluşur. Taramaları genellikle her ay tamamlar.

Common Crawl, Gil Elbaz tarafından kuruldu . Kâr amacı gütmeyen kuruluşun danışmanları arasında Peter Norvig ve Joi Ito bulunmaktadır . Kuruluşun tarayıcıları, nofollow ve robots.txt politikalarına uyar . Common Crawl'ın veri kümesini işlemek için açık kaynak kodu herkese açıktır.

Tarih

Amazon Web Services , 2012 yılında Public Data Sets programı aracılığıyla Common Crawl'ın arşivini barındırmaya başladı.

Kuruluş , o yılın Temmuz ayında meta veri dosyalarını ve tarayıcıların metin çıktılarını .arc dosyalarının yanında yayınlamaya başladı . Common Crawl'ın arşivleri daha önce yalnızca .arc dosyalarını içeriyordu.

Aralık 2012'de, blekko , Common Crawl arama motoru meta verilerini Şubat ile Ekim 2012 arasında gerçekleştirdiği taramalardan topladığı blekko'ya bağışladı. Bağışlanan veriler, Common Crawl'ın "spam, porno ve aşırı SEO'nun etkisinden kaçınarak taramasını iyileştirmesine" yardımcı oldu .

2013 yılında Common Crawl, özel bir tarayıcı yerine Apache Software Foundation'ın Nutch web tarayıcısını kullanmaya başladı . Common Crawl , Kasım 2013 taramasıyla .arc dosyalarını kullanmaktan .warc dosyalarına geçti .

OpenAI'nin 2020'de duyurulan GPT-3 dil modelini eğitmek için Common Crawl'ın filtrelenmiş bir sürümü kullanıldı. Common Crawl verilerini kullanmanın zorluklarından biri, çok miktarda belgelenmiş web verisine rağmen, taranan web sitelerinin tek tek parçalarının daha iyi belgelenebilmesidir. Bu, Ortak Tarama verilerini kullanan projelerde sorunları tanılamaya çalışırken zorluklar yaratabilir. 2020'de Timnit Gebru ve diğerleri tarafından sektör çapında bir belge eksikliğine önerilen bir çözüm, her veri kümesinin motivasyonunu, bileşimini, toplama sürecini ve önerilen kullanımlarını belgeleyen bir veri sayfasıyla birlikte sunulması gerektiğidir.

Ortak Tarama verilerinin geçmişi

Aşağıdaki veriler resmi Ortak Tarama Blogundan toplanmıştır.

Tarama tarihi TiB'deki boyut Milyarlarca sayfa Yorumlar
Nisan 2021 320 3.1
Kasım 2018 220 2.6
Ekim 2018 240 3.0
Eylül 2018 220 2.8
Ağustos 2018 - -
Temmuz 2018 255 3.25
Haziran 2018 235 3.05
Mayıs 2018 215 2.75
Nisan 2018 230 3.1
Mart 2018 250 3.2
Şubat 2018 270 3.4
Ocak 2018 270 3.4
Aralık 2017 240 2.9
Kasım 2017 260 3.2
Ekim 2017 300 3.65
Eylül 2017 250 3.01
Ağustos 2017 280 3.28
Temmuz 2017 240 2.89
Haziran 2017 260 3.16
Mayıs 2017 250 2.96
Nisan 2017 250 2.94
Mart 2017 250 3.07
Şubat 2017 250 3.08
Ocak 2017 250 3.14
Aralık 2016 - 2.85
Ekim 2016 - 3.25
Eylül 2016 - 1.72
Ağustos 2016 - 1.61
Temmuz 2016 - 1.73
Haziran 2016 - 1.23
Mayıs 2016 - 1.46
Nisan 2016 - 1.33
Şubat 2016 - 1.73
Kasım 2015 151 1.82
Eylül 2015 106 1.32
Ağustos 2015 149 1.84
Temmuz 2015 145 1.81
Haziran 2015 131 1.67
Mayıs 2015 159 2.05
Nisan 2015 168 2.11
Mart 2015 124 1.64
Şubat 2015 145 1.9
Ocak 2015 139 1.82
Aralık 2014 160 2.08
Kasım 2014 135 1,95
Ekim 2014 254 3.7
Eylül 2014 220 2.8
Ağustos 2014 200 2.8
Temmuz 2014 266 3.6
Nisan 2014 183 2.6
Mart 2014 223 2.8 İlk Nutch taraması
Ocak 2014 148 2.3 Aylık gerçekleştirilen taramalar
Kasım 2013 102 2 Warc dosya formatındaki veriler
Temmuz 2012 - - Arc dosya formatındaki veriler
Ocak 2012 - - Amazon Web Hizmetlerinin Genel Veri Kümesi
Kasım 2011 40 5 Amazon'da ilk kullanılabilirlik

Norvig Web Veri Bilimi Ödülü

İle teyit bilgisi olarak SURFsara , Ortak Tarama Norvig Web Veri Bilim Ödülü, öğrenci ve araştırmacılara açık bir yarışma sponsor Benelux . Ödülün adı, aynı zamanda ödül için değerlendirme komitesine de başkanlık eden Peter Norvig'den geliyor .

Referanslar

Dış bağlantılar