Ortak Tarama - Common Crawl
İş türü | 501(c)(3) kar amacı gütmeyen |
---|---|
Uygun | İngilizce |
Merkez | San Francisco, Kaliforniya ; Los Angeles, Kaliforniya , Amerika Birleşik Devletleri |
Kurucu(lar) | Gil Elbaz |
Kilit kişiler | Peter Norvig , Nova Spivack , Carl Malamud , Kurt Bollacker Joi Ito |
URL | ortak tarama |
Common Crawl , web'i tarayan ve arşivlerini ve veri kümelerini halka ücretsiz olarak sağlayan, kar amacı gütmeyen bir 501(c)(3) kuruluşudur . Common Crawl'ın web arşivi , 2011'den beri toplanan petabaytlarca veriden oluşur. Taramaları genellikle her ay tamamlar.
Common Crawl, Gil Elbaz tarafından kuruldu . Kâr amacı gütmeyen kuruluşun danışmanları arasında Peter Norvig ve Joi Ito bulunmaktadır . Kuruluşun tarayıcıları, nofollow ve robots.txt politikalarına uyar . Common Crawl'ın veri kümesini işlemek için açık kaynak kodu herkese açıktır.
Tarih
Amazon Web Services , 2012 yılında Public Data Sets programı aracılığıyla Common Crawl'ın arşivini barındırmaya başladı.
Kuruluş , o yılın Temmuz ayında meta veri dosyalarını ve tarayıcıların metin çıktılarını .arc dosyalarının yanında yayınlamaya başladı . Common Crawl'ın arşivleri daha önce yalnızca .arc dosyalarını içeriyordu.
Aralık 2012'de, blekko , Common Crawl arama motoru meta verilerini Şubat ile Ekim 2012 arasında gerçekleştirdiği taramalardan topladığı blekko'ya bağışladı. Bağışlanan veriler, Common Crawl'ın "spam, porno ve aşırı SEO'nun etkisinden kaçınarak taramasını iyileştirmesine" yardımcı oldu .
2013 yılında Common Crawl, özel bir tarayıcı yerine Apache Software Foundation'ın Nutch web tarayıcısını kullanmaya başladı . Common Crawl , Kasım 2013 taramasıyla .arc dosyalarını kullanmaktan .warc dosyalarına geçti .
OpenAI'nin 2020'de duyurulan GPT-3 dil modelini eğitmek için Common Crawl'ın filtrelenmiş bir sürümü kullanıldı. Common Crawl verilerini kullanmanın zorluklarından biri, çok miktarda belgelenmiş web verisine rağmen, taranan web sitelerinin tek tek parçalarının daha iyi belgelenebilmesidir. Bu, Ortak Tarama verilerini kullanan projelerde sorunları tanılamaya çalışırken zorluklar yaratabilir. 2020'de Timnit Gebru ve diğerleri tarafından sektör çapında bir belge eksikliğine önerilen bir çözüm, her veri kümesinin motivasyonunu, bileşimini, toplama sürecini ve önerilen kullanımlarını belgeleyen bir veri sayfasıyla birlikte sunulması gerektiğidir.
Ortak Tarama verilerinin geçmişi
Aşağıdaki veriler resmi Ortak Tarama Blogundan toplanmıştır.
Tarama tarihi | TiB'deki boyut | Milyarlarca sayfa | Yorumlar |
---|---|---|---|
Nisan 2021 | 320 | 3.1 | |
Kasım 2018 | 220 | 2.6 | |
Ekim 2018 | 240 | 3.0 | |
Eylül 2018 | 220 | 2.8 | |
Ağustos 2018 | - | - | |
Temmuz 2018 | 255 | 3.25 | |
Haziran 2018 | 235 | 3.05 | |
Mayıs 2018 | 215 | 2.75 | |
Nisan 2018 | 230 | 3.1 | |
Mart 2018 | 250 | 3.2 | |
Şubat 2018 | 270 | 3.4 | |
Ocak 2018 | 270 | 3.4 | |
Aralık 2017 | 240 | 2.9 | |
Kasım 2017 | 260 | 3.2 | |
Ekim 2017 | 300 | 3.65 | |
Eylül 2017 | 250 | 3.01 | |
Ağustos 2017 | 280 | 3.28 | |
Temmuz 2017 | 240 | 2.89 | |
Haziran 2017 | 260 | 3.16 | |
Mayıs 2017 | 250 | 2.96 | |
Nisan 2017 | 250 | 2.94 | |
Mart 2017 | 250 | 3.07 | |
Şubat 2017 | 250 | 3.08 | |
Ocak 2017 | 250 | 3.14 | |
Aralık 2016 | - | 2.85 | |
Ekim 2016 | - | 3.25 | |
Eylül 2016 | - | 1.72 | |
Ağustos 2016 | - | 1.61 | |
Temmuz 2016 | - | 1.73 | |
Haziran 2016 | - | 1.23 | |
Mayıs 2016 | - | 1.46 | |
Nisan 2016 | - | 1.33 | |
Şubat 2016 | - | 1.73 | |
Kasım 2015 | 151 | 1.82 | |
Eylül 2015 | 106 | 1.32 | |
Ağustos 2015 | 149 | 1.84 | |
Temmuz 2015 | 145 | 1.81 | |
Haziran 2015 | 131 | 1.67 | |
Mayıs 2015 | 159 | 2.05 | |
Nisan 2015 | 168 | 2.11 | |
Mart 2015 | 124 | 1.64 | |
Şubat 2015 | 145 | 1.9 | |
Ocak 2015 | 139 | 1.82 | |
Aralık 2014 | 160 | 2.08 | |
Kasım 2014 | 135 | 1,95 | |
Ekim 2014 | 254 | 3.7 | |
Eylül 2014 | 220 | 2.8 | |
Ağustos 2014 | 200 | 2.8 | |
Temmuz 2014 | 266 | 3.6 | |
Nisan 2014 | 183 | 2.6 | |
Mart 2014 | 223 | 2.8 | İlk Nutch taraması |
Ocak 2014 | 148 | 2.3 | Aylık gerçekleştirilen taramalar |
Kasım 2013 | 102 | 2 | Warc dosya formatındaki veriler |
Temmuz 2012 | - | - | Arc dosya formatındaki veriler |
Ocak 2012 | - | - | Amazon Web Hizmetlerinin Genel Veri Kümesi |
Kasım 2011 | 40 | 5 | Amazon'da ilk kullanılabilirlik |
Norvig Web Veri Bilimi Ödülü
İle teyit bilgisi olarak SURFsara , Ortak Tarama Norvig Web Veri Bilim Ödülü, öğrenci ve araştırmacılara açık bir yarışma sponsor Benelux . Ödülün adı, aynı zamanda ödül için değerlendirme komitesine de başkanlık eden Peter Norvig'den geliyor .
Referanslar
Dış bağlantılar
- Kaliforniya, Amerika Birleşik Devletleri'nde Ortak Tarama
- Tarayıcı, kitaplıklar ve örnek kod ile Ortak Tarama GitHub Deposu
- Ortak Tarama Tartışma Grubu
- Ortak Tarama Blogu