Материалът е на известния специалист по мрежови технологии от Сингапур Christopher Forno.

Докато търсих свободни имена в .com зоната, бях твърде неприятно изненадан от броя заети, но неизползвани домейни. По всичко личи, че вече са регистрирани всички произносими комбинации от букви на всички основни езици от целия свят. И дори непроизносимите комбинации. Дали пазарът на домейни е толкова голям или аз някак все не се сещам как да не избирам вече регистрирани имена на домейни? Да погледнем голата статистика…

Към днешен ден са регистрирани 137 милиона домейнни имена от типа .com. Според данните на Verisign, в активната зона към 27.01.2019 година са налични 137 756 106 .com домейна. Преди да направя своята проверка, проверих коректността на това число с файла от DNS зоната.

Една трета от тези имена на домейни се използват за различните предприятия, за лични уеб сайтове, електронна поща и т.н. Другата една трета от всичките тези имена на домейни очевидно не се употребява, а последната една трета част се използва за най-различни спекулативни цели.

Ето как се използват домейните:

Как получих тези числа

Започнах да обхождам по случаен начин домейните от първо ниво, които бяха в DNS файла, който изтеглих на 21.01.2019 година. Обхождането продължи до 23.01.2019, когато достигнах 100 000 валидни имена на домейни. Не всички записи бяха валидни – някои от тях са примамки за лов на хора, които нелегално разпространяват файловете от домейната зона, а около 1% от тях са сървъри за имена. След като ги махнах, останаха 98 854 валидни домейни.

За всеки един домейн събрах следните данни:

  • WHOIS записа
  • Всички DNS записи за домейните от първо ниво и www поддомейните
  • HTTP и HTTPS отговорите
  • Скрийншотите на главните страници, които направих в Mozilla Firefox 64.0 под Linux

Сканирането отне малко повече от 48 часа с помощта на един сървър в сингапурския дата център. След това стартирах втория етап на обхождането, но този път за всички домейни, които не можаха да се включат чрез HTTP и HTTPS, и дадоха грешка. И накрая, ръчно проверих 2188 домейна, за които излязоха грешки за таймаут или DOM събитията бяха блокирани с JavaScript код.

След това написах допълнителен скрипт за ускоряване ръчната класификация на сайтовете на базата на техните скрийншоти и съдържанието.

С помощта на този скрипт категоризацията на сайтовете отне 2 дни. Не всички сайтове трябваше да се класифицират ръчно: в редица случаи категорията бе очевидна по полето , така че можеха да се използват регулярни изрази. В други случаи скрийншотът не бе достатъчен и се налагаше ръчното отваряне на домейна в браузъра за проверка.

Обобщена статистика и изводи

Топ-10 на .com регистраторите

GoDaddy е регистрирал една трета от всичките получени от мен имена на домейни. Това са приблизително 45 милиона домейна. Една трета от тях са паркирани домейни. Или с други думи, над 10% от всички .com домейни в интернет разпространяват рекламите и съобщенията на GoDaddy

Въпреки, че в изследваните от мен домейни се виждат 1851 регистратора, те се управляват от малък брой оператори. Така например, само DropCatch.com контролира над хиляда регистратора: DropCatch.com 1000 LLC, DropCatch.com 1001 LLC, DropCatch.com 1002 и т.н. Аналогични схеми с подобно номериране използват и другите. Много рядко се срещат сложни и неочевидни схеми.

През изтеклата една година са регистрирани още 25% домейни

Възраст на домейните в години

Категории на домейните

Съдържание: 31% или около 43 милиона

Съдържанието е домейн с всякаква уникална информация. Това е категорията, в която поставях и всички уеб сайтове, за които имах някакви съмнения.

Реклама: 23% или приблизително 31 милиона домейна

Обърнете внимание, че половината домейни от тази категория са паркирани домейни на GoDaddy, на които GoDaddy поставя рекламите на Google въз основа на ключовите думи, свързани с домейна.

Без уеб сървър: 11% или около 16 милиона

Ако не можех на осъществя връзка или да получа отговор по портовете 80 или 443 за домейна от първо ниво или за www субдомейна, при условие, че няма MX записи, поставях домейна в тази категория. Навярно някои от тези домейни така или иначе се използват – например като FTP или гейм сървър, но ми се струва, че това се прави рядко. И още, тук поставих всички сайтове с IPv6 протокола, понеже сървърът, който използвах за обхождането бе настроен само за IP4.

Нищо – 9,2% или приблизително 13 милиона

Празният домейн е този, за който уеб сървърът отговаря на запитванията, но връща празни страници, грешка 404 или незапълнени шаблони (възможно е това да е инсталиран WordPress с настройките по подразбиране).

Разликата между паркирания и празния домейн е, че за празния домейн се предполага, че е настроен от потребителя, но още не е добавено съдържание.

За продан: 7,1% или около 9,8 милиона

Много домейни се продават чрез различни брокери и търговски площадки. Почти половината от тях се продават от HugeDomains, въпреки че в техния сайт можем да видим надписа за над 200 000 достъпни домейна.

Грешка: 5,7% или ~7,9 милиона

Ако домейнът връща грешка от какъвто и да било тип – HTTP или има грешка в страницата, то той бе класифициран тук.

Паркирани: 4,8% или ~6,5 милиона

Паркираните домейни показват страницата на регистратора или съобщават, че домейнът още не е настроен. За да попадне в тази категория, домейнът трябва да показва страница без външна реклама. Той може да рекламира собствените си услуги, но не може да помества обяви от рекламните мрежи.

Хазартни игри: 3,0% или ~4 милиона

Почти всички сайтове от тази категория са на китайски език и често работят под псевдоними. Най-често това са кратки редове от цифри и съгласни (например 17770012 или tdwhtr). Те много си приличат и използват един и същи шаблон. Изображенията им също са подобни и имат автоматично генерирани логотипи. Явно по този начин привличат хората.

Поща: 2.6% или ~3,5 милиона

Ако домейнът не е подходящ за никоя категория, но има MX запис в DNS за email, то го слагах в тази категория. Не съм проверявал дали работи пощенският сървър и доставката. Възможно е някои от тези домейни да не се използват за електронна поща.

Пренасочващи 1,1% или ~1,6

Това са „домейните на тщеславието“, които препращат към страници на Facebook, към алтернативни страници на компаниите и т.н.

Частни 0,64% или ~0,9 милиона

Това са сайтове, страниците в които са недостъпни без правилните потребителско име и парола, а в някои случаи искат и регистрация.

Порно 0,59% или ~0,8 милиона

Подобно на хазартните сайтове, много порносайтове използват псевдоними. И тук повечето сайтове са на китайски език, а домейните следват едни и същи шаблони за имената. Тъй като почти всички сайтове от този тип показват порнографски материали без предупреждение, реших да не правя скрийншоти.