About Me

header ads

Опис пошукового спаму

 Пошукові системи є точкою входу в Інтернет для більшості користувачів мережі. З допомогою пошукових систем люди шукають як інформацію загального плану, а й використовують у комерційних цілях. Відповідно, ця платформа становить інтерес для багатьох комерційних структур. Одні намагаються грати за правилами і досягають хороших результатів не відразу, але мають довгострокові перспективи. Інші ж компанії шукають різноманітні методи, щоб досягти результатів (доброго становища в ТОПі) якнайшвидше. На цьому ґрунті з'явився так званий пошуковий спам.


У Google цей вид спаму називають "вебспам". Причому пошукові системи не описують вебспам як сторінки низької якості (хоча це мається на увазі також). Пошуковий спам відноситься швидше до мети існування самої сторінки, а також до цілей (відповідно і методів) її просування.


У ліцензії ПС пошуковому спаму дається таке визначення:


"Пошуковий спам" - це спроби обману пошукової системи Сервісу та маніпулювання її результатами з метою зміни позиції того чи іншого веб-сайту в результатах пошуку.


Зауважте, тут не йдеться про якість сайту чи документа, а лише про маніпулювання видачею. Іншими словами, який би хороший сайт у вас не був, якщо ви намагаєтеся прорекламувати свою сторінку в ТОПі за допомогою збільшення її рейтингу, швидше за все, її помітять як вебспам.


Google не дає чіткого визначення вебспаму, а обмежується лише рекомендаціями щодо забезпечення якості сайту у своєму посібнику для вебмайстрів.


Вебспам це сміття у пошуковій видачі, коли сайти намагаються обманом вийти на топові позиції чи порушують вимоги до забезпечення якості.


Таким чином, причину спаму необхідно шукати і в контенті, і в посиланнях.


Як пошуковий спам враховується під час пошуку


При ранжируванні сайтів пошуковими системами у формулі враховується не тільки релевантність сайту, його авторитетність та решта показників якості, але також і коефіцієнт спамності. Причому цей коефіцієнт не бінарний (спам або не спам), а безперервний, як багато інших ранок.


Для роботи з пошуком у Google навіть існує різні відділи, один присвячений якості пошуку (Search Quality Team) і його завдання забезпечувати якість видачі (працюють з формулою ранжирування). Глава цього відділу Аміт Сінгал (Amit Singhal). Інший відділ (Webspam Team) бореться з пошуковим спамом на чолі з Меттом Каттсом (Matt Catts). Відповідно, алгоритм “Панда” (2011 р.) це розробка відділу якості, тоді як алгоритм “Пінгвін” (2012-го) це породження відділу боротьби з вебспамом.


В одному з патентів компанія Microsoft наводить схему, як формується пошукова видача з урахуванням модуля класифікатора вебспаму.


Варто зазначити, що для визначення спамності документа використовуються не тільки автоматичні методи, але й ручні (в поодиноких випадках), а також "стукіт" від вебмайстрів через спеціальну форму.


Невеликий опис проблеми пошукового спаму


Для опису проблеми визначення пошукового спаму нижче наведено невелику витримку з документа Spam: It's Not for Inboxes Anymore (наукова праця хлопців зі стенфордського університету з класифікації веб-спаму, на який згодом посилалися автори інших праць).


“Нерідко вебспам очевидний. Наприклад, при публікації цієї статті, топовим результатом пошуку Google на запит "Kaiser pharmacy online" була сторінка, зовні аналогічна видачі Google, за винятком заголовка Gogle, і всі посилання вели на ряд сайтів, що продають дешеві ліки, що відпускаються за рецептом. Природно, ці грубі результати навмисно підривають репутацію Google і, безперечно, мають бути позначені як спам.

Однак розглянемо інший випадок. Сайт “World News Network” ранжується третім у Google за запитами “world news” та “news network”, поряд із такими компаніями, як CNN, BBC та FOX. Користувачеві очевидно, що WNN не є джерелом новин; це компанія, що володіє тисячами сайтів, кожен з яких окремо є онлайн - газетою певної тематики у певному географічному регіоні (наприклад, Бізнес у Каїрі чи Азіатському узбережжі). Подальший перегляд сайтів покаже, що багато статей нетематичні. Наприклад, певні статті, що належать розділу “Бізнес у Каїрі”, мало ставляться до бізнесу у Каїрі, і більше розкривають основні події. Ці WNN-ресурси щільно посилаються один на одного, при цьому немає інших неафілійованих сайтів, що посилаються на них. Незважаючи на те, що статті беруться із гідних джерел, на кшталт Associated Press, CNN та New York Times, посилання на дійсне джерело ставляться рідко. Таким чином, тут є сіра область. Агрегація новин може бути корисною, але чи дає WNN щось справді цінне чи існує лише для отримання прибутку з реклами на його сторінках?


Розмитість картини також залежить від суб'єктивного погляду користувача. При пошуку “miserable failure” у Google та Yahoo першим результатом була офіційна біографія президента Джорджа Буша (Мішель Мур та Хілларі Клінтон також були в десятці). Спамні техніки, звичайно ж, впливали на рейтинг, але в даному випадку вебспам неочевидний, тому що ви схвалюєте результат чи ні, залежить від особистих переваг. Таким чином, навіть якщо цінність полягає в досить дивному результаті, вона все ж таки є.


Таким чином, визначення вебспаму не так просто, як може здатися. З одного боку, вебспам – це явний вплив на очікування людей. З іншого боку це серйозна проблема. Щодня робиться безліч спроб вплинути на людей – рекомендації, телебачення та газети, політична пропаганда, євангелізм. Одному користувачеві щось може здаватися некоректним, оманливим, непереконливим, дратівливим, інші можуть знаходити відповідність своїм поглядам. Сміття, що автоматично генерується, нікому не несе цінності, легко класифікувати як спам. Однак, що з великої сірої області, де контент несе для когось хоча б невелику цінність? І кому вирішувати, де закінчується сіра область і починається суцільний безкорисник?”


Класифікація


Автори наведеної вище праці класифікували пошуковий спам та опублікували однойменний документ.


Судячи з описаної класифікації вебспам буває текстовий і посилальний. Опишемо коротко кожен із них.


Текстовий спам це, перш за все, повторення ключового слова (переоптимізація) у різних інформаційних складових сайту (тілі документа, заголовку, мета-тегах, посиланнях та ЧПУ). Але також сюди відносяться:


- Звалище. Коли сторінку завалено безліччю різних ключових слів, щоб підвищити ймовірність заходу на неї хоча б за низкою низькочастотними запитами.


- Вплетення. Коли беруться цитати з інших джерел (наприклад, новин) і в них вплітається потрібна ключова фраза (або кілька).


- Змішування. Коли контент агрегується з різних джерел, сподіваючись синтезувати щось унікальне.


Серед пошукового спаму посилань також є велика різноманітність:


- Лінк-ферми. Спеціально створені сайти для розміщення посилань на них. Часто це мережа сателітів, сплогів або спеціальні системи посилань.


- Приховані посилання. Посилання на сайті-донорі або приховані в коді, або мають колір фону, щоб їх не бачили відвідувачі (або сам власник сайту, якщо ресурс був зламаний).


- Обмін посиланнями. Участь у системах обміну посиланнями. Також сюди відноситься обмін зі своїми ресурсами (сателітами).


- Посилання з коментарів. Вже 2005 року розуміли малозначущість посилань із коментарів. Особливо якщо вони мали такий вигляд: “У вас хороший сайт. Загляньте також на мій про <a>казино</a>”.


— Посилання з/на домени, що звільняються. Найчастіше звільняються домени з наявною масою посилань купують саме з метою маніпулювання видачею.


- Немодеровані посилання. Усі типи посилань, які проходять модерацію. Сюди належать і гостьові книги, дошки оголошень, а також низка інших сайтів (каталогів).


Крім посилального та текстового спаму у класифікації виділені інші загальновідомі типи, такі як клоакінг, редирект (дорвеї) та прихований контент.

Методи виявлення


На основі наведеної вище класифікації пошукового спаму було розроблено безліч методів його визначення, розроблено різні SpamRank, Anti-Trust Rank та інші Spam-ранки.


Антиспам контенту


Один із методів визначення контентного пошукового спаму це статистичний аналіз різних його інформаційних складових. В одному з документів фахівці з Microsoft показують явні залежності спамності контенту від кількості слів, середньої їх довжини, стисливості тексту, використовуваних водянистих слів та інших параметрів.


Заголовки довші 10-15 слів зустрічаються в мережі досить рідко і чим довше заголовок, тим більша ймовірність попадання документа в спам-зону.


Посилання антиспам


Через велику різноманітність посилального пошукового спаму також існує велика різноманітність методів його ідентифікації. Наприклад, Anti-Trust Rank (за аналогією з TrustRank) за початковою вибіркою свідомо спамних сайтів знаходить аналогічні ресурси. SpamRank вимірює кількість незаслуженого PageRank за допомогою аналізу зворотних посилань. Інші алгоритми дозволяють визначати лінк-фарми, сітки сайтів, що обмінюються посиланнями та інші спам-техніки. 

Нижче наведено деякі з корисних для прочитання документів на цю тему.


Аналіз якості контенту та посилань для антиспаму (148 Кб)


(Університет у Пекіні, Китай).


Пошук шаблонів посилань для боротьби з вебспамом (237 Кб)


(Угорська Академія Наук).


Рейтинг Діріхле (238 Кб)


(Університет Іллінойс в Урбана-Шампейні).


Посилальні альянси (485 Кб)


(Стенфордський університет).


R-SpamRank: Визначення спаму за допомогою аналізу посилань (97 Кб)


(Університет Цінхуа, Китай).


Виняток впливу посилального плагіату при ранжируванні (104 Кб)


(Університет Лехай, США).


Використання латентних графів з позитивними та негативними посиланнями для усунення спаму в інформаційному пошуку (211 Кб)


(Каліфорнійський технологічний інститут).


Висновок


Як пишуть самі представники пошукових систем, для визначення спаму йде спроба ідентифікувати як використовувані техніки, а й мотиви. Наприклад, приховування контенту не говорить нічого саме собою, оскільки контент може ховатися з метою поліпшення юзабіліті сайту і цей метод використовується не для маніпулювання видачею, а для зручності користувача.


Незважаючи на всю складність визначення пошукового спаму, на даний момент існує достатньо методів і великі навчальні вибірки. Але тут постає питання: чи не розширилася класифікація пошукового спаму, чи відноситься покупка посилань до спамних технік?


Швидше за все, з 2005 року класифікація розширилася і до текстового пошукового спаму може належати також кількість сторінок у додатковому індексі (наявність великої кількості дублів та шаблонних сторінок на сайті), що спостерігається однією з причин потрапляння сайтів під антиспам-фільтр “Пінгвін” у Google.

Також, покупка посилань є спамною технікою, але не сам факт покупки, а наявність у цих посиланнях ключових фраз, що просуваються.


Якщо кілька років тому пошукові системи не могли відключити вплив всіх продажних посилань через малу кількість гравців у певних тематиках, то до цього часу комерційних сайтів з'явилося досить багато і є з кого вибрати ТОП, тому посилання почали відігравати меншу роль, і більше приділяється увага цінності ресурсу та його юзабіліті.


Метою цієї статті не було знайти сучасні способи просування сайтів, а лише описати пошуковий спам, показати серйозність проблеми для пошукових систем і які вони використовують підходи для її вирішення. На основі цих даних, сподіваюся, читач побачить тенденції та докладатиме подальших зусиль щодо просування сайту в перспективне русло!

Опис пошукового спаму


Дописати коментар

0 Коментарі