Анотація
Вебспам негативно впливає на якість пошуку та задоволення користувача, а також змушує пошукові системи витрачати ресурси для краулінгу, індексації та ранжирування. Таким чином, пошукові системи змушені вживати заходів для боротьби з веб-спамом. Трафік з пошуку відіграє велику роль в онлайн економіці, це призводить до жорстоких змагань за місце в ТОПі і збільшує мотивацію спамерів розробляти нові спамні техніки.
У той самий час, алгоритми ранжирування ускладнилися, як і методи визначення вебспаму. Вебспам постійно еволюціонує, що в актуальності підтримує завдання його визначення.
Вступ
Оскільки пошукові системи спочатку використовують контент, як головне джерело сигналів для ранжування, текстовий спам став одним із найпоширеніших видів спаму. Спамери намагаються впливати на такі фактори, як TF/IDF або BM25, створюючи тексти (часто безглузді) з оптимальною щільністю ключових слів. Для визначення цього спаму використовуються методи, засновані на мовних моделях.
Як тільки пошукові системи почали використовувати сигнали посилань, типу PageRank, спамери намагалися впливати на них за допомогою лінк-фарм, обміну посиланнями, купівлею посилань та іншими штучними посилальними утвореннями. Більшість методів визначення посилального спаму засновані на різноманітних властивостях графа посилання.
Використання поведінкових характеристик для ранжування спровокувало появу відповідних методів спамних типу клік-фрауда. Існує ряд алгоритмів, що визначають цей тип спаму.
З нашого досвіду кожен фактор, що використовується в ранжируванні, може зловживатися для отримання кращих позицій у результатах пошуку. Спамери сильно мотивовані знайти та використовувати подібні фічі. Таким чином, інженери пошукових систем повинні усвідомлювати ці мотиви при розробці та впровадженні нового інструментарію та алгоритмів. При цьому спамери не зупиняються лише на маніпулюванні пошуком з метою монетизації трафіку. Вони також обманюють користувачів, тому пошукові алгоритми повинні враховувати і це. Соціальна сторона боротьби з вебспамом не менш важлива, ніж технічна.
Пристрій антиспаму
У мережі Інтернет існує безліч сторінок, тому пошукові системи повинні обробляти документи дуже швидко. ПС зберігає понад 20 млрд. документів зі своєї бази та індексує понад 3 млрд. документів щодня.
Для навчання алгоритмів використовуються як дані професійних асессорів, так і зворотний зв'язок, отриманий у технічну підтримку. Це дозволяє постійно знати нові тренди в спамних техніках та інших типах обману.
Форми вебспаму
Головна мета вебспаму – залучити трафік із пошукових систем. Існують різні стратегії збільшення відвідуваності. Спамери враховують різні фактори, такі як популярність запиту, рівень конкуренції, ранжуюча функція для цього типу запитів та інші. Варто зазначити, що веб-спам тісно пов'язаний з оптимізацією для пошукових систем (SEO). При цьому є законні SEO-практики (біле SEO), де сайт аналізується для усунення некоректної індексації або інших технічних проблем. І на жаль, інші SEO-техніки використовуються для агресивного просування сайтів у результатах пошуку за вибраним пулом запитів (сіре або чорне SEO). Існує 4 основних елементів, що використовуються для просування: тексти, домени, посилання та поведінка користувачів. Кожен із цих елементів відповідає групі ранжуючих чинників. Чорне та сіре SEO намагаються отримати оптимальні значення цих сигналів, що призводять до високих позицій.
Тексти
Звичайна "оптимізація" тексту заснована на маніпулюванні TF/IDF і полягає в накрутці ключових фраз, їх частоти та розташування на сторінці методом спроб і помилок. Подібна штучна розстановка ключових фраз часто призводить до погіршення контенту сторінки і істотно псує досвід користувача. Тому агресивна текстова оптимізація повинна контролюватись пошуковою системою і текстові фактори вимагають обережного налаштування.
Доменні імена
Для просування використовується простий трюк із доменом, в імені якого містяться слова із запиту. Якщо вважати, що такі імена з'являються випадково, тоді користувачу складно розрізнити сайти у видачі, коли у пошуку кожен домен містить фразу із запиту.
Посилання
Купівля посилань на біржах є одним із найпопулярніших методів спаму посилань в Україні. На жаль, ця практика поширена через затримку реакції з боку пошукових систем. Відносно великий період часу, коли платні посилання були ефективним способом розкручування сайту, дозволили цій технології поширитися. Це показує велику необхідність пошукових систем реагувати на нові форми спаму дуже швидко. Ми впевнені, що швидка реакція на нові види спаму є найважливішою, ніж алгоритмічна точність.
Поведінка користувачів
З того часу, коли поведінкові характеристики стали хорошим джерелом сигналів, що ранжують, спамери почали вивчати, як ними маніпулювати. Вони не знають, як підраховуються та працюють кліки, але об'єктивно вважають, що клікабельність відіграє важливу роль. Найпоширеніша накрутка це знайти сайт у результатах пошуку та почати на нього кликати. Наступний крок: створити спільноту, використовуючи модель оплати за дію, де робітники за низьку вартість виконають завдання введення запитів та натискаючи на результати відповідно до інструкцій. Ситуація погіршилася, коли спамери почали використовувати автоматизацію за допомогою ботнетів. Накрутка кліків зараз є одним із найгірших методів просування, що призводить до потужного негативного впливу на всю екосистему Інтернету. Тому пошукові системи повинні вирішувати будь-які спроби накрутки кліків якнайшвидше. Щоб зменшити вплив оптимізаторів на якість пошуку, ПС накладає санкції на сайти, які намагаються маніпулювати факторами поведінки, а також обмежує вплив цих факторів на комерційне ранжування.
Як бачимо, існує багато векторів атаки, які мають бути під контролем пошукової системи. Через активну протидію з боку пошукових систем, спамери постійно шукають нові методи обману. Наприклад, чорні оптимізатори почали використовувати зони, які раніше погано аналізувалися пошуковими роботами – спамлюючи динамічний контент. Індексація чистого HTML зазвичай не забезпечує пошукову систему усією інформацією про те, як сторінка виглядає після інтерпретації JS-коду. Це дозволяє розробляти нові методи спаму, які складніше визначити.
Агресивна реклама
Якість пошуку - найбільш важлива характеристика пошукової машини, і воно безпосередньо впливає на її популярність. Існує безліч методів оцінити якість пошукових систем. Методи, що базуються на автоматичному аналізі взаємодії користувача з пошуком, важливі для транзакційних запитів. Ручна оцінка транзакційних запитів більш складна і потребує часу та досвіду.
Один і той самий медіа-контент, файли, софт та ін. можна знайти на різних сайтах. Незважаючи на те, що існує багато релевантних сторінок, це не означає, що вони однакові для користувача. Наприклад, розважальний сайт із цікавим контентом може розміщувати рекламу під час монетизації. Однак жадібність веде до дорогої реклами, яка робить сайт дуже недружнім для користувача або зовсім незручним, коли потрібний контент залишається недоступним.
Вебспам, обманки, фармінг
Сервіси мікро-платежів (смс-платіжі) - головне відкриття тіньової економіки. Наприклад, цільові сторінки з платною мобільною підпискою один із прибуткових способів заробити гроші на чорному SEO. Зловмисники створюють схеми, що збивають з пантелику, коли неясно, хто буде оплачувати рахунок: мобільні оператори мають безліч партнерів (контент і сервіс-провайдерів), ті зі своєю чергою мають своїх партнерів і так далі. У більшості випадків трафік йде на підписні форми з неясною чи нечитаною угодою, спрямованою на те, щоб заплутати користувача. У цьому використовуються різні техніки збільшення коефіцієнта передплат. Недосвідчені користувачі довіряють більше відомим сайтам та брендам, і зловмисники використовують це у своїх інтересах. Наприклад, деякі обманні сайти використовують яваскрипт-код, що відображає фейкові повідомлення, начебто вони прийшли з популярних соціальних мереж, порталів або інших популярних сайтів.
Кліки на фейкові нотифікації ведуть на спеціальні лендинги з підписними формами, часто це відображається як попап-банер і можуть містити інформацію про лоттерей ПС, обіцяючи призи, після чого користувач бачить мобільну підписку на тлі головної сторінки. Трюки фішингу також використовуються. Весь контент завантажується динамічно через яваскрипт, який зазвичай зашифровано. Інші типи лендингів можуть використовувати шкідливий вміст. Один із інших способів обману – мати можливість змінити налаштування користувача, модифікувати файли та ін. Це друга хвиля фармінгу, коли файли на сервері модифікуються для перенаправлення відомих сайтів на інші IP.
Висновок та завдання на майбутнє
Сучасне SEO та техніки вебспаму стали більш витонченими та технологічно просунутими. Це вимагає негайних дій пошукової системи. Системи визначення спаму повинні змінюватися з урахуванням JavaScript, що широко використовується. Потрібні додаткові ресурси для інтерпретації js-коду та пошуку потрібних сигналів. Техніки вебспаму наближаються до обману користувача за допомогою злому сайтів, зараження вірусами, ботнетів, фішингу та фармінгу. Подібні техніки стимулюють пошукові системи приділити увагу освітнім проектам та сервісам.
0 Коментарі