Чей алгоритм проверки уникальности ближе к алгоритмам поисковиков yandex.ru и google.com
Короткий ответ:
Ни один из сервисов (ни Text.ru, ни Content-Watch) не “ближе” к алгоритмам Google/Yandex — потому что поисковики вообще не считают “уникальность в %” так, как антиплагиаты.
Теперь по сути, без мифологии.
1) Как реально работают поисковики
У Google и Яндекс нет метрики «уникальность 92%».
Они используют:
- семантические модели (BERT-подобные, embeddings)
- кластеризацию документов
- определение первоисточника (canonical / first indexed)
- оценку ценности (E-E-A-T, поведенка, ссылочный профиль)
То есть:
поисковик может считать текст “уникальным”, даже если он на 70% совпадает формально, но несёт новую ценность.
И наоборот:
текст с 100% “уникальностью” по сервису может быть SEO-мусором и не ранжироваться.
2) Text.ru vs Content-Watch — техническая разница
Text.ru
Что делает:
- классический + доработанный шингловый анализ
- проверка перестановок слов, склонений, рерайта
- ориентирован на копирайтинг (рерайт/переводы)
Поведение:
- “средняя строгость”
- часто завышает уникальность на сложном рерайте
- хорошо ловит тупой копипаст
👉 Вывод:
инструмент для бирж, а не для SEO-реальности.
Content-Watch
Что делает:
- больше упор на семантический/эвристический анализ, а не только шинглы
- умеет проверять сайты целиком и мониторить копирование
- быстрее и стабильнее на потоках
Поведение:
- чаще занижает уникальность
- лучше ловит перефразирование (глубже, чем Text.ru)
👉 Вывод:
чуть ближе к реальности за счёт семантики, но всё ещё сильно упрощён.
3) Кто “точнее”
Если ставить вопрос как SEO-шник, а не копирайтер:
- Text.ru → мягкий фильтр
(показывает, что текст “не скопирован в лоб”) - Content-Watch → более строгий фильтр
(лучше выявляет перефразированный дубль)
👉 Поэтому:
Content-Watch технически ближе к логике поисковиков, но не радикально.
4) Главный нюанс, который многие упускают
Оба сервиса:
- не знают, какой текст был опубликован первым
- не учитывают авторитет домена
- не видят интенты пользователя
- не оценивают полноту ответа
А именно это решает ранжирование.
5) Практическая схема (что реально работает)
Если тебе нужен результат в поиске, а не “проход по ТЗ”:
- Проверка на копипаст
→ Text.ru (быстро) - Проверка на рерайт-дубликаты
→ Content-Watch - Главная проверка (самая важная):
- есть ли новая информация?
- закрывает ли текст интент лучше конкурентов?
- есть ли добавленная ценность (данные, структура, экспертиза)
Итог
- Ближе к поисковикам: Content-Watch
- Удобнее для потока: Text.ru
- Реальная SEO-метрика: ни один из них
Если упростить до одной фразы:
Text.ru проверяет “уникальность текста”,
Content-Watch — “похожесть на другие тексты”,
а Google — “зачем этот текст вообще существует”.
Как Google определяет дубликаты (упрощённая модель, но близкая к реальности)
1.1. Не «шинглы», а отпечатки + семантика
Раньше были шинглы (n-граммы). Сейчас — комбинация:
- fingerprinting (SimHash / MinHash)
→ быстрые “отпечатки” текста - embeddings (семантические векторы)
→ смысл текста, а не слова - кластеризация документов
Итог:
Google объединяет страницы в кластеры похожего контента, а не просто ищет совпадения.
1.2. Кластер → выбор “канонического” документа
Внутри кластера Google выбирает один главный документ (canonical).
Учитываются:
- кто проиндексирован раньше
- авторитет домена
- наличие
rel=canonical - структура сайта
- ссылки (внутренние и внешние)
- поведенка
👉 Поэтому:
даже если ты написал “уникальный” текст, но он повторяет уже существующий смысл — ты попадёшь в чужой кластер.
1.3. Частичные дубликаты (это важнее полного копипаста)
Есть три уровня:
- Exact duplicate
(копипаст) - Near duplicate
(рерайт, перестановки) - Semantic duplicate ← ключевой
(другие слова, тот же смысл)
И вот здесь ломается логика антиплагиатов:
сервис видит “уникально”, а Google — “тот же самый документ”.
1.4. Passage-level анализ
Google давно не смотрит только страницу целиком.
Он:
- разбивает текст на блоки (passages)
- сравнивает куски, а не только весь документ
👉 Поэтому:
- половина текста может быть дубликатом
- но один сильный абзац — ранжируется
1.5. Определение первоисточника
Google пытается понять “кто первый” через:
- время индексации (не публикации!)
- ссылки
- распространение контента
- поведенческие сигналы
Это не идеально, но работает достаточно хорошо.
2) Почему 60% “уникальности” может ранжироваться выше 100%
Потому что “уникальность” ≠ “ценность”.
Разберём по факторам.
2.1. Интент (самое важное)
Запрос → ожидание пользователя.
Пример:
“как варить кофе”
- текст 100% уникальный, но вода → плохо
- текст на 60% совпадает с другими, но:
- чёткий рецепт
- граммы
- тайминги
→ он выигрывает
2.2. Полнота ответа (coverage)
Google оценивает:
- закрывает ли страница все подтемы
- есть ли missing pieces (недостающие фрагменты, дополнения)
Рерайт часто:
- меняет слова
- не добавляет информации
👉 поэтому он проигрывает
2.3. Информационная добавка (information gain)
Ключевая концепция.
Если документ не добавляет новой информации к кластеру — он лишний.
Даже если он “уникален” формально.
2.4. Авторитет и доверие
Факторы:
- ссылки
- бренд
- история домена
Поэтому:
- слабый сайт с “уникальным” текстом проигрывает
- сильный сайт с частично совпадающим — выигрывает
2.5. Поведенческий фактор
CTR, dwell time, pogo-sticking.
Если пользователь:
- зашёл
- не вернулся в выдачу
→ страница усиливается
2.6. Структура и формат
Google любит:
- списки
- чёткие ответы
- блоки “как сделать”
А не “SEO-рерайт ради уникальности”.
3) Где ломается мышление копирайтера
Типичная ошибка:
“Нужно довести до 100% уникальности”
На практике:
- меняются слова
- ухудшается читаемость
- теряется точность
И получается:
хуже текст → хуже ранжирование
4) Практический вывод (что делать)
Если цель — SEO, а не сдача ТЗ:
- Не гнаться за 100%
→ 70–90% достаточно - Делать информационное отличие, а не рерайт:
- добавить данные
- добавить шаги
- добавить кейсы
- Проверять не только уникальность, но:
- топ-10 выдачи
- какие блоки есть у конкурентов
- чего у них нет
Итог
Google не ищет “уникальные тексты”.
Он ищет:
лучший ответ внутри кластера одинаковых по смыслу документов
Поэтому:
- 100% уникальность — это косметика
- ценность и покрытие — это ранжирование

