Методология создания правильных сплогов

В прошлом посте я обещал рассказать о методологии создания правильных сплогов. Сначала объясню к чему это всё. В одном из опусов яндекса я прочитал, как яндекс описывал методику определения тематики сайта. Вывод один - с тематикой в инете беда. Даже те сайты, которым яндекс присваивает тематику имеет меньше половины страниц соответствующих тематике сайта. Вывод один - тематика сайта у яндекса в почете и как предположение - более лояльное отношение со стороны банов, фильтров, АГС-ов и т.п. Поэтому наша цель - делаем 100%-ые тематичные сайты. Еще раз повторю, что это только предположение, но очень похожее на правду! Контент - копипаст с помощью парсинга. Тематичные ключи составляем с помощью яндекс-каталога или с помощью логики, например, список марок автомобилей. Сайт о мерседесе будет максимально тематичным.Теперь собираем статьи. То что мы их будем парсить - это мы уже определили. Желательно, чтобы список статей был как можно с больших сайтов. Тем самым мы повысим уникальность сайта.

Парсить будем несколько сайтов, много сайтов, посвященных мерседесу. Я буду парсить на свой комп. Получим кучу статей, посвященных мерседесу. Мы делаем автоматическую систему, поэтому должны на автомате собрать нужные статьи. Чем выше тошнота страницы со слово мереседес, тем она тематичнее. И это понятно. С одним словом мы получим кучу статей, например, как парочка добиралась в ресторан и доехала до ресторана на мерседесе, а потом всю ночь развлекались в ночном клубе. Слово мерседес есть, но статья совсем не о мерседесе. Соответственно нам нужно установить порог количества слов мерседес, чтобы принимать решение брать статью или нет. Например 5 повторов слов мерседес в статье соответствует нашему критерию.

Но тут возникает проблема. Мерседес, Мерседесу, Мерседесе и т.п. - это суть одно и тоже, но при простом сравнении это разные слова. Значит нам нужно все слова в тексте привести к одной форме, например, именительный падеж - Мерседес, тогда мы получим точное количество вхождений. Осталось понять, как это сделать. Есть бесплатное решение. http://phpmorphy.sourceforge.net - здесь вы получите базу с падежами, склонениями и т.п. и программное обеспечение и инструкции, как с базой работать. Я уже опробовал, всё работает.

Теперь нам нужно позаботиться о картинках. Желательно не из спарсенных текстов, но и они сойдут, если переименовать, изменить размер и обрезать. Яндекс понимает, что это одна картинка, но доля уникальности в модифицированных картинках всё равно есть. Естественно картинки меняем с помощью скрипта.

Частично из того, что я написал, мной уже сделано и работает. Но с парсинг сделан не до конца. По моим планам сделаю в мае. А пока работаю в щадящем режиме.

Итак, мы получаем тематичный сплог, который должен жить долго, если не всегда )

Как и обещал, выкладываю очередную порцию жирных доноров для ваших ссылок ...

quote.rbc.ru      pr 6    тИЦ 3600
warheroes.ru     pr 3    тИЦ 2400
media-atlas.ru   pr 5    тИЦ 2000
sportsdaily.ru    pr 4    тИЦ 1800
forum.ixbt.com  pr 5   тИЦ 1600






Если вы хотите разместить свою статью или новость - присылайте ее по адресу .