Парсер контента – Content Downloader


Каждый человек, активно занимающийся сателлито-строением задается вопросом «где взять контент?». В предыдущем посте об уникализации контента, я упоминал о синонимайзере, но вопрос об источниках так и остался.
Для себя я принял решение, что лучший способ найти уникальный контент – это перевод зарубежных ресурсов. Единственная проблема, с которой мне пришлось столкнуться это с удобным сбором исходного содержимого. Тут мне и пришел на помощь ContentDownloader.

Ключевая функция программы – парсинг контента. Осуществляется это достаточно простым способом:

Задаем шаблон ссылок на страницы. Как правило они имеют вид «/page1.php, /page2.php», т. е. меняется номер страницы. В данном примере наш шаблон будет иметь вид «/page{num}.php», где {num} – это переменная, значение которой будет меняться в зависимости от указанного диапозона страниц (к примеру от 1 до 7) Затем, нам нужно собрать все ссылки с этих страниц, которые смотрят на нужные нас статьи. Также задаем шаблон для ссылки. К примеру ссылка на статьи http://наш_сайт. ру/stat1.html. В нашем примере шаблон имеет вид «http://наш_сайт. ру/stat», также в дополнительных опциях можно ограничить уровень вложенности страницы и еще нескоторые расширенные опции для фильтра не желательных ссылок. Проделав эти две не сложные операции, мы начинаем сбор всех ссылок на статьи с определенного источника.
После того как все ссылки собраны, мы переходим к созданию правила для парсинга определенной области страницы, а именно той облоасти, где располагается нужная нам информация. Делается это достаточно просто:
Кликом правой клавишей мышки по одной из ссылок, мы выбираем пункт «задать область парсинга», после чего попадаем в окно где мы видим html код страницы. Устанавливаем параметры для области. Как правило контент распалагается в определенных тегах с присущими им классами, к примеру:
Наша статья создать правило для такого форматирования достаточно просто, указав первый тег откуда начинать парсить () и последний тег () – указывающий о конце статьи. Укажем откуда брать заголовки. Делается таким же образом, как и пункт 2
Вот и все. Ваш парсер готов к сбору информации для дальнейшей обработки, будь то контент для первода или синонимайза.
К слову, существует две версии паресера: Standart и PRO. Проффисиональную версию отличаетприсутствие встроенного синонимайзера. Таким образом, если вы решили собранный контент синонимировать – вы можете просто перед началом сбора контента включить опцию «синонимировать» и на выходе получите уже обработанный контент, что существенно экономит время. Данная статья похожа больше на инструкцию к программе, но что можно сказать об узконаправленном софт?..

Программа способна собирать картинки с сайтов, гибкая настройка для задания шаблона парсинга. На мой взгляд, это лучшее решение среди программ своего класса.
Вот один из официальных дилеров Content Downloader, продает в разы дешевле других.
Адрес программы: smartbyte. org

RSS Feed for This PostПрокомментировать

Spam Protection by WP-SpamFree

  • Навигация

  • Яндекс блог

    Уважаемые посетители, теперь Вы можете читать и комментировать мои записи и на Я.ру!

  • Наши статьи


    Заработок на онлайн играх


    Сегодня хочу отвлечься от своей обычной темы цифровых устройств и рассказать вам о такой теме, как реальный заработок в интернет на играх. Сегодня большую популярность набирают браузерные онлайн игры. Они встречаются, почти, во всех социальных сетях, форумах, для них создают отдельные веб ресурсы. И как полагается, при таком обилии онлайн игр растет конкуренция, среди их создателей, которые, в свою очередь, готовы финансировать раскрутку своего «творения». Ниже я расскажу о том как можно сделать свой реальный заработок на online играх.