Evil Ultimate Parser .NET
Программа для проверки и фильтрации баз. Возможен фильтр по следующим признакам.
- фильтр по наличию/отсутствию тегов, позволяет указать требующиеся теги для запоста(text, textarea, submit), либо отсечь ненужные(hidden запоминающий ip и т.д.);
- фильтр по урлу, выбирает урлы содержащие заданную последовательность символов;
- фильтр по названиям полей, отбирает адреса, в формах которых были найдены поля с заданными именами;
- стоп-фильтр, отсекает адреса с указанными полями(можно использовать стоп-слова для отсекания предположительно капч: "captcha","antispam" и т.д.);
[NEW!]
- фильтр по тексту в документе, отбирает адреса, на странице которых был найден заданный текст;
- фильтр по количеству ссылок на странице, отбирает адреса, на странице которых число исходящих ссылок не выше заданного значения;
- фильтр по PR, отбирает адреса, PageRank которых находится в заданном диапазоне.
С помощью этих фильтров можно довольно гибко фильтровать свежие базы и не нагружать лишний раз $памелку для проверки ресурсов на возможность поста.
Прочие "фичи":
- 8-1024 потока;
- фильтр по rel=nofollow;
- фильтр по размеру страницы (в KB);
- задаваемый time-out для потоков;
- опция "парсить соседние линки в поисках страницы с сабмитом";
- сортировка и сохранение всех напарсеных (имен)полей в файл;
- опция для "$pam it B шников" - горячее редактирование файла настроек APContexts.csv (так же готовится экспорт для пользователей Хрумера);
- список ~150 стоп-слов, имен полей, которые предполагают наличие капчи на странице;
- сохранение/загрузка всех настроек;
- автосохранение+автозапуск (в доработке).
Стоимость $65. Контакт #2-6-4-5-8-4.
Всем пользователям настоятельно рекомендуется обновиться до последней версии!
-== полезные ссылки \ useful links =--
- демо (текущая версия 0.89)
- мануалы
- скрин работы парсера
- установка парсера
- information for english-language users
- дистрибутив .NET для работы парсера
- стартовые фильтры + словарь стоп-слов
- f.a.q.
EvilParser - отфильтруй базу, и выжми из неё максимум :)