Описание настроек Evil Ultimate Parser.
1) Закладка Parser
2) Закладка Settings
3) Закладка URL/Page Filter
4) Закладка Field Filter settings
5) Закладка Form Fields
6) Закладка About
1) Закладка Parser

- Кнопки
- Load URLs - загрузить список урлов.
- Run Parser - запустить парсер.
- Pause - приостановить парсер, при этом "Pause" превращается в "Resume".
- Stop - приостановить парсер.
- Save valid URLs - сохранить в файл список валидных урлов, прошедших проверку.
- Stats показатели
- Overall progress - общий показатель процесса, обработано/всего (процентное соотношение).
- Valid URLs - найдено валидных урлов, соответствующих заданным требованиям.
- Found Forms - найдено всего форм.
- ETA - общее прогнозируемое время работы(Estimated Time of Arrival).
- Total Time - текущее время.
Ниже поле лога, где можно видеть процесс работы парсера. Лог обновляется каждые 1000 записей.
2) Закладка Settings

Threads - количество потоков[8-1024]. В среднем рекомендуется 16-128 потоков, в зависимости от мощности компьютера и толщины канала.
- Parse Settings
- Timeout, s - максимальное время работы потока, задается в секундах.
- Page size limit, KB - ограничение на размер загружаемой страницы.
- Check Google PR between .. and .. - пропускать только страницы с google PR между .. и.. .
- Fetch Links
- Parse links - активизирует опцию, позволяющую парсить дополнительно линки, в поисках форм на соседних страницах; позволяет парсить линки, содержащие заданные ключевые слова, либо же вообще все линки на странице, в пределах текущего домена.
- Max level from start page - шаг, на который сканер отходит от сканируемой страницы, в поисках формы; обычно требуется "1 шаг в сторону"; защищает от бесконечного цикла сканирования.
- Parse links containing - парсить линки на странице, содержащие в теге А ключевые слова, <a href="ИЩЕТ_ЗДЕСЬ">И_ЗДЕСЬ</a> (поле для ввода кеев ниже).
- Don't parse 'rel=nofollow' pages - не парсить страницы, содержащие атрибут nofollow в ссылках.
- Parse all links - парсить ВСЕ линки на странице в пределах текущего домена, и переходить по ним в поисках формы; осторожно! при неправильном использовании можете запарсить весь инет.
- Skip page if there are more than outer links - пропускать страницы, если на них более чем .. исходящих ссылок (не включая ссылки со своего домена). Используется для определения заспамленности ресурсов.
3) Закладка URL/Page Filter

- URL Filter - отбирает урлы, содержащие заданную последовательность символов.
- Required Field Names - отбирает адреса, в формах которых были найдены поля с заданными именами; возможно использование символов подстановки(*user*).
- HTML Page Filter - пропускает адреса, на странице которых был найден заданный текст.
4) Закладка Field Filter settings

- Save\Load MIN\MAX Filter - Сохранить\Загрузить МИНимальный\МАКСимальный фильтр.
- Apply Filter - применить значения фильтра.
Принцип работы прост - в столбик напротив нужного тега пишем нужное количество оных. Строки соединяются по логическому "ИЛИ", столбцы - по логическому "И".
2 сетки тегов - верхняя(для минимальных значений) и нижняя(для максимальных). Если, к примеру, заполнить только минимальные требования, то максимальных не будет вовсе.
Все заданные теги должны находиться в пределах одной формы (<FORM></FORM>).
Пример на скрине выше: искать формы как минимум с одним тегом SUBMIT И двумя тегами TEXT(первая строка), либо - как минимум с одним тегом SUBMIT И одним тегом TEXTAREA(вторая строка). Максимальные требования - 999 - подразумевают поиск до "бесконечности".
В архиве с программой прилагаются фильтры позволяющие найти страницы с простейшими формами(настройки фильтров в формате *.xml).
Если же этот фильтр не трогать и оставить default, то будут проходить ресурсы с любыми, хоть какими-то формами, т.е. те, где встречается хотя бы 1 input.
5) Закладка Form Fields

- Load from *.csv - загрузить поля из файла APContexts.csv для предопределения "свеже-вспарсенных" полей значениями из APContexts.csv (для пользователей $pamIt B).
- Save to *.csv - сохранить отредактированные "свеже-вспарсенные" поля, определенные значениями из APContexts.csv в новый .csv-файл. (для пользователей $pamIt B).
- Save fields - просто сохранить напарсенные поля в текстовый файл.
- Show only(..теги..) - при парсинге страниц, учитывать и выводить в таблицу только отмеченные теги(пример на скрине - hidden, text, textarea).
- Show source URLs - выводит урлы страниц на которых были обнаружены отмеченные в таблице теги.
- Save source URLs - сохраняет список урлов, показанный в предыдущем пункте.
- Add item - Добавить новое название поля для файла APContexts.csv (для пользователей $pamIt B).
6) Закладка About

Регистрационный код демо-версии. Руководство по активации здесь.