парсер + рассыльщик 10 р.
Основные поля БД:
№ - номер записи
Дата добавления
Дата последнего изменения
Муниципальный округ++++
Сайт муниципального округа ++++
Подразделение (унитарное предприятие, комитет, отдел, управление, департамент и т.д.)++++
Адрес страницы подразделения (откуда взята вся информация) ++++
ФИО Ответственного
e-mail (подразделения) ++++
Телефон
Физический адрес
Специальные поля, если они необходимы,на усмотрение программиста.
Первые три поля к парсеру не имеют ни какого отношения, остальные заполняются за счет парсера. Поля с (++++) для нас ключевые и если с (Муниципальный округ, Сайт муниципального округа и Адрес страницы подразделения) все более менее понятно и просто, то вот остальные поля и являются камнем преткновения.
Что требуется от парсера, поиск этих полей. Список муниципальных сайтов по которым ведется поиск (при этом желательно отдельным файлом и с возможностью редактирования). Список слов исключений, при нахождении такого слова в названии подразделения запись не заносится (например нам не интересны полиция, суды и т.д.) , необходимо что бы список можно было редактировать. Такой же список по ключевым словам (при этом список исключений имеет приоритет).
БД и парсер имеют три уровня доступа. Пользователь (просмотр, выборка и рассылка), Админ(редактирование,
выдача пользователей, запуск парсера, изменения списков слов и сайтов), «Супер админ» (может все, скрытая опция)
Все права выдаются Пользователи Админом а Админские Супер админом.
Существует порядка 250 Администротивных округов у них в подчинении и находятся муниципальные образования их 23001. На каждом сайте администрации есть ссылки на муниципальные образования, которые находятся у них в подчинении. Задача чтобы парсер зайдя на сайт администрации нашел ссылки на муниципальные сайты, зашел туда а там уже нашел нужную нам информацию.
Необходимо что бы список сайтов Администраций и Муниципальных образований хранился отдельно и мог редактироваться.
Тут можно взять перечень всех субъектов России.*****
Соответственно на сайтах администраций есть списки подчинённых муниципальных образований. Рассмотрим пример:
К примеру выбираем Администрация Ленинградской области - Интернет
сайты там идем ***** берем
самый первый сайт
Бокситогорского *****
И там начинаем искать:
Находим например
Муниципальное унитарное предприятие "Благоустройство"
Руководитель предприятия: директор Антонова Светлана Николаевна
Адрес предприятия: *****, Ленинградская область, г. Бокситогорск,
ул. Советская, д.6 Электронная почта (e-mail):
***** Контактные телефоны:
Директор: (81366)243-46
Секретарь: (81366)216-12
Или
Председатель комитета образования - Смирнова Марина Михайловна
Приемная комитета образования: тел/факс: (81366) 248-85
Электронная почта (e-mail): *****
Именно изза того что нет единого реестра таких сайтов я попросил вас сделать список отдельным файлом и с возможностью редактирования и очень желательно при редактировании проверку на совпадения (что бы один и тот же сайт несколько раз не парсить).
Есть еще сайты которые пытаются объединить и собрать такую информацию, например:
*****
*****
Но на них информация крайне не полная.
С учетом того что для нас первоочередное значение имеет электронная почта, предлагаю от нее и отталкиваться. То есть ищем почту а потом одно из ключевых слов (унитарное предприятие, комитет, отдел, управление, департамент), как правило название не состоит более чем из 5 слов, таким образом мы заполняем поле подразделение и e-mail (это ключевые поля которые нам очень важны). Поля Муниципальный округ, Сайт муниципального округа и Адрес страницы подразделения не должны вызвать затруднения, их заполняем в случаи заполнения подразделение и e-mail. ФИО, телефон и адрес, по ФИО скорее всего придется подключить библиотеку имен и отталкиваясь от имени брать фамилию и отчество, по телефону и адресу скорее всего придется создать некий критерий и если запись ему отвечает то заполняем поля. Для телефона это может быть +7 ……….. или 8 ………. А для адреса г. …….. (пр. ул. Ал.Пер. и тд.)
Нужно обязательно продумать систему фильтров что бы парсер не лез например на поисковики (на многих сайтах есть ссылки на них) или не смотрел страницу с фотографиями и т.д.
Зарегистрируйтесь или войдите на сайт под своим именем.