парсер + рассыльщик 10 р.

Все проекты
Прошло времени:   55 лет 5 месяцев 2 недели 2 дня 4 часа 41 минут
Необходимо сделать Базу Данных (БД), парсер (записывающий в эту БД) и рассыльщик (простейший рассыльщик писем берущий информацию из этой БД, по заданной выборке).

Основные поля БД:

№ - номер записи
Дата добавления
Дата последнего изменения
Муниципальный округ++++
Сайт муниципального округа ++++
Подразделение (унитарное предприятие, комитет, отдел, управление, департамент и т.д.)++++
Адрес страницы подразделения (откуда взята вся информация) ++++
ФИО Ответственного
e-mail (подразделения) ++++
Телефон
Физический адрес


Специальные поля, если они необходимы,на усмотрение программиста.
Первые три поля к парсеру не имеют ни какого отношения, остальные заполняются за счет парсера. Поля с (++++) для нас ключевые и если с (Муниципальный округ, Сайт муниципального округа и Адрес страницы подразделения) все более менее понятно и просто, то вот остальные поля и являются камнем преткновения.

Что требуется от парсера, поиск этих полей. Список муниципальных сайтов по которым ведется поиск (при этом желательно отдельным файлом и с возможностью редактирования). Список слов исключений, при нахождении такого слова в названии подразделения запись не заносится (например нам не интересны полиция, суды и т.д.) , необходимо что бы список можно было редактировать. Такой же список по ключевым словам (при этом список исключений имеет приоритет).

БД и парсер имеют три уровня доступа. Пользователь (просмотр, выборка и рассылка), Админ(редактирование,
выдача пользователей, запуск парсера, изменения списков слов и сайтов), «Супер админ» (может все, скрытая опция)
Все права выдаются Пользователи Админом а Админские Супер админом.

Существует порядка 250 Администротивных округов у них в подчинении и находятся муниципальные образования их 23001. На каждом сайте администрации есть ссылки на муниципальные образования, которые находятся у них в подчинении. Задача чтобы парсер зайдя на сайт администрации нашел ссылки на муниципальные сайты, зашел туда а там уже нашел нужную нам информацию.
Необходимо что бы список сайтов Администраций и Муниципальных образований хранился отдельно и мог редактироваться.

Тут можно взять перечень всех субъектов России.*****
Соответственно на сайтах администраций есть списки подчинённых муниципальных образований. Рассмотрим пример:
К примеру выбираем Администрация Ленинградской области - Интернет
сайты там идем ***** берем
самый первый сайт
Бокситогорского *****

И там начинаем искать:

Находим например

Муниципальное унитарное предприятие "Благоустройство"
Руководитель предприятия: директор Антонова Светлана Николаевна
Адрес предприятия: *****, Ленинградская область, г. Бокситогорск,
ул. Советская, д.6 Электронная почта (e-mail):
***** Контактные телефоны:
Директор: (81366)243-46
Секретарь: (81366)216-12

Или
Председатель комитета образования - Смирнова Марина Михайловна
Приемная комитета образования: тел/факс: (81366) 248-85
Электронная почта (e-mail): *****
Именно изза того что нет единого реестра таких сайтов я попросил вас сделать список отдельным файлом и с возможностью редактирования и очень желательно при редактировании проверку на совпадения (что бы один и тот же сайт несколько раз не парсить).
Есть еще сайты которые пытаются объединить и собрать такую информацию, например:
*****
*****
Но на них информация крайне не полная.
С учетом того что для нас первоочередное значение имеет электронная почта, предлагаю от нее и отталкиваться. То есть ищем почту а потом одно из ключевых слов (унитарное предприятие, комитет, отдел, управление, департамент), как правило название не состоит более чем из 5 слов, таким образом мы заполняем поле подразделение и e-mail (это ключевые поля которые нам очень важны). Поля Муниципальный округ, Сайт муниципального округа и Адрес страницы подразделения не должны вызвать затруднения, их заполняем в случаи заполнения подразделение и e-mail. ФИО, телефон и адрес, по ФИО скорее всего придется подключить библиотеку имен и отталкиваясь от имени брать фамилию и отчество, по телефону и адресу скорее всего придется создать некий критерий и если запись ему отвечает то заполняем поля. Для телефона это может быть +7 ……….. или 8 ………. А для адреса г. …….. (пр. ул. Ал.Пер. и тд.)

Нужно обязательно продумать систему фильтров что бы парсер не лез например на поисковики (на многих сайтах есть ссылки на них) или не смотрел страницу с фотографиями и т.д.
    Видеть контакты заказчика и оставлять свои предложения по проекту могут только зарегистрированные и авторизованные пользователи.
    Зарегистрируйтесь или войдите на сайт под своим именем.

    Фриланс-биржа Web-lance.net предлагает огромные возможности по поиску работы как опытным специалистам в сфере интернет-бизнеса, так и новичкам, только постигающим основы заработка во всемирной сети. Здесь вы найдете сотни интересных вакансий в сфере дизайна, копирайтинга, программирования, верстки, контент-менеджмента и других сфер деятельности востребованных среди интернет-пользователей. Также, зарегистрировавшись на бирже, вы сможете разместить здесь свою анкету, указав в ней свою специализацию и контактные данные, что даст возможность потенциальным клиентам, связаться с вами для дальнейшего взаимовыгодного сотрудничества. Сайт удобно структурирован и разбит на тематические разделы, что позволяет даже неопытным заказчикам точно определять категорию, в которую стоит публиковать их проект, в тоже время, упрощая исполнителям поиск интересующих их вакансий. Кроме того на портале имеется раздел Блоги где зарегистрированные пользователи могут публиковать материалы, а также Форум на котором исполнители и заказчики смогут обсудить рабочие моменты, а также пообщаться на интересующие их темы. Приятной вам работы на Web-lance.net - бирже, где вы сможете найти лучших исполнителей и самые интересные проекты.

    2D-персонажи – двухмерные, плоские персонажи.