Архив | Об архиве | FAQ | New BAN List | Полезные ссылки | Друзья архива | Архив новостей |
|
Регистрация | Справка | Правила форума | Поиск | Сообщения за день | Пользователи | Календарь |
Приёмная ArjLover-a Послания и пожелания по работе Архива |
|
Опции темы | Опции просмотра |
|
|||
Цитата:
perl |
|
|||
Парсер должен писать не в базу, а заполнять стандартную HTML-форму добавления фильма, которую человек затем проверяет/дополняет и только потом жмёт кнопку "Добавить в базу".
|
|
|||
Цитата:
Но все одно - сначала сделать просто текст. И более менее просмотреть список персон - там могут быть ляпы. Напр., на нашем_кино иногда актер звучит так: Иванов Иван - "Стенька Разин". Я учел то. что заметил в скрипте, но могут быть и другие подобные ситуации... |
|
|||
Написал пример формочки на HTML+JavaScript, упрощающей заполнение базы, в которой все персоналии записываются отдельно и проверяются уже при вводе:
http://musicvideos.ru/videodb/_arjlo.../addmovie.html Здесь суть только в интерфейсе, поэтому работает он пока без базы данных - и актёров и режиссёров ищет сейчас по такому массиву: Васечкин К.М. Иванов И.И. Круглов Е.С. Макаров С.М. Матроскин Кот Котыч Петров А.А. Петров А.Н. Петросян Е.В. Сидоров В.М. Смирнова Ю.А. Все обращения к этому массиву можно легко заменить на запросы к MySQL. Возможности: - Динамически добавляет/удаляет любые поля. - Подсказывает ближайшие значения из базы при ручном вводе текста в поля. - Разбирает произвольный текст по заданным разделителям, удаляет лишние пробелы в начале/конце полученных значений, результатами заполняет выбранный раздел формы (Режиссёры или Актёры) и для каждого поля сообщает: совпадает ли оно с имеющимися в базе. В этом случае, чтобы увидеть ближайшие варианты, нужно выбрать интересующее поле в форме и нажать стрелку "Вправо", либо начать изменять его значение любым способом. Для проверки разбора текста можно использовать такую строку: Васечкин К.М., Иванов, Круглов Евгений, Петров А.А., Петров А. Тестировал только в Internet Explorer 7.0, хотя в других браузерах тоже всё должно работать. PS: Думаю, стоит разделить эту тему на две: собственно "Дизайн страницы инфо" и "Заполнение базы по фильмам", куда перенести сообщения по структуре БД, автоматизации заполнения и т.п. Последний раз редактировалось AlexeyPetrov, 03.04.2008 в 10:26. |
|
||||
По поводу откуда - я последнее время чаще всего пользуюсь http://www.kino-teatr.ru/ . Описания чаще интересные и культурные, композитора-оператора-художника не забывают. Хотя на Нашем кино иногда актеров подробнее указывают.
Сравним: http://www.kino-teatr.ru/kino/movie/sov/649/annot/ http://www.nashekino.ru/data.movies?id=497 И еще на http://www.kino-teatr.ru/ есть "версия для печати" - наверное, оттуда проще забирать. http://www.kino-teatr.ru/kino/movie/...9/annot/print/ |
|
||||
masok, есть новая форма заполнения всей инфы. Ее надо видеть чтобы понять о чем я, скоро дам линк.
konst5, можно и сразу залить. ты базу видел. я тут немного замерз в раздумьях что лучше поздно чем очень поздно объединять таблицы в одну... но никак не могу решиться. и без этого все подглючивает и забот хватает. Просто сразу залить все фильмы - потом долго проверять придется и проверять до конца, прежде чем запустить вывод на страницы инфо. а если вливать персонально, то вывод того что есть можно сразу сделать. Мне кажется сейчас мы дунем 5000 описаний, а потом будем полгода еще проверять. А я предлагаю сделать скрипт который будет вызываться через веб с одним параметром - урл который распарсить надо ну и еще один имя файла для которого в базу положить. И сразу проверить можно будет что легло, если не то - ручками поправить. Для этого уже есть форма редактирования. я тебе в личку скину новые явки. Последний раз редактировалось ArjLover, 03.04.2008 в 00:16. |
|
|||
И умываю руки
Исправил скриптик-парсер на предмет обнаруженных багов и функциональности.
Выложу... но - please - не обижайтесь. Он плохо-читаем (имена переменных и функций - понятны только мне любимому). Не пинайте. Смотрите комментарий в начале скрипта. (PS. у меня полностью отрабатывает за 10 минут/по тарифу у меня - 2100Кбит/с) Что он делает: 1. Парсит здешний сайт (идет по листингу фильмов). 2. переходит по ссылке на инфу о фильме (здесь же). Собирает имеющююся информацию. 3. если есть ссылка на наше_кино - идет туда, и собирает данные об персонах, сюжете, годе выпуска 4. Связывает все это определенным образом и создает набор файлов, каталогов. 5. Проблемные моменты записывает в файлы: 0_ERR_nashekino: список фильмов, которые были обработаны некорректно, из-за особенностей описания на нашем_кино.ру (т.е. потребуется ручное исправление) 0_ERR_noinfo: список фильмов, имеющих неполное (некорректное) описание на странице /info/ (на этом сервере) 0_ERR_noinfo_sort: тоже, но отсортировано по алфавиту 0_ERR_nolink_nashekino: список фильмов, не имеющих ссылки на "нашекино" Подробнее о рез-тах его деятельности - см. 0_README Файлы с расширением .txt - кодировка win1251. Else - koi8-r В прикрепленном архиве: скрипт (0_arjlover.pl), 0_README и файлы обнаруженных ошибок (0_ERR_...), упомянутые выше... последнее может пригодиться админам сайта Полный архив - результат отработки скрипта (.tar.gz) - выложу сюда (780 Kb) |
|
||||
Жалко такую работу.
мне полскрипта вообще не нужно - у меня все аккуратно в базе доступно - то что на вход надо подать. а вторая половина.. ну как-то тоже надо в базу засунуть. Ведущие, по прежнему от вас нужно сказать как удобнее - один раз залить в базу и вам все потом вычитывать. или лучше заливать по заказу каждый фильм отдельно? Кстати скажите еще кто с какого сайта хочет инфу? думаю что больше одного на раздел не осилю. konst5, понимаю что работу сделал уже.. но буду очень благодарен, если готов переделать, но уже сообща и как нам надо В общих словах - веб-интерфейс, выбираем фильм, берем из базы урл на "наше кино", грабим, складываем поля в ту же базу к тому же фильму. Ну или все сразу по циклу и без веб-интерфейса, что тебе сильно проще, но тоже в базу и если ведущим так будет удобнее. |
|
|||
Цитата:
2. Я выложил рез-т работы парсера. За корректность ручаюсь. Скрипт ошибся в примерно 10 случаях с нашимкино (и сообщил об этом) - здесь требуется работа ручками (т.е. надо зайти в указанные ID фильмов и убрать/исправить там файлик персон, год и сюжет). А также "некрасиво" записал 15-20 персон (из-за скобок) - надо найти все случаи использования круглых скобок в файлике person и поправить. Остальные ошибки (если есть) - это ошибки, которые имеют место быть или у Вас (некорректные данные) или на нашемкино... Тут уж ничего не поделать. Можно только попросить пользователей - если заметят ошибку - дать сигнал. PS. Да. Эти ошибки связанные с нашимкино - это проблема. См. описания там. Надо что-то придумать со структурой БД, чтобы обрабатывать такие ситуации. PPS. Поля у меня в результирующих файлах стандарные. Поэтому несложно проверить их корректность и простыми командами (примеры): cd /tmp/FILMS grep -R "VO :" [1-9]* | more или grep -R "VO :" [1-9]* > fileVO - вывод содержимого поля VO (видеоформат). Достаточно беглого просмотра, чтобы обнаружить ошибки grep -R "MD5 :" [1-9]* | more ну и т.п. |
|
||||
Мне удобнее залить все сразу и потом проверять понемногу, иначе замучат за полгода вопросами - что за фильм.
Про откуда брать я уже отвечала. Полной уверенности в выборе нет, так что конструктивные соображения рада услышать. |
|
|||
Цитата:
Данные-то уже структурированы. Вопрос лишь: какова структура БД?!!! От этого все и зависит. ---- Я вообще не понимаю какие проблемы! Вы какой БД пользуетесь? Надо просто завести еще одну дополнительную базу. Там реализовать альтернативный вариант (набор нормализованных таблиц). На сервере дать дополнительную ссылку на тестовый вариант сайта. PS. Помагать я готов. Но многое зависит от свободного времени. Его пока не очень густо |
|
||||
Еще хороший каталог http://www.russiancinema.ru/
Исключительно полный и точный. Но там, наверное, сложно вытаскивать описание из раздела "тексты". И их не очень много, вот на Бриллиантовую руку вообще нет. Зато есть на многие редкости. Наверное, лучше оттуда на недостающее в основном каталоге стянуть ручками. К тому же притормаживает этот сайт. |
|
|||
Цитата:
А здесь - только самое необходимое: краткая аннотация. Выборка (причем без особенных заморочек) по годам, актерам, режиссерам и т.п. Вот высказал мнение |
|
||||
Не согласна. Архив функцию простого файлохранилища, как мне кажется, уже перерос. Вокруг него сформировалось некое культурное сообщество, коему надо соответствовать. В том числе и по описаниям.
Потому что при быстром просмотре информации по ссылке от нас от многих описаний на Нашем кино меня лично, например, коробит от убогости, и неполноты, и, увы, нередко - фактической недостоверности текста. Короче, хочется, чтобы описания соответствовали качеству контента и культурному уровню людей, его смотрящих. Или тогда чтобы их не было вовсе, а ссылки вели бы, куда надо. Последний раз редактировалось masok, 03.04.2008 в 02:02. |
|
||||
Между прочим, по моим наблюдениям, нашим материалом вовсю пользуются студенты и педагоги для учебного процесса. И без конца спрашивают про подборку фильмов по режиссерам, годам... И не только они спрашивают, любителей кино немало. Так что не на голом месте возник вопрос о базе.
Привожу конкретный пример по очень любимому мною фильму. Вы этот фильм смотреть будете? А этот? Или хотя бы этот? Последний раз редактировалось masok, 03.04.2008 в 02:26. |
|
||||
Ведущие, отбой. Я что-то перегрелся наверно. автоматом сейчас можно сдуть только то, на что у нас уже прописаны линки в info. Имеет ли смысл делать грабер на будущее? Когда вы найдете страницу на сервере, то.... наверно проще будет сделать пять раз с нее копи паст, чем писать грабер и надеяться на его безглючность. Хотя как задача не первой важности - вполне себе.
|