Заполнение базы по фильмам и мультикам - Страница 4

ArjLover · #61 02.04.2008, 17:36

Ведущие,
как я вижу сейчас в идеале хочется иметь кнопку внутри новой формы заполнения инфы, прописал там номер на "нашем кино" или другом сайте, нажал на кнопку парсера, он дернул всю инфу по данному фильму сразу в базу. и при следующей отрисовке формы вы видите поля режиссеров и т.д. уже заполненными, делаете контроль заполнения и... ну это уже в базе... если что не так - удаляете лишнее.
нормально?
konst5, на чем скрипт?

konst5 · #62 02.04.2008, 18:21

Цитата:

Сообщение от ArjLover

Ведущие,
как я вижу сейчас в идеале хочется иметь кнопку внутри новой формы заполнения инфы, прописал там номер на "нашем кино" или другом сайте, нажал на кнопку парсера, он дернул всю инфу по данному фильму сразу в базу. и при следующей отрисовке формы вы видите поля режиссеров и т.д. уже заполненными, делаете контроль заполнения и... ну это уже в базе... если что не так - удаляете лишнее.
нормально?

Писать сразу в БД - это может и не самое правильное. Всегда есть нюансы, которые не учтешь. Напр., посмотрите как на наше_кино сделаны "Следствие ведут знатоки". Мой скрипт, напр., просто возьмет последние данные из описаний. А писать более заморочный скрипт - себе дороже. Лучше ручками сначала проверить/подправить текстовый вариант.

Цитата:

Сообщение от ArjLover

konst5, на чем скрипт?

perl

AlexeyPetrov · #63 02.04.2008, 18:31

Парсер должен писать не в базу, а заполнять стандартную HTML-форму добавления фильма, которую человек затем проверяет/дополняет и только потом жмёт кнопку "Добавить в базу".

konst5 · #64 02.04.2008, 19:01

Цитата:

Сообщение от AlexeyPetrov

Парсер должен писать не в базу, а заполнять стандартную HTML-форму добавления фильма, которую человек затем проверяет/дополняет и только потом жмёт кнопку "Добавить в базу".

Есть и такой вариант: заполнить БД. А потом проверить каждую запись.
Но все одно - сначала сделать просто текст. И более менее просмотреть список персон - там могут быть ляпы. Напр., на нашем_кино иногда актер звучит так:
Иванов Иван - "Стенька Разин". Я учел то. что заметил в скрипте, но могут быть и другие подобные ситуации...

AlexeyPetrov · #65 02.04.2008, 19:55

Написал пример формочки на HTML+JavaScript, упрощающей заполнение базы, в которой все персоналии записываются отдельно и проверяются уже при вводе:
http://musicvideos.ru/videodb/_arjlo.../addmovie.html

Здесь суть только в интерфейсе, поэтому работает он пока без базы данных - и актёров и режиссёров ищет сейчас по такому массиву:

Васечкин К.М.
Иванов И.И.
Круглов Е.С.
Макаров С.М.
Матроскин Кот Котыч
Петров А.А.
Петров А.Н.
Петросян Е.В.
Сидоров В.М.
Смирнова Ю.А.
Все обращения к этому массиву можно легко заменить на запросы к MySQL.

Возможности:
- Динамически добавляет/удаляет любые поля.
- Подсказывает ближайшие значения из базы при ручном вводе текста в поля.
- Разбирает произвольный текст по заданным разделителям, удаляет лишние пробелы в начале/конце полученных значений, результатами заполняет выбранный раздел формы (Режиссёры или Актёры) и для каждого поля сообщает: совпадает ли оно с имеющимися в базе. В этом случае, чтобы увидеть ближайшие варианты, нужно выбрать интересующее поле в форме и нажать стрелку "Вправо", либо начать изменять его значение любым способом.

Для проверки разбора текста можно использовать такую строку:
Васечкин К.М., Иванов, Круглов Евгений, Петров А.А., Петров А.

Тестировал только в Internet Explorer 7.0, хотя в других браузерах тоже всё должно работать.

PS: Думаю, стоит разделить эту тему на две: собственно "Дизайн страницы инфо" и "Заполнение базы по фильмам", куда перенести сообщения по структуре БД, автоматизации заполнения и т.п.

masok · #66 02.04.2008, 22:31

По поводу откуда - я последнее время чаще всего пользуюсь http://www.kino-teatr.ru/ . Описания чаще интересные и культурные, композитора-оператора-художника не забывают. Хотя на Нашем кино иногда актеров подробнее указывают.

Сравним:
http://www.kino-teatr.ru/kino/movie/sov/649/annot/
http://www.nashekino.ru/data.movies?id=497

И еще на http://www.kino-teatr.ru/ есть "версия для печати" - наверное, оттуда проще забирать.
http://www.kino-teatr.ru/kino/movie/...9/annot/print/

masok · #67 02.04.2008, 22:32

По поводу кнопочек - их непременно должно быть две. "Добавить в базу" и "Изменить". Ошибку поправить, дополнить что-то - обязательно.

ArjLover · #68 03.04.2008, 00:13

masok, есть новая форма заполнения всей инфы.

Ее надо видеть чтобы понять о чем я, скоро дам линк.
konst5, можно и сразу залить. ты базу видел. я тут немного замерз в раздумьях что лучше поздно чем очень поздно объединять таблицы в одну... но никак не могу решиться. и без этого все подглючивает и забот хватает.
Просто сразу залить все фильмы - потом долго проверять придется и проверять до конца, прежде чем запустить вывод на страницы инфо. а если вливать персонально, то вывод того что есть можно сразу сделать. Мне кажется сейчас мы дунем 5000 описаний, а потом будем полгода еще проверять.

А я предлагаю сделать скрипт который будет вызываться через веб с одним параметром - урл который распарсить надо ну и еще один

имя файла для которого в базу положить. И сразу проверить можно будет что легло, если не то - ручками поправить. Для этого уже есть форма редактирования.
я тебе в личку скину новые явки.

konst5 · #69 03.04.2008, 00:56

Исправил скриптик-парсер на предмет обнаруженных багов и функциональности.
Выложу... но - please - не обижайтесь. Он плохо-читаем (имена переменных и функций - понятны только мне любимому). Не пинайте. Смотрите комментарий в начале скрипта. (PS. у меня полностью отрабатывает за 10 минут/по тарифу у меня - 2100Кбит/с)

Что он делает:
1. Парсит здешний сайт (идет по листингу фильмов).
2. переходит по ссылке на инфу о фильме (здесь же). Собирает имеющююся информацию.
3. если есть ссылка на наше_кино - идет туда, и собирает данные об персонах, сюжете, годе выпуска
4. Связывает все это определенным образом и создает набор файлов, каталогов.
5. Проблемные моменты записывает в файлы:
0_ERR_nashekino: список фильмов, которые были обработаны некорректно, из-за особенностей описания на нашем_кино.ру (т.е. потребуется ручное исправление)
0_ERR_noinfo: список фильмов, имеющих неполное (некорректное) описание на странице /info/ (на этом сервере)
0_ERR_noinfo_sort: тоже, но отсортировано по алфавиту
0_ERR_nolink_nashekino: список фильмов, не имеющих ссылки на "нашекино"

Подробнее о рез-тах его деятельности - см. 0_README
Файлы с расширением .txt - кодировка win1251. Else - koi8-r

В прикрепленном архиве:
скрипт (0_arjlover.pl), 0_README и файлы обнаруженных ошибок (0_ERR_...), упомянутые выше... последнее может пригодиться админам сайта

Полный архив - результат отработки скрипта (.tar.gz) - выложу сюда (780 Kb)

ArjLover · #70 03.04.2008, 01:07

Жалко такую работу.

мне полскрипта вообще не нужно - у меня все аккуратно в базе доступно - то что на вход надо подать. а вторая половина.. ну как-то тоже надо в базу засунуть.

Ведущие, по прежнему от вас нужно сказать как удобнее - один раз залить в базу и вам все потом вычитывать. или лучше заливать по заказу каждый фильм отдельно? Кстати скажите еще кто с какого сайта хочет инфу? думаю что больше одного на раздел не осилю.

konst5, понимаю что работу сделал уже.. но буду очень благодарен, если готов переделать, но уже сообща и как нам надо

В общих словах - веб-интерфейс, выбираем фильм, берем из базы урл на "наше кино", грабим, складываем поля в ту же базу к тому же фильму. Ну или все сразу по циклу и без веб-интерфейса, что тебе сильно проще, но тоже в базу и если ведущим так будет удобнее.

konst5 · #71 03.04.2008, 01:18

Цитата:

Сообщение от ArjLover

konst5, можно и сразу залить. ты базу видел. я тут немного замерз в раздумьях что лучше поздно чем очень поздно объединять таблицы в одну... но никак не могу решиться. и без этого все подглючивает и забот хватает.
Просто сразу залить все фильмы - потом долго проверять придется и проверять до конца, прежде чем запустить вывод на страницы инфо. а если вливать персонально, то вывод того что есть можно сразу сделать. Мне кажется сейчас мы дунем 5000 описаний, а потом будем полгода еще проверять.

А я предлагаю сделать скрипт который будет вызываться через веб с одним параметром - урл который распарсить надо ну и еще один

имя файла для которого в базу положить. И сразу проверить можно будет что легло, если не то - ручками поправить. Для этого уже есть форма редактирования.
я тебе в личку скину новые явки.

1. Все не так страшно, как на самом деле

2. Я выложил рез-т работы парсера. За корректность ручаюсь. Скрипт ошибся в примерно 10 случаях с нашимкино (и сообщил об этом) - здесь требуется работа ручками (т.е. надо зайти в указанные ID фильмов и убрать/исправить там файлик персон, год и сюжет). А также "некрасиво" записал 15-20 персон (из-за скобок) - надо найти все случаи использования круглых скобок в файлике person и поправить. Остальные ошибки (если есть) - это ошибки, которые имеют место быть или у Вас (некорректные данные) или на нашемкино... Тут уж ничего не поделать. Можно только попросить пользователей - если заметят ошибку - дать сигнал.

PS. Да. Эти ошибки связанные с нашимкино - это проблема. См. описания там. Надо что-то придумать со структурой БД, чтобы обрабатывать такие ситуации.

PPS. Поля у меня в результирующих файлах стандарные. Поэтому несложно проверить их корректность и простыми командами (примеры):
cd /tmp/FILMS
grep -R "VO :" [1-9]* | more или
grep -R "VO :" [1-9]* > fileVO - вывод содержимого поля VO (видеоформат). Достаточно беглого просмотра, чтобы обнаружить ошибки
grep -R "MD5 :" [1-9]* | more
ну и т.п.

masok · #72 03.04.2008, 01:23

Мне удобнее залить все сразу и потом проверять понемногу, иначе замучат за полгода вопросами - что за фильм.

Про откуда брать я уже отвечала.
Полной уверенности в выборе нет, так что конструктивные соображения рада услышать.

konst5 · #73 03.04.2008, 01:30

Цитата:

Сообщение от ArjLover

Жалко такую работу.

мне полскрипта вообще не нужно - у меня все аккуратно в базе доступно - то что на вход надо подать. а вторая половина.. ну как-то тоже надо в базу засунуть.

Да здесь нужен еще один скриптик. Но думаю с ним-то проблем не должно быть.
Данные-то уже структурированы. Вопрос лишь: какова структура БД?!!! От этого все и зависит.
----
Я вообще не понимаю какие проблемы! Вы какой БД пользуетесь?
Надо просто завести еще одну дополнительную базу. Там реализовать альтернативный вариант (набор нормализованных таблиц). На сервере дать дополнительную ссылку на тестовый вариант сайта.

PS. Помагать я готов. Но многое зависит от свободного времени. Его пока не очень густо

masok · #74 03.04.2008, 01:48

Еще хороший каталог http://www.russiancinema.ru/

Исключительно полный и точный. Но там, наверное, сложно вытаскивать описание из раздела "тексты". И их не очень много, вот на Бриллиантовую руку вообще нет. Зато есть на многие редкости.

Наверное, лучше оттуда на недостающее в основном каталоге стянуть ручками. К тому же притормаживает этот сайт.

konst5 · #75 03.04.2008, 01:50

Цитата:

Сообщение от masok

Мне удобнее залить все сразу и потом проверять понемногу, иначе замучат за полгода вопросами - что за фильм.

Про откуда брать я уже отвечала.
Полной уверенности в выборе нет, так что конструктивные соображения рада услышать.

А имеет ли такой большой смысл собирать здесь самые-самые лучшие аннотации и т.п.? Сейчас есть прекрасные сайты, которые это уже сделали (ссылки Вы сами дали). А данный сервер позиционируется именно как файловый. Т.е. наиболее важной информацией здесь стоит сделать информацию о файлах (напр. качество и т.п.). А на сторонние сайты достаточно дать ссылки.

А здесь - только самое необходимое: краткая аннотация. Выборка (причем без особенных заморочек) по годам, актерам, режиссерам и т.п.

Вот высказал мнение

masok · #76 03.04.2008, 01:57

Не согласна. Архив функцию простого файлохранилища, как мне кажется, уже перерос. Вокруг него сформировалось некое культурное сообщество, коему надо соответствовать. В том числе и по описаниям.

Потому что при быстром просмотре информации по ссылке от нас от многих описаний на Нашем кино меня лично, например, коробит от убогости, и неполноты, и, увы, нередко - фактической недостоверности текста.

Короче, хочется, чтобы описания соответствовали качеству контента и культурному уровню людей, его смотрящих. Или тогда чтобы их не было вовсе, а ссылки вели бы, куда надо.

masok · #77 03.04.2008, 02:05

Между прочим, по моим наблюдениям, нашим материалом вовсю пользуются студенты и педагоги для учебного процесса. И без конца спрашивают про подборку фильмов по режиссерам, годам... И не только они спрашивают, любителей кино немало. Так что не на голом месте возник вопрос о базе.

Привожу конкретный пример по очень любимому мною фильму.

Вы этот фильм смотреть будете?
А этот?
Или хотя бы этот?

ArjLover · #78 03.04.2008, 02:24

Ведущие, отбой. Я что-то перегрелся наверно. автоматом сейчас можно сдуть только то, на что у нас уже прописаны линки в info. Имеет ли смысл делать грабер на будущее? Когда вы найдете страницу на сервере, то.... наверно проще будет сделать пять раз с нее копи паст, чем писать грабер и надеяться на его безглючность. Хотя как задача не первой важности - вполне себе.

masok · #79 03.04.2008, 02:45

На будущее- имеет. Потихоньку и заменим тогда.

Вот еще что забыли: в фильмах бывает не по одной звуковой дорожке. Где-то надо отразить, что это русская и грузинская, к примеру.

ArjLover · #80 03.04.2008, 02:52

Когда делал обработку - не знал на чем потестировать. Теперь уже знаю - лимонадный джо. Завтра подправлю парсер.

Здесь присутствуют: 1 (пользователей: 0 , гостей: 1)