Архив Об архиве FAQ New BAN List Полезные ссылки Друзья архива Архив новостей
Архив by ArjLover   Архив by ArjLover
Мультики by ArjLover
Приёмная ArjLover-a
Перезагрузить страницу Заполнение базы по фильмам и мультикам
Регистрация СправкаПравила форума Поиск Сообщения за день Все разделы прочитаны Пользователи Календарь

Приёмная ArjLover-a Послания и пожелания по работе Архива

Ответ
 
Опции темы Опции просмотра
  #61  
Старый 02.04.2008, 18:36
Аватар для ArjLover
Администратор
 
Регистрация: 25.11.2006
Адрес: Czech Republic Прага
Пол: Male
Сообщений: 2,886
Отправить сообщение для ArjLover с помощью ICQ
Ведущие,
как я вижу сейчас в идеале хочется иметь кнопку внутри новой формы заполнения инфы, прописал там номер на "нашем кино" или другом сайте, нажал на кнопку парсера, он дернул всю инфу по данному фильму сразу в базу. и при следующей отрисовке формы вы видите поля режиссеров и т.д. уже заполненными, делаете контроль заполнения и... ну это уже в базе... если что не так - удаляете лишнее.
нормально?
konst5, на чем скрипт?
Ответить с цитированием
  #62  
Старый 02.04.2008, 19:21
Senior Member
 
Регистрация: 30.03.2008
Russian Federation
Пол: Male
Сообщений: 115
Цитата:
Сообщение от ArjLover Посмотреть сообщение
Ведущие,
как я вижу сейчас в идеале хочется иметь кнопку внутри новой формы заполнения инфы, прописал там номер на "нашем кино" или другом сайте, нажал на кнопку парсера, он дернул всю инфу по данному фильму сразу в базу. и при следующей отрисовке формы вы видите поля режиссеров и т.д. уже заполненными, делаете контроль заполнения и... ну это уже в базе... если что не так - удаляете лишнее.
нормально?
Писать сразу в БД - это может и не самое правильное. Всегда есть нюансы, которые не учтешь. Напр., посмотрите как на наше_кино сделаны "Следствие ведут знатоки". Мой скрипт, напр., просто возьмет последние данные из описаний. А писать более заморочный скрипт - себе дороже. Лучше ручками сначала проверить/подправить текстовый вариант.
Цитата:
Сообщение от ArjLover Посмотреть сообщение
konst5, на чем скрипт?
perl
Ответить с цитированием
  #63  
Старый 02.04.2008, 19:31
Senior Member
 
Регистрация: 16.07.2007
Адрес: Russian Federation Kemerovo
Пол: Male
Сообщений: 315
Отправить сообщение для AlexeyPetrov с помощью ICQ
Парсер должен писать не в базу, а заполнять стандартную HTML-форму добавления фильма, которую человек затем проверяет/дополняет и только потом жмёт кнопку "Добавить в базу".
Ответить с цитированием
  #64  
Старый 02.04.2008, 20:01
Senior Member
 
Регистрация: 30.03.2008
Russian Federation
Пол: Male
Сообщений: 115
Цитата:
Сообщение от AlexeyPetrov Посмотреть сообщение
Парсер должен писать не в базу, а заполнять стандартную HTML-форму добавления фильма, которую человек затем проверяет/дополняет и только потом жмёт кнопку "Добавить в базу".
Есть и такой вариант: заполнить БД. А потом проверить каждую запись.
Но все одно - сначала сделать просто текст. И более менее просмотреть список персон - там могут быть ляпы. Напр., на нашем_кино иногда актер звучит так:
Иванов Иван - "Стенька Разин". Я учел то. что заметил в скрипте, но могут быть и другие подобные ситуации...
Ответить с цитированием
  #65  
Старый 02.04.2008, 20:55
Senior Member
 
Регистрация: 16.07.2007
Адрес: Russian Federation Kemerovo
Пол: Male
Сообщений: 315
Отправить сообщение для AlexeyPetrov с помощью ICQ
Написал пример формочки на HTML+JavaScript, упрощающей заполнение базы, в которой все персоналии записываются отдельно и проверяются уже при вводе:
http://musicvideos.ru/videodb/_arjlo.../addmovie.html

Здесь суть только в интерфейсе, поэтому работает он пока без базы данных - и актёров и режиссёров ищет сейчас по такому массиву:
Васечкин К.М.
Иванов И.И.
Круглов Е.С.
Макаров С.М.
Матроскин Кот Котыч
Петров А.А.
Петров А.Н.
Петросян Е.В.
Сидоров В.М.
Смирнова Ю.А.

Все обращения к этому массиву можно легко заменить на запросы к MySQL.

Возможности:
- Динамически добавляет/удаляет любые поля.
- Подсказывает ближайшие значения из базы при ручном вводе текста в поля.
- Разбирает произвольный текст по заданным разделителям, удаляет лишние пробелы в начале/конце полученных значений, результатами заполняет выбранный раздел формы (Режиссёры или Актёры) и для каждого поля сообщает: совпадает ли оно с имеющимися в базе. В этом случае, чтобы увидеть ближайшие варианты, нужно выбрать интересующее поле в форме и нажать стрелку "Вправо", либо начать изменять его значение любым способом.

Для проверки разбора текста можно использовать такую строку:
Васечкин К.М., Иванов, Круглов Евгений, Петров А.А., Петров А.

Тестировал только в Internet Explorer 7.0, хотя в других браузерах тоже всё должно работать.

PS: Думаю, стоит разделить эту тему на две: собственно "Дизайн страницы инфо" и "Заполнение базы по фильмам", куда перенести сообщения по структуре БД, автоматизации заполнения и т.п.

Последний раз редактировалось AlexeyPetrov, 03.04.2008 в 11:26.
Ответить с цитированием
  #66  
Старый 02.04.2008, 23:31
Аватар для masok
Администратор
 
Регистрация: 26.11.2006
Адрес: Russian Federation Москва
Пол: Female
Сообщений: 22,811
По поводу откуда - я последнее время чаще всего пользуюсь http://www.kino-teatr.ru/ . Описания чаще интересные и культурные, композитора-оператора-художника не забывают. Хотя на Нашем кино иногда актеров подробнее указывают.

Сравним:
http://www.kino-teatr.ru/kino/movie/sov/649/annot/
http://www.nashekino.ru/data.movies?id=497

И еще на http://www.kino-teatr.ru/ есть "версия для печати" - наверное, оттуда проще забирать.
http://www.kino-teatr.ru/kino/movie/...9/annot/print/
Ответить с цитированием
  #67  
Старый 02.04.2008, 23:32
Аватар для masok
Администратор
 
Регистрация: 26.11.2006
Адрес: Russian Federation Москва
Пол: Female
Сообщений: 22,811
По поводу кнопочек - их непременно должно быть две. "Добавить в базу" и "Изменить". Ошибку поправить, дополнить что-то - обязательно.
Ответить с цитированием
  #68  
Старый 03.04.2008, 01:13
Аватар для ArjLover
Администратор
 
Регистрация: 25.11.2006
Адрес: Czech Republic Прага
Пол: Male
Сообщений: 2,886
Отправить сообщение для ArjLover с помощью ICQ
masok, есть новая форма заполнения всей инфы. Ее надо видеть чтобы понять о чем я, скоро дам линк.
konst5, можно и сразу залить. ты базу видел. я тут немного замерз в раздумьях что лучше поздно чем очень поздно объединять таблицы в одну... но никак не могу решиться. и без этого все подглючивает и забот хватает.
Просто сразу залить все фильмы - потом долго проверять придется и проверять до конца, прежде чем запустить вывод на страницы инфо. а если вливать персонально, то вывод того что есть можно сразу сделать. Мне кажется сейчас мы дунем 5000 описаний, а потом будем полгода еще проверять. А я предлагаю сделать скрипт который будет вызываться через веб с одним параметром - урл который распарсить надо ну и еще один имя файла для которого в базу положить. И сразу проверить можно будет что легло, если не то - ручками поправить. Для этого уже есть форма редактирования.
я тебе в личку скину новые явки.

Последний раз редактировалось ArjLover, 03.04.2008 в 01:16.
Ответить с цитированием
  #69  
Старый 03.04.2008, 01:56
Senior Member
 
Регистрация: 30.03.2008
Russian Federation
Пол: Male
Сообщений: 115
И умываю руки

Исправил скриптик-парсер на предмет обнаруженных багов и функциональности.
Выложу... но - please - не обижайтесь. Он плохо-читаем (имена переменных и функций - понятны только мне любимому). Не пинайте. Смотрите комментарий в начале скрипта. (PS. у меня полностью отрабатывает за 10 минут/по тарифу у меня - 2100Кбит/с)

Что он делает:
1. Парсит здешний сайт (идет по листингу фильмов).
2. переходит по ссылке на инфу о фильме (здесь же). Собирает имеющююся информацию.
3. если есть ссылка на наше_кино - идет туда, и собирает данные об персонах, сюжете, годе выпуска
4. Связывает все это определенным образом и создает набор файлов, каталогов.
5. Проблемные моменты записывает в файлы:
0_ERR_nashekino: список фильмов, которые были обработаны некорректно, из-за особенностей описания на нашем_кино.ру (т.е. потребуется ручное исправление)
0_ERR_noinfo: список фильмов, имеющих неполное (некорректное) описание на странице /info/ (на этом сервере)
0_ERR_noinfo_sort: тоже, но отсортировано по алфавиту
0_ERR_nolink_nashekino: список фильмов, не имеющих ссылки на "нашекино"

Подробнее о рез-тах его деятельности - см. 0_README
Файлы с расширением .txt - кодировка win1251. Else - koi8-r

В прикрепленном архиве:
скрипт (0_arjlover.pl), 0_README и файлы обнаруженных ошибок (0_ERR_...), упомянутые выше... последнее может пригодиться админам сайта

Полный архив - результат отработки скрипта (.tar.gz) - выложу сюда (780 Kb)
Вложения
Тип файла: rar FILM.rar (92.9 Кб, 5 просмотров)
Ответить с цитированием
  #70  
Старый 03.04.2008, 02:07
Аватар для ArjLover
Администратор
 
Регистрация: 25.11.2006
Адрес: Czech Republic Прага
Пол: Male
Сообщений: 2,886
Отправить сообщение для ArjLover с помощью ICQ
Жалко такую работу.
мне полскрипта вообще не нужно - у меня все аккуратно в базе доступно - то что на вход надо подать. а вторая половина.. ну как-то тоже надо в базу засунуть.

Ведущие, по прежнему от вас нужно сказать как удобнее - один раз залить в базу и вам все потом вычитывать. или лучше заливать по заказу каждый фильм отдельно? Кстати скажите еще кто с какого сайта хочет инфу? думаю что больше одного на раздел не осилю.

konst5, понимаю что работу сделал уже.. но буду очень благодарен, если готов переделать, но уже сообща и как нам надо
В общих словах - веб-интерфейс, выбираем фильм, берем из базы урл на "наше кино", грабим, складываем поля в ту же базу к тому же фильму. Ну или все сразу по циклу и без веб-интерфейса, что тебе сильно проще, но тоже в базу и если ведущим так будет удобнее.
Ответить с цитированием
  #71  
Старый 03.04.2008, 02:18
Senior Member
 
Регистрация: 30.03.2008
Russian Federation
Пол: Male
Сообщений: 115
Цитата:
Сообщение от ArjLover Посмотреть сообщение
konst5, можно и сразу залить. ты базу видел. я тут немного замерз в раздумьях что лучше поздно чем очень поздно объединять таблицы в одну... но никак не могу решиться. и без этого все подглючивает и забот хватает.
Просто сразу залить все фильмы - потом долго проверять придется и проверять до конца, прежде чем запустить вывод на страницы инфо. а если вливать персонально, то вывод того что есть можно сразу сделать. Мне кажется сейчас мы дунем 5000 описаний, а потом будем полгода еще проверять. А я предлагаю сделать скрипт который будет вызываться через веб с одним параметром - урл который распарсить надо ну и еще один имя файла для которого в базу положить. И сразу проверить можно будет что легло, если не то - ручками поправить. Для этого уже есть форма редактирования.
я тебе в личку скину новые явки.
1. Все не так страшно, как на самом деле
2. Я выложил рез-т работы парсера. За корректность ручаюсь. Скрипт ошибся в примерно 10 случаях с нашимкино (и сообщил об этом) - здесь требуется работа ручками (т.е. надо зайти в указанные ID фильмов и убрать/исправить там файлик персон, год и сюжет). А также "некрасиво" записал 15-20 персон (из-за скобок) - надо найти все случаи использования круглых скобок в файлике person и поправить. Остальные ошибки (если есть) - это ошибки, которые имеют место быть или у Вас (некорректные данные) или на нашемкино... Тут уж ничего не поделать. Можно только попросить пользователей - если заметят ошибку - дать сигнал.

PS. Да. Эти ошибки связанные с нашимкино - это проблема. См. описания там. Надо что-то придумать со структурой БД, чтобы обрабатывать такие ситуации.

PPS. Поля у меня в результирующих файлах стандарные. Поэтому несложно проверить их корректность и простыми командами (примеры):
cd /tmp/FILMS
grep -R "VO :" [1-9]* | more
или
grep -R "VO :" [1-9]* > fileVO - вывод содержимого поля VO (видеоформат). Достаточно беглого просмотра, чтобы обнаружить ошибки
grep -R "MD5 :" [1-9]* | more
ну и т.п.
Ответить с цитированием
  #72  
Старый 03.04.2008, 02:23
Аватар для masok
Администратор
 
Регистрация: 26.11.2006
Адрес: Russian Federation Москва
Пол: Female
Сообщений: 22,811
Мне удобнее залить все сразу и потом проверять понемногу, иначе замучат за полгода вопросами - что за фильм.

Про откуда брать я уже отвечала.
Полной уверенности в выборе нет, так что конструктивные соображения рада услышать.
Ответить с цитированием
  #73  
Старый 03.04.2008, 02:30
Senior Member
 
Регистрация: 30.03.2008
Russian Federation
Пол: Male
Сообщений: 115
Цитата:
Сообщение от ArjLover Посмотреть сообщение
Жалко такую работу.
мне полскрипта вообще не нужно - у меня все аккуратно в базе доступно - то что на вход надо подать. а вторая половина.. ну как-то тоже надо в базу засунуть.
Да здесь нужен еще один скриптик. Но думаю с ним-то проблем не должно быть.
Данные-то уже структурированы. Вопрос лишь: какова структура БД?!!! От этого все и зависит.
----
Я вообще не понимаю какие проблемы! Вы какой БД пользуетесь?
Надо просто завести еще одну дополнительную базу. Там реализовать альтернативный вариант (набор нормализованных таблиц). На сервере дать дополнительную ссылку на тестовый вариант сайта.

PS. Помагать я готов. Но многое зависит от свободного времени. Его пока не очень густо
Ответить с цитированием
  #74  
Старый 03.04.2008, 02:48
Аватар для masok
Администратор
 
Регистрация: 26.11.2006
Адрес: Russian Federation Москва
Пол: Female
Сообщений: 22,811
Еще хороший каталог http://www.russiancinema.ru/

Исключительно полный и точный. Но там, наверное, сложно вытаскивать описание из раздела "тексты". И их не очень много, вот на Бриллиантовую руку вообще нет. Зато есть на многие редкости.

Наверное, лучше оттуда на недостающее в основном каталоге стянуть ручками. К тому же притормаживает этот сайт.
Ответить с цитированием
  #75  
Старый 03.04.2008, 02:50
Senior Member
 
Регистрация: 30.03.2008
Russian Federation
Пол: Male
Сообщений: 115
Цитата:
Сообщение от masok Посмотреть сообщение
Мне удобнее залить все сразу и потом проверять понемногу, иначе замучат за полгода вопросами - что за фильм.

Про откуда брать я уже отвечала.
Полной уверенности в выборе нет, так что конструктивные соображения рада услышать.
А имеет ли такой большой смысл собирать здесь самые-самые лучшие аннотации и т.п.? Сейчас есть прекрасные сайты, которые это уже сделали (ссылки Вы сами дали). А данный сервер позиционируется именно как файловый. Т.е. наиболее важной информацией здесь стоит сделать информацию о файлах (напр. качество и т.п.). А на сторонние сайты достаточно дать ссылки.

А здесь - только самое необходимое: краткая аннотация. Выборка (причем без особенных заморочек) по годам, актерам, режиссерам и т.п.

Вот высказал мнение
Ответить с цитированием
  #76  
Старый 03.04.2008, 02:57
Аватар для masok
Администратор
 
Регистрация: 26.11.2006
Адрес: Russian Federation Москва
Пол: Female
Сообщений: 22,811
Не согласна. Архив функцию простого файлохранилища, как мне кажется, уже перерос. Вокруг него сформировалось некое культурное сообщество, коему надо соответствовать. В том числе и по описаниям.

Потому что при быстром просмотре информации по ссылке от нас от многих описаний на Нашем кино меня лично, например, коробит от убогости, и неполноты, и, увы, нередко - фактической недостоверности текста.

Короче, хочется, чтобы описания соответствовали качеству контента и культурному уровню людей, его смотрящих. Или тогда чтобы их не было вовсе, а ссылки вели бы, куда надо.

Последний раз редактировалось masok, 03.04.2008 в 03:02.
Ответить с цитированием
  #77  
Старый 03.04.2008, 03:05
Аватар для masok
Администратор
 
Регистрация: 26.11.2006
Адрес: Russian Federation Москва
Пол: Female
Сообщений: 22,811
Между прочим, по моим наблюдениям, нашим материалом вовсю пользуются студенты и педагоги для учебного процесса. И без конца спрашивают про подборку фильмов по режиссерам, годам... И не только они спрашивают, любителей кино немало. Так что не на голом месте возник вопрос о базе.

Привожу конкретный пример по очень любимому мною фильму.

Вы этот фильм смотреть будете?
А этот?
Или хотя бы этот?

Последний раз редактировалось masok, 03.04.2008 в 03:26.
Ответить с цитированием
  #78  
Старый 03.04.2008, 03:24
Аватар для ArjLover
Администратор
 
Регистрация: 25.11.2006
Адрес: Czech Republic Прага
Пол: Male
Сообщений: 2,886
Отправить сообщение для ArjLover с помощью ICQ
Ведущие, отбой. Я что-то перегрелся наверно. автоматом сейчас можно сдуть только то, на что у нас уже прописаны линки в info. Имеет ли смысл делать грабер на будущее? Когда вы найдете страницу на сервере, то.... наверно проще будет сделать пять раз с нее копи паст, чем писать грабер и надеяться на его безглючность. Хотя как задача не первой важности - вполне себе.
Ответить с цитированием
  #79  
Старый 03.04.2008, 03:45
Аватар для masok
Администратор
 
Регистрация: 26.11.2006
Адрес: Russian Federation Москва
Пол: Female
Сообщений: 22,811
На будущее- имеет. Потихоньку и заменим тогда.

Вот еще что забыли: в фильмах бывает не по одной звуковой дорожке. Где-то надо отразить, что это русская и грузинская, к примеру.
Ответить с цитированием
  #80  
Старый 03.04.2008, 03:52
Аватар для ArjLover
Администратор
 
Регистрация: 25.11.2006
Адрес: Czech Republic Прага
Пол: Male
Сообщений: 2,886
Отправить сообщение для ArjLover с помощью ICQ
Когда делал обработку - не знал на чем потестировать. Теперь уже знаю - лимонадный джо. Завтра подправлю парсер.
Ответить с цитированием
Ответ


Здесь присутствуют: 1 (пользователей: 0 , гостей: 1)
 
Опции темы
Опции просмотра

Ваши права в разделе
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход


Часовой пояс GMT +3, время: 14:43.


vBulletin® Version 3.8.7.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot