Заполнение базы по фильмам и мультикам - Страница 3

troll · #41 01.04.2008, 14:41

Digrol, вроде всё это уже обсудили.
Заполнять плоскую базу проще, нужна намного меньшая концентрация внимания да и просто быстрее это.
Издержки дублирования и поиска несущественны. По неструктурированным текстовым полям (актёры, режиссёры) - полнотекстовый поиск.

Я знаю пример кинобазы сделанной именно так и именно для облегчения труда админов. Баз работает много лет и всё не так уж страшно.
Как аннотации к файлам её хватает. Но и не более того.

Turtle · #42 01.04.2008, 15:09

Я так понимаю, что ArjLover тогда уж сперва хочет услышать, какой интерфейс предлагают сторонники нормальной базы. Если при заполненнии карточки нужно будет выбирать актёров, режиссёров, и прочих элементов, из бесконечных выкидных меню, то на такое никто не согласится, естественно.

Ну например, возможен ли хотя бы такой вариант интерфейса — при вставке готовой строки, содержащей перечисление актёров, они все тут же искались с допусками в базе, и совпавшие помечались бы одним цветом, частично совпавшие другим, и отсутствующие третьим. При этом контекст у совпавших должен быть в виде фрагмента алфавитного списка с пометкой данной позиции, у частично — в виде набора попавших вариантов из того же списка, у отсутствующих — в виде фрагмента алфавитного списка с указанием предлагаемого места их вставки.

masok · #43 01.04.2008, 15:20

Я так думаю - исключительно из общих соображений, ибо непрофессиональна:
Есть два способа структуировать хаос. Либо разложить все по очень мелким полкам, либо сделать хороший поиск по неразобранному или полуразобранному. Оба имеют преимущества и недостатки. Обоими с успехом пользуются.

Поэтому надо сделать так, как проще сделать. И погонять немного. Потому чуть подправить - и жить долго и счастливо.

Digrol · #44 01.04.2008, 15:29

Цитата:

Сообщение от troll

Как аннотации к файлам её хватает. Но и не более того.

Я про то и говорю, зачем изобретать велосипед и делать так же или хуже, чем уже сделано?

Для аннотации - ссылка на внешний источник, сделанный ранее, ну для поиска, собственно, тоже внешние источники использовать, т.к. эта база не предназначена для поиска.

Вот простой вопрос - зачем нужна такая база? Для каких целей её будет удобно использовать?

troll · #45 01.04.2008, 15:51

Цитата:

Сообщение от Turtle

Ну например, возможен ли хотя бы такой вариант интерфейса — при вставке готовой строки, содержащей перечисление актёров, они все тут же искались с допусками в базе, и совпавшие помечались бы одним цветом, частично совпавшие другим, и отсутствующие третьим. При этом контекст у совпавших должен быть в виде фрагмента алфавитного списка с пометкой данной позиции, у частично — в виде набора попавших вариантов из того же списка, у отсутствующих — в виде фрагмента алфавитного списка с указанием предлагаемого места их вставки.

Возможен, но нужен не очень тривиальный скрипт.
И в любом случае это требует дополнительного времени и внимания при заполнении.

Цитата:

Вот простой вопрос - зачем нужна такая база? Для каких целей её будет удобно использовать?

- Что бы не зависеть от внешних сайтов, которые часто зависают, могут исчезнуть.
- Что бы иметь возможность ввести описание того, что на внешних сайтах отсутствует или описано одной строчкой.
- Да и просто удобно видеть описание вместе с параметрами файла, скриншотами и прочим.

ArjLover · #46 01.04.2008, 17:00

вы не забывайте что это файловый архив в "котором только качают".

ну щелкнешь на режиссера и увидишь 2 его фильма, когда всего их у него 25. ну и что дальше? чего ради? не хочу я тягаться с википедией. не хочу. все равно лучше не сделаем.

masok · #47 01.04.2008, 18:07

Так, я окончательно запуталась в чужих речах

. То говорят про полнотекстовый поиск, то про то, что нельзя будет искать фильмы по режиссеру. Объясните простыми словами, можно будет найти все фильмы 63-го года или все фильмы с Никулиным, или нет?

troll · #48 01.04.2008, 18:28

можно и то и другое

masok · #49 01.04.2008, 18:48

Остальное без разницы. Спасибо, troll.

AlexeyPetrov · #50 01.04.2008, 19:05

Я не согласен с konst5 в том, что полнотекстовый индекс (FULLTEXT) в MySQL по 5000 записей будет работать медленно. Я использовал его на базе в миллион записей, поисковые запросы обрабатывались за доли секунды. Индекс там строится так же, как Яндекс или Google индексируют веб-сайты: разбивает все строки на отдельные слова, поисковый запрос разбивает тоже на слова и ищет в индексе по каждому слову отдельно, затем соединяет результаты.

Но в целом согласен, что несколькими таблицами можно сделать более универсальную базу, которую в будущем можно крутить как угодно, и избежать разных обозначений одинаковых объектов уже на этапе ввода информации. Поэтому можно взять за основу БД вариант, предложенный konst5, если удастся хорошо автоматизировать процесс заполнения такой базы.

Варианты автоматизации:
1. При вводе любого поля срабатывает подсказка из ближайших значений, имеющихся в базе. Принцип тот же, как Google уже на этапе ввода запроса подсказывает другие популярные запросы, начинающиеся с введённых букв или слов. Скриптик можно вытащить прямо из кода главной страницы Google.

2. Текстовое поле, куда можно:
- скопировать любой текст
- указать разделитель между объектами
- выбрать, какие объекты перечислены в этом тексте (актёры, жанры и т.п.)
- нажать одну кнопку и получить формочку с заполненными полями по данным из этого текста.
Несовпадения с имеющимися значениями в базе сразу отмечаются. Там же можно быстро выбрать правильные значения из списка ближайших.
3. Для самых крупных сайтов, с которых будут браться данные по сотням фильмов/мультиков, написать парсеры веб-страничек. При заполнении базы человек вводит только ссылку на описание фильма, которое нужно разобрать - далее скрипт автоматически заполняет все поля, которые смог оттуда вытащить, предлагая человеку только подправить расхождения с имеющимися значениями (как в предыдущем пункте).

Пункты 1,2 делаются довольно просто средствами HTML и JavaScript. Для написания парсеров веб-страниц можно подключить добровольцев с форума.

konst5 · #51 01.04.2008, 22:29

Цитата:

Сообщение от AlexeyPetrov

Я не согласен с konst5 в том, что полнотекстовый индекс (FULLTEXT) в MySQL по 5000 записей будет работать медленно. Я использовал его на базе в миллион записей, поисковые запросы обрабатывались за доли секунды. Индекс там строится так же, как Яндекс или Google индексируют веб-сайты: разбивает все строки на отдельные слова, поисковый запрос разбивает тоже на слова и ищет в индексе по каждому слову отдельно, затем соединяет результаты.

Все, конечно, может быть. Я лишь знаю, что запросы использующие 'LIKE' не могут использовать индексы (так в Oracle).

Цитата:

Сообщение от AlexeyPetrov

Но в целом согласен, что несколькими таблицами можно сделать более универсальную базу, которую в будущем можно крутить как угодно, и избежать разных обозначений одинаковых объектов уже на этапе ввода информации. Поэтому можно взять за основу БД вариант, предложенный konst5, если удастся хорошо автоматизировать процесс заполнения такой базы.
....

3. Для самых крупных сайтов, с которых будут браться данные по сотням фильмов/мультиков, написать парсеры веб-страничек. При заполнении базы человек вводит только ссылку на описание фильма, которое нужно разобрать - далее скрипт автоматически заполняет все поля, которые смог оттуда вытащить, предлагая человеку только подправить расхождения с имеющимися значениями (как в предыдущем пункте).
....
Для написания парсеров веб-страниц можно подключить добровольцев с форума.

Мне идея понравилась. В принципе, с помощью такого парсера можно автоматически заполнить БД. По-крайней мере, я загорелся идеей - вытаскивая данные с нашекино.ру по здешним ссылкам, - заполнить 1) табл. персоналий 2) фильмов 3) связок фильм и персон. Выглядет все достаточно тривиально.

Что касается моей схемы БД. То там следует сделать важное уточнение: следует разнести данные о фильме как о таковом, и данные об файлах (.avi), т.к. есть многосерийные фильмы...

ArjLover · #52 02.04.2008, 02:19

Грабер нашего кино я и сам за два часа напишу. в одну таблицу. а вот кто напишет интеллектуальный парсер для раскладки по 17 таблицам я даже не представляю. месяц работы и вечные глюки.

konst5 · #53 02.04.2008, 03:23

Цитата:

Сообщение от ArjLover

Грабер нашего кино я и сам за два часа напишу. в одну таблицу. а вот кто напишет интеллектуальный парсер для раскладки по 17 таблицам я даже не представляю. месяц работы и вечные глюки.

Ужо написал.... Конечно много подводных камушков есть. Да на нашем_кино далеко не все фильмы, оказывается, описаны...

Обработал 50 фильмов за 15 сек. Результат - в текстовых файлах. Могу поделиться

. Скажите куда архивчик скинуть...

Нашел как прикрепить файлик...
Кодировка - koi8-r
В архиве Каталог FILMS/, где есть README (описание краткое)

AlexeyPetrov · #54 02.04.2008, 12:36

konst5, полезно будет выложить и сам скрипт, которым ты странички с nashekino разбирал.

Кстати, поиск с использованием полнотекстового индекса в MySQL делается не через LIKE, а функцией MATCH. Подробности тут: http://www.mysql.ru/docs/man/Fulltext_Search.html

tuder · #55 02.04.2008, 12:39

Предалагаю для примера посмотреть большую коллекцию фильмов.
Структуру каталога и описаний.

http://media.academ.info/media_page.php?section=video

Все пользователи очень хвалят удобство. В отличии, скажем, вот от такого: http://www.cn.ru/films/

Первый портал буквально с этого месяца перевёл отдачу ресурсов через p2p, до этого было http|smb|ftp

Dimon_ · #56 02.04.2008, 12:54

Цитата:

Сообщение от tuder

http://media.academ.info/media_page.php?section=video

403 Forbidden

AlexeyPetrov · #57 02.04.2008, 13:08

Цитата:

Сообщение от tuder

Предалагаю для примера посмотреть большую коллекцию фильмов.
Структуру каталога и описаний.

http://media.academ.info/media_page.php?section=video

Все пользователи очень хвалят удобство. В отличии, скажем, вот от такого: http://www.cn.ru/films/

Первый портал буквально с этого месяца перевёл отдачу ресурсов через p2p, до этого было http|smb|ftp

Сайт http://media.academ.info видел - каталог действительно удобный, но доступен он только из локальной сети новосибирского Академгородка (провайдер Academ.org). Раздача в P2P там на основе хаба DC++ - тоже только в локальной сети.

konst5 · #58 02.04.2008, 14:16

Цитата:

Сообщение от AlexeyPetrov

konst5, полезно будет выложить и сам скрипт, которым ты странички с nashekino разбирал.

НЕ ЗА ЧТО!!! Мне будет слишком стыдно... Я я его писал в спешке, желая достигнуть нужного рез-та. Т.е. он просто нечитаем для посторонних

Желательно было бы получить отзывы о том, что я вывел... Какие поля еще следует добавить?... Как лучше расположить для дальнейшей обработки? Я, напр., уже заметил, что забыл включить поле SIZE_of_file, хотя в скрипте он заложен. А также попробую выудить ГОД ВЫПУСКА из наше_кино...

Потом напущу скрипт на на все фильмы из листинга - и рез-т выложу (правда здесь есть ограничения на размер архива)

Цитата:

Сообщение от AlexeyPetrov

Кстати, поиск с использованием полнотекстового индекса в MySQL делается не через LIKE, а функцией MATCH. Подробности тут: http://www.mysql.ru/docs/man/Fulltext_Search.html

До чего дошел прогресс

.
А для postgres нечто подобное есть? Больно уж крутая фича... Просто не верится, что она работает безпроблемно...

AlexeyPetrov · #59 02.04.2008, 14:40

Просто желательно, чтобы все парсеры были на самом сайте - тогда можно будет использовать их не только для начальной обработки уже имеющихся фильмов, но и при добавлении новых в будущем.

Цитата:

Сообщение от konst5

До чего дошел прогресс .
А для postgres нечто подобное есть? Больно уж крутая фича... Просто не верится, что она работает безпроблемно...

В PostgreSQL, начиная с версии 8.3, встроена библиотека полнотекстового поиска TSearch. До этого библиотека 7 лет разрабатывалась двумя энтузиастами из России: Олегом Бартуновым и Теодором Сыгаевым.

Описание тут: http://www.postgresql.org/docs/8.3/s...extsearch.html

Также есть универсальная библиотека полнотекстового поиска для MySQL и PostgreSQL под названием Sphinx (от ещё одного русского разработчика: Андрея Аксёнова). Там вроде даже морфология русского языка учитывается в запросах.

http://www.opennet.ru/prog/info/3168.shtml

ArjLover · #60 02.04.2008, 17:30

Цитата:

Сообщение от konst5

А для postgres нечто подобное есть?

Постгресс давно этим хвастается, он вообще по фичам сильно впереди мускуля.

AlexeyPetrov, а ты я смотрю тоже сильно в теме.

Какой сайт парсить - это пусть ведущие выскажутся, в первую очередь Masok.

Здесь присутствуют: 1 (пользователей: 0 , гостей: 1)