Архив Об архиве FAQ New BAN List Полезные ссылки Друзья архива Архив новостей
Архив by ArjLover   Архив by ArjLover
Мультики by ArjLover
Приёмная ArjLover-a
Перезагрузить страницу Заполнение базы по фильмам и мультикам
Регистрация СправкаПравила форума Поиск Сообщения за день Все разделы прочитаны Пользователи Календарь

Приёмная ArjLover-a Послания и пожелания по работе Архива

Ответ
 
Опции темы Опции просмотра
  #41  
Старый 01.04.2008, 15:41
Senior Member
 
Регистрация: 11.12.2006
Russian Federation
Пол: Male
Сообщений: 477
Digrol, вроде всё это уже обсудили.
Заполнять плоскую базу проще, нужна намного меньшая концентрация внимания да и просто быстрее это.
Издержки дублирования и поиска несущественны. По неструктурированным текстовым полям (актёры, режиссёры) - полнотекстовый поиск.

Я знаю пример кинобазы сделанной именно так и именно для облегчения труда админов. Баз работает много лет и всё не так уж страшно.
Как аннотации к файлам её хватает. Но и не более того.

Последний раз редактировалось troll, 01.04.2008 в 15:43.
Ответить с цитированием
  #42  
Старый 01.04.2008, 16:09
Супермодератор
 
Регистрация: 10.12.2006
Адрес: Russian Federation Москва
Пол: Male
Сообщений: 5,012
Я так понимаю, что ArjLover тогда уж сперва хочет услышать, какой интерфейс предлагают сторонники нормальной базы. Если при заполненнии карточки нужно будет выбирать актёров, режиссёров, и прочих элементов, из бесконечных выкидных меню, то на такое никто не согласится, естественно.

Ну например, возможен ли хотя бы такой вариант интерфейса — при вставке готовой строки, содержащей перечисление актёров, они все тут же искались с допусками в базе, и совпавшие помечались бы одним цветом, частично совпавшие другим, и отсутствующие третьим. При этом контекст у совпавших должен быть в виде фрагмента алфавитного списка с пометкой данной позиции, у частично — в виде набора попавших вариантов из того же списка, у отсутствующих — в виде фрагмента алфавитного списка с указанием предлагаемого места их вставки.
Ответить с цитированием
  #43  
Старый 01.04.2008, 16:20
Аватар для masok
Администратор
 
Регистрация: 26.11.2006
Адрес: Russian Federation Москва
Пол: Female
Сообщений: 22,811
Я так думаю - исключительно из общих соображений, ибо непрофессиональна:
Есть два способа структуировать хаос. Либо разложить все по очень мелким полкам, либо сделать хороший поиск по неразобранному или полуразобранному. Оба имеют преимущества и недостатки. Обоими с успехом пользуются.

Поэтому надо сделать так, как проще сделать. И погонять немного. Потому чуть подправить - и жить долго и счастливо.
Ответить с цитированием
  #44  
Старый 01.04.2008, 16:29
Member
 
Регистрация: 19.03.2008
Адрес: Russian Federation Москва
Пол: Male
Сообщений: 40
Цитата:
Сообщение от troll Посмотреть сообщение
Как аннотации к файлам её хватает. Но и не более того.
Я про то и говорю, зачем изобретать велосипед и делать так же или хуже, чем уже сделано?

Для аннотации - ссылка на внешний источник, сделанный ранее, ну для поиска, собственно, тоже внешние источники использовать, т.к. эта база не предназначена для поиска.

Вот простой вопрос - зачем нужна такая база? Для каких целей её будет удобно использовать?
__________________
Feci qoud potui, faciant meliora potentes.

Последний раз редактировалось Digrol, 01.04.2008 в 16:33.
Ответить с цитированием
  #45  
Старый 01.04.2008, 16:51
Senior Member
 
Регистрация: 11.12.2006
Russian Federation
Пол: Male
Сообщений: 477
Цитата:
Сообщение от Turtle Посмотреть сообщение
Ну например, возможен ли хотя бы такой вариант интерфейса — при вставке готовой строки, содержащей перечисление актёров, они все тут же искались с допусками в базе, и совпавшие помечались бы одним цветом, частично совпавшие другим, и отсутствующие третьим. При этом контекст у совпавших должен быть в виде фрагмента алфавитного списка с пометкой данной позиции, у частично — в виде набора попавших вариантов из того же списка, у отсутствующих — в виде фрагмента алфавитного списка с указанием предлагаемого места их вставки.
Возможен, но нужен не очень тривиальный скрипт.
И в любом случае это требует дополнительного времени и внимания при заполнении.


Цитата:
Вот простой вопрос - зачем нужна такая база? Для каких целей её будет удобно использовать?
- Что бы не зависеть от внешних сайтов, которые часто зависают, могут исчезнуть.
- Что бы иметь возможность ввести описание того, что на внешних сайтах отсутствует или описано одной строчкой.
- Да и просто удобно видеть описание вместе с параметрами файла, скриншотами и прочим.
Ответить с цитированием
  #46  
Старый 01.04.2008, 18:00
Аватар для ArjLover
Администратор
 
Регистрация: 25.11.2006
Адрес: Czech Republic Прага
Пол: Male
Сообщений: 2,886
Отправить сообщение для ArjLover с помощью ICQ
вы не забывайте что это файловый архив в "котором только качают".
ну щелкнешь на режиссера и увидишь 2 его фильма, когда всего их у него 25. ну и что дальше? чего ради? не хочу я тягаться с википедией. не хочу. все равно лучше не сделаем.
Ответить с цитированием
  #47  
Старый 01.04.2008, 19:07
Аватар для masok
Администратор
 
Регистрация: 26.11.2006
Адрес: Russian Federation Москва
Пол: Female
Сообщений: 22,811
Так, я окончательно запуталась в чужих речах . То говорят про полнотекстовый поиск, то про то, что нельзя будет искать фильмы по режиссеру. Объясните простыми словами, можно будет найти все фильмы 63-го года или все фильмы с Никулиным, или нет?
Ответить с цитированием
  #48  
Старый 01.04.2008, 19:28
Senior Member
 
Регистрация: 11.12.2006
Russian Federation
Пол: Male
Сообщений: 477
можно и то и другое
Ответить с цитированием
  #49  
Старый 01.04.2008, 19:48
Аватар для masok
Администратор
 
Регистрация: 26.11.2006
Адрес: Russian Federation Москва
Пол: Female
Сообщений: 22,811
Остальное без разницы. Спасибо, troll.
Ответить с цитированием
  #50  
Старый 01.04.2008, 20:05
Senior Member
 
Регистрация: 16.07.2007
Адрес: Russian Federation Kemerovo
Пол: Male
Сообщений: 315
Отправить сообщение для AlexeyPetrov с помощью ICQ
Я не согласен с konst5 в том, что полнотекстовый индекс (FULLTEXT) в MySQL по 5000 записей будет работать медленно. Я использовал его на базе в миллион записей, поисковые запросы обрабатывались за доли секунды. Индекс там строится так же, как Яндекс или Google индексируют веб-сайты: разбивает все строки на отдельные слова, поисковый запрос разбивает тоже на слова и ищет в индексе по каждому слову отдельно, затем соединяет результаты.

Но в целом согласен, что несколькими таблицами можно сделать более универсальную базу, которую в будущем можно крутить как угодно, и избежать разных обозначений одинаковых объектов уже на этапе ввода информации. Поэтому можно взять за основу БД вариант, предложенный konst5, если удастся хорошо автоматизировать процесс заполнения такой базы.

Варианты автоматизации:
1. При вводе любого поля срабатывает подсказка из ближайших значений, имеющихся в базе. Принцип тот же, как Google уже на этапе ввода запроса подсказывает другие популярные запросы, начинающиеся с введённых букв или слов. Скриптик можно вытащить прямо из кода главной страницы Google.
2. Текстовое поле, куда можно:
- скопировать любой текст
- указать разделитель между объектами
- выбрать, какие объекты перечислены в этом тексте (актёры, жанры и т.п.)
- нажать одну кнопку и получить формочку с заполненными полями по данным из этого текста.
Несовпадения с имеющимися значениями в базе сразу отмечаются. Там же можно быстро выбрать правильные значения из списка ближайших.
3. Для самых крупных сайтов, с которых будут браться данные по сотням фильмов/мультиков, написать парсеры веб-страничек. При заполнении базы человек вводит только ссылку на описание фильма, которое нужно разобрать - далее скрипт автоматически заполняет все поля, которые смог оттуда вытащить, предлагая человеку только подправить расхождения с имеющимися значениями (как в предыдущем пункте).

Пункты 1,2 делаются довольно просто средствами HTML и JavaScript. Для написания парсеров веб-страниц можно подключить добровольцев с форума.

Последний раз редактировалось AlexeyPetrov, 02.04.2008 в 13:39.
Ответить с цитированием
  #51  
Старый 01.04.2008, 23:29
Senior Member
 
Регистрация: 30.03.2008
Russian Federation
Пол: Male
Сообщений: 115
Цитата:
Сообщение от AlexeyPetrov Посмотреть сообщение
Я не согласен с konst5 в том, что полнотекстовый индекс (FULLTEXT) в MySQL по 5000 записей будет работать медленно. Я использовал его на базе в миллион записей, поисковые запросы обрабатывались за доли секунды. Индекс там строится так же, как Яндекс или Google индексируют веб-сайты: разбивает все строки на отдельные слова, поисковый запрос разбивает тоже на слова и ищет в индексе по каждому слову отдельно, затем соединяет результаты.
Все, конечно, может быть. Я лишь знаю, что запросы использующие 'LIKE' не могут использовать индексы (так в Oracle).

Цитата:
Сообщение от AlexeyPetrov Посмотреть сообщение
Но в целом согласен, что несколькими таблицами можно сделать более универсальную базу, которую в будущем можно крутить как угодно, и избежать разных обозначений одинаковых объектов уже на этапе ввода информации. Поэтому можно взять за основу БД вариант, предложенный konst5, если удастся хорошо автоматизировать процесс заполнения такой базы.
....

3. Для самых крупных сайтов, с которых будут браться данные по сотням фильмов/мультиков, написать парсеры веб-страничек. При заполнении базы человек вводит только ссылку на описание фильма, которое нужно разобрать - далее скрипт автоматически заполняет все поля, которые смог оттуда вытащить, предлагая человеку только подправить расхождения с имеющимися значениями (как в предыдущем пункте).
....
Для написания парсеров веб-страниц можно подключить добровольцев с форума.
Мне идея понравилась. В принципе, с помощью такого парсера можно автоматически заполнить БД. По-крайней мере, я загорелся идеей - вытаскивая данные с нашекино.ру по здешним ссылкам, - заполнить 1) табл. персоналий 2) фильмов 3) связок фильм и персон. Выглядет все достаточно тривиально.

Что касается моей схемы БД. То там следует сделать важное уточнение: следует разнести данные о фильме как о таковом, и данные об файлах (.avi), т.к. есть многосерийные фильмы...
Ответить с цитированием
  #52  
Старый 02.04.2008, 03:19
Аватар для ArjLover
Администратор
 
Регистрация: 25.11.2006
Адрес: Czech Republic Прага
Пол: Male
Сообщений: 2,886
Отправить сообщение для ArjLover с помощью ICQ
Грабер нашего кино я и сам за два часа напишу. в одну таблицу. а вот кто напишет интеллектуальный парсер для раскладки по 17 таблицам я даже не представляю. месяц работы и вечные глюки.
Ответить с цитированием
  #53  
Старый 02.04.2008, 04:23
Senior Member
 
Регистрация: 30.03.2008
Russian Federation
Пол: Male
Сообщений: 115
Цитата:
Сообщение от ArjLover Посмотреть сообщение
Грабер нашего кино я и сам за два часа напишу. в одну таблицу. а вот кто напишет интеллектуальный парсер для раскладки по 17 таблицам я даже не представляю. месяц работы и вечные глюки.
Ужо написал.... Конечно много подводных камушков есть. Да на нашем_кино далеко не все фильмы, оказывается, описаны...

Обработал 50 фильмов за 15 сек. Результат - в текстовых файлах. Могу поделиться . Скажите куда архивчик скинуть...

Нашел как прикрепить файлик...
Кодировка - koi8-r
В архиве Каталог FILMS/, где есть README (описание краткое)
Вложения
Тип файла: rar FILMS.rar (37.2 Кб, 8 просмотров)

Последний раз редактировалось konst5, 02.04.2008 в 04:48. Причина: добавил файл
Ответить с цитированием
  #54  
Старый 02.04.2008, 13:36
Senior Member
 
Регистрация: 16.07.2007
Адрес: Russian Federation Kemerovo
Пол: Male
Сообщений: 315
Отправить сообщение для AlexeyPetrov с помощью ICQ
konst5, полезно будет выложить и сам скрипт, которым ты странички с nashekino разбирал.

Кстати, поиск с использованием полнотекстового индекса в MySQL делается не через LIKE, а функцией MATCH. Подробности тут: http://www.mysql.ru/docs/man/Fulltext_Search.html

Последний раз редактировалось AlexeyPetrov, 02.04.2008 в 14:17.
Ответить с цитированием
  #55  
Старый 02.04.2008, 13:39
Junior Member
 
Регистрация: 13.07.2007
Russian Federation
Пол: Male
Сообщений: 3
Отправить сообщение для tuder с помощью ICQ
Предалагаю для примера посмотреть большую коллекцию фильмов.
Структуру каталога и описаний.

http://media.academ.info/media_page.php?section=video

Все пользователи очень хвалят удобство. В отличии, скажем, вот от такого: http://www.cn.ru/films/

Первый портал буквально с этого месяца перевёл отдачу ресурсов через p2p, до этого было http|smb|ftp
Ответить с цитированием
  #56  
Старый 02.04.2008, 13:54
Администратор
 
Регистрация: 11.10.2007
Адрес: Russian Federation Москва
Пол: Male
Сообщений: 6,459
Цитата:
Сообщение от tuder Посмотреть сообщение
403 Forbidden
Ответить с цитированием
  #57  
Старый 02.04.2008, 14:08
Senior Member
 
Регистрация: 16.07.2007
Адрес: Russian Federation Kemerovo
Пол: Male
Сообщений: 315
Отправить сообщение для AlexeyPetrov с помощью ICQ
Цитата:
Сообщение от tuder Посмотреть сообщение
Предалагаю для примера посмотреть большую коллекцию фильмов.
Структуру каталога и описаний.

http://media.academ.info/media_page.php?section=video

Все пользователи очень хвалят удобство. В отличии, скажем, вот от такого: http://www.cn.ru/films/

Первый портал буквально с этого месяца перевёл отдачу ресурсов через p2p, до этого было http|smb|ftp
Сайт http://media.academ.info видел - каталог действительно удобный, но доступен он только из локальной сети новосибирского Академгородка (провайдер Academ.org). Раздача в P2P там на основе хаба DC++ - тоже только в локальной сети.

Последний раз редактировалось AlexeyPetrov, 02.04.2008 в 14:20.
Ответить с цитированием
  #58  
Старый 02.04.2008, 15:16
Senior Member
 
Регистрация: 30.03.2008
Russian Federation
Пол: Male
Сообщений: 115
Цитата:
Сообщение от AlexeyPetrov Посмотреть сообщение
konst5, полезно будет выложить и сам скрипт, которым ты странички с nashekino разбирал.
НЕ ЗА ЧТО!!! Мне будет слишком стыдно... Я я его писал в спешке, желая достигнуть нужного рез-та. Т.е. он просто нечитаем для посторонних

Желательно было бы получить отзывы о том, что я вывел... Какие поля еще следует добавить?... Как лучше расположить для дальнейшей обработки? Я, напр., уже заметил, что забыл включить поле SIZE_of_file, хотя в скрипте он заложен. А также попробую выудить ГОД ВЫПУСКА из наше_кино...

Потом напущу скрипт на на все фильмы из листинга - и рез-т выложу (правда здесь есть ограничения на размер архива)

Цитата:
Сообщение от AlexeyPetrov Посмотреть сообщение
Кстати, поиск с использованием полнотекстового индекса в MySQL делается не через LIKE, а функцией MATCH. Подробности тут: http://www.mysql.ru/docs/man/Fulltext_Search.html
До чего дошел прогресс .
А для postgres нечто подобное есть? Больно уж крутая фича... Просто не верится, что она работает безпроблемно...
Ответить с цитированием
  #59  
Старый 02.04.2008, 15:40
Senior Member
 
Регистрация: 16.07.2007
Адрес: Russian Federation Kemerovo
Пол: Male
Сообщений: 315
Отправить сообщение для AlexeyPetrov с помощью ICQ
Просто желательно, чтобы все парсеры были на самом сайте - тогда можно будет использовать их не только для начальной обработки уже имеющихся фильмов, но и при добавлении новых в будущем.

Цитата:
Сообщение от konst5
До чего дошел прогресс .
А для postgres нечто подобное есть? Больно уж крутая фича... Просто не верится, что она работает безпроблемно...
В PostgreSQL, начиная с версии 8.3, встроена библиотека полнотекстового поиска TSearch. До этого библиотека 7 лет разрабатывалась двумя энтузиастами из России: Олегом Бартуновым и Теодором Сыгаевым.
Описание тут: http://www.postgresql.org/docs/8.3/s...extsearch.html

Также есть универсальная библиотека полнотекстового поиска для MySQL и PostgreSQL под названием Sphinx (от ещё одного русского разработчика: Андрея Аксёнова). Там вроде даже морфология русского языка учитывается в запросах.
http://www.opennet.ru/prog/info/3168.shtml

Последний раз редактировалось AlexeyPetrov, 02.04.2008 в 15:56.
Ответить с цитированием
  #60  
Старый 02.04.2008, 18:30
Аватар для ArjLover
Администратор
 
Регистрация: 25.11.2006
Адрес: Czech Republic Прага
Пол: Male
Сообщений: 2,886
Отправить сообщение для ArjLover с помощью ICQ
Цитата:
Сообщение от konst5
А для postgres нечто подобное есть?
Постгресс давно этим хвастается, он вообще по фичам сильно впереди мускуля.

AlexeyPetrov, а ты я смотрю тоже сильно в теме.

Какой сайт парсить - это пусть ведущие выскажутся, в первую очередь Masok.
Ответить с цитированием
Ответ


Здесь присутствуют: 1 (пользователей: 0 , гостей: 1)
 
Опции темы
Опции просмотра

Ваши права в разделе
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход


Часовой пояс GMT +3, время: 09:20.


vBulletin® Version 3.8.7.
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Перевод: zCarot