Очередной юбилей словаря, 40 000 слов


Вот у нас сегодня и произошло то, чего мы ожидали начиная с января текущего года. Хотя еще в начале года, когда стало известно о возобновлении финансирования наполнения нашего онлайн-словаря, было понятно, что достижение очередного круглого числа на счетчике объема словаря ― это всего-лишь вопрос времени. Изначально по нашему плану такого объема словарь должен был достичь только в октябре, но благодаря работе модераторов «ОргИбице» нам удалось наполнить базу данных несколько быстрее. Уж не знаю, хотелось модераторам побольше поработать или просто побыстрее закончить и дольше гулять, но факт есть факт: в некоторые дни за прошедшие две недели добавлялось более пяти сотен новых слов, хотя прежде у нас был более скромный суточный рекорд ― около трехсот.

Откуда берутся такие показатели? Мы могли бы, конечно же, как и наши конкуренты по поисковой выдаче, взять да и отсканировать страницы печатного словаря, после чего распознать их какой-то там компьютерной программой и пачками вносить в базу данных, однако, как показывает практика, это совершенно неверный способ, хотя и достаточно быстрый. Дело в том, что у наших конкурентов поиска как такового нет. Словарные статьи выводятся списками по букве либо буквосочетанию (то есть, поиск только по нескольким первым буквам, а все остальное ― списком). Мы же используем в своей работе программное обеспечение IWE: Dictionary, которое имеет достаточно гибкие механизмы поиска (которые, что правда, мы предоставляем только коммерческим клиентам по причине излишнего расходования ресурсов сервера при большом количестве запросов, хотя изначально мы планировали предоставлять эти функции всем желающим не требуя при этом даже какой-то там регистрации на сайте). Механизм поиска в свою очередь предъявляет конкретные требования к формату записи в базу данных, так как в случае отклонения от единого стандарта поиск по всему словарю перестанет работать корректно. Когда-то мы уже с таким сталкивались: стажер перепутал поля и внес русские слова в поле для армянских. В результате такой ошибки поиск по словарю не работал до тех пор, пока мы не разобрались, в чем же заключалась проблема. Массовое сканирование словарных статей из печатного издания ― это неуместная для нас идея только лишь потому, что в словаре слова сгруппированы. К примеру, из того, что я видел лично: «испачкать, измазать, измазывать нефтью». Автоматическое программное обеспечение в данном случае будет производить разбиение строки по запятой, но это совершенно неверно, так как к отрезанному слову будет необходимо добавить «нефть», ибо в противном случае статья потеряет какой-либо смысл и будет достойна только удаления из базы. Именно поэтому мы применяем только дорогостоящую ручную обработку, ведь живой модератор, в отличие от робота, сразу поймет, что без слова «нефть» это словосочетание не имеет никакого смысла.

Кроме того, я бы добавил к минусам автоматического распознания еще и ошибки. Посмотрите в словарях-конкурентах ― там благодаря автоматическому распознанию время от времени в армянских словах проскакивают кириллические, латинские и специальные символы, но и в чисто армянском слове программа может сделать ошибку, так как в армянском языке есть достаточно много похожих внешне букв, которые, впрочем, при замене могут поменять смысл слова либо привести к его нечитаемости. В итоге, пользователи могут переводить свои тексты при помощи высококачественного средства, которое предоставляется совершенно бесплатно (ближайший конкурент с ручным наполнением свои услуги предоставляет исключительно на основании месячной подписки). Есть, конечно, определенные ограничения, но мы были вынуждены ввести их в связи с тем, что некоторые конкуренты-тунеядцы решили просто скопировать нашу базу вместо того, чтобы приобрести на книжном рынке словарь и переписать слова ручками. В ответ на такие действия нам пришлось ввести среднесуточные лимиты на количество запросов для пользователей и сетей. Последний лимит нам пришлось ввести после того, как наш сайт посетил хитрый робот, который после достижения своего лимита перезагружал модем и получал другой IP-адрес с которым беспрепятственно продолжал сканирование. Теперь в таком случае блокироваться будет вся сеть, адреса из которой присваиваются нечестным пользователям. Пока это, конечно, достаточно жесткий вариант, так как блокируется доступ полностью к сайту, в результате чего другие честные абоненты также не получают доступа к ресурсам. В честь достижения словарем сорокатысячной отметки мы подписали в разработку специальный компонент, который будет блокировать только доступ к словарю и отключать функции поиска, что поможет не перекрывать доступ сразу всем.

Под самый конец заметки отмечу, что у словаря есть также еще и коммерческие аккаунты, которые в данный момент продаются неактивно, но в ближайшее время мы постараемся доработать программное обеспечение и сделать его настолько удобным, что на него захочется оформить подписку. На сегодняшний день пользователям, имеющим коммерческие аккаунты словаря, доступны следующие дополнительные услуги:
• Вывод всех результатов поиска по словарю с постраничным разбиением (для бесплатной версии выводится только первые пятнадцать статей),
• Множество параметров поиска. Вы можете ввести начало слова, его окончание либо искать слово, содержащее в себе определенный порядок буков (в бесплатной версии доступен только поиск по 100% совпадению с поисковым запросом),
• В экспериментальном режиме работает система оценки перевода, благодаря которой в верху списка выводятся те слова, перевод которых оценен другими пользователями как более правильный и уместный (в бесплатной версии недоступно),
• Доступна функция создания собственного словаря. Проще говоря, это такие себе закладки на слова, дабы потом не потерять их перевод (в бесплатной версии недоступно),
• Количество запросов не ограничивается (в бесплатной версии действует система лимитов активности),
• За добавление новых слов, принятых модератором, начисляются бонусные очки, которые по окончанию подписки можно будет использовать для частичной оплаты ее продления (в бесплатной версии недоступно).

Я надеюсь, что вышеописанные функции коммерческой версии словаря Вас заинтересовали. В скором времени мы постараемся сделать более доступной информацию о преимуществах коммерческой версии, а также о ее стоимости и способах оформления подписки.


08.09.2013, 23:04
  словарь, юбилей, наполнение.
Просмотров: 4962.
2