Заметки им.Ibice: Июньские обновления словаря

Июньские обновления словаря

Некоторые думают уже, что мы и забыли о том, что у нас есть словарь, но мы-то не забыли. Улыбка

В последнее время пополнением базы данных мы занимались достаточно вяло, что объяснялось большим количеством работы по другим проектам, но теперь, когда новую версию ядра IWE мы уже выпустили, можно, наконец, и другим проектам уделить внимание.

Объем словаря уже приближается к тридцати тысячам слов, поэтому мы решили немножко обновить и сам скрипт, так как с момента последней ревизии нагрузка на него увеличилась, да и функции несколько изменились. Меня всегда раздражало наличие в выдаче одинаковых слов. Нет, я говорю не о словах-дубликатах ― они сейчас встречаются очень редко благодаря автоматической системе модерации, которая уже, наверное, почти все дубликаты обнаружила и уничтожила. Я говорю о тех случаях, когда, к примеру, запрашивается слово на русском языке, которое в армянском имеет несколько соответствий. В таком случае в каждой строке будет указываться слово на армянском и (то же самое) слово на русском. Сегодня мы это дело устранили ― если слово в первой строке равно слову во второй, то вместо слова во второй строке будет отображаться прочерк, при наведении на него курсора будет всплывать сообщение с пояснением о том, что данное слово уже указывалось несколько выше на странице выдачи. По-моему неплохо, но пока не могу определиться, нравится мне это обновление или нет.

Следующее обновление касается, скорее, технической части, и большинство пользователей с ним скорее всего никогда не столкнутся. Иногда сайт посещают весьма надоедливые спам-боты, которые по какой-то непонятной причине воспринимают поисковую форму словаря как форму комментирования и начинают, как им кажется, слать комментарии. Некоторые успокаиваются после десятка, некоторые же продолжают до тех пор, пока не попадают под лимит активности. Мы решили ввести для словаря свой лимит активности, по достижению которого поисковая форма перестанет работать. По нашим данным, этого лимита достигли бы лишь 2,5% от всех посетителей за 2012-ый год, поэтому обычным пользователям совершенно нет смысла ожидать необоснованной блокировки.

Кроме того, некоторые сайтовладельцы не находят иного способа пополнять базы данных своих словарей, кроме как запускать своих ботов на нашем сайте. Если бы мы работали таким образом, то, наверное, сейчас наша база бы насчитывала 200+ тысяч слов, однако мы еще пока не опустились до этого уровня, в отличие от некоторых. Такие боты в основном злоупотребляют функцией поиска «Слова, начинающиеся с»:
հիմնակ*, հիմնահ*, հիմնաձ*...
Больше злоупотреблять не будут: эту функцию мы отключили. Надеюсь, что это не понизит качество обслуживания обычных посетителей. Не исключаю также, что мы снова включим функцию поиска похожих слов когда (и если) в нашем отделе разработки придумают новые и более извращенные меры пресечения. Улыбка

19.06.2012, 19:13

проекты, словарь, обновление.

Случайное фото

Основные темы

Действия

Счетчики

Подписка по email

Июньские обновления словаря