Помощ при програмиране, отговори на въпроси / Math / Изчисляване на точния брой битове в филтър за разцвет - математика, цъфтеж-филтър

Изчисляване на точния брой битове в филтър за разцвет - математически, цъфтящ филтър

Опитвам се да направя конфигурируем цъфтящ филтър.В конструктора сте задали прогнозния необходим капацитет на филтъра (n), желаната степен на грешка (p) и списък на хеш функции (с размер k).

Според Уикипедия, има следната връзка (m като броят на бита):

p = (1 - k * n / m) ** k

Откакто получих p, n и k като параметри, трябва да се реши за m; Получавам следното:

m = k * n / (1 - p ** (1 / k))

Има обаче няколко неща, които ме карат да мисля, че съм направил нещо нередно. За начало, p ** (1 / k) ще се насочи към 1 за достатъчно голям k, което означава, че цялата фракция е неправилно дефинирана (защото може да се раздели с нея 0).

Друго нещо, което може да забележите, е, че p (разрешеният максимален процент на грешки) нараства, както го прави m, което е напълно обратно.

Къде сгреших?

Отговори:

4 за отговор № 1

Управихте правилно уравнението, но имайте предвид, че Уикипедия гласи:

The probability of all of them being 1, which would cause
the algorithm to erroneously claim that the element is in
the set, is often given as:

p ~= (1 - (1 - 1 / m) ** (k * n)) ** k ~= (1 - Exp(-k * n / m)) ** k

Това е много различно от това, което казахте:

p = (1 - k * n / m) ** k

И така, с какво наистина искате да започнете е

p = (1 - (1 - 1 / m) ** (k * n)) ** k

Работих за това

(1 - 1 / m) ** (k * n) = 1 - p ** (1 / k)
1 - 1 / m = (1 - p ** (1 / k)) ** (1 / (k * n))
m - 1 = m * (1 - p ** (1 / k)) ** (1 / (k * n))
m - m * (1 - p ** (1 / k)) ** (1 / (k * n)) = 1
m * (1 - (1 - p ** (1 / k)) ** (1 / (k * n))) = 1
m = 1 / (1 - (1 - p ** (1 / k)) ** (1 / (k * n)))

Свързани въпроси

Тестване на непредсказуеми функции - тестване, вероятност, цъфтеж-филтър

Най-ефективният метод за търсене на низове - низ, търсене

Бърз начин да намерите реда, свързан с даден Guid в много SQL бази данни и таблици - sql, database, sql-server-2008, структури от данни, bloom-filter

Как да оптимизираме SQL заявки за BINARY (N)? - sql, sql-сървър, оптимизация

не-повтарящи се произволни числа - случайни, разбъркани, цъфтящи филтри, не-повтарящи се

как да конвертирате c писмен код в Python [затворен] - python, c, bittorrent

Как изчислявате ефективността на кардиналността на много големи файлове с данни в Python? - python, оптимизация, memcached, набор, cardinality

Защо филтърът за цветя на Гуава се изпълнява толкова зле? - java, хеш, гуава, цъфтящ филтър

Уеб робот, който съхранява посетени URL адреси в файл - java, алгоритъм, структури от данни, уеб робот

Изпълнение на Bloom Filter - Java, алгоритъм, структури от данни, пространство-сложност, цъфтеж-филтър

Ефективност на филтърните заявки в HBase? - хауоп, hbase

Възможно ли е да се изхвърлят входящите пакети въз основа на (динамично променящ се набор от) IP адреси (адреси) на Linux от C / C ++ код? - C ++, Linux, работа в мрежа

Дали nodetool за касандра събира данни само за един възел или за целия клъстер? - Касандра

Бързо откриване, ако има 2 или повече равни числа - масиви, алгоритъм, език-агностик, hashmap, двоично-търсене-дърво

Алгоритми за търсене в подразделяне (много голям сенокопат, малка игла) - алгоритъм, език-агностик, подначертание

Блум филтър или кукувица хеширане? - алгоритъм, хеш, филтър

компактна структура на данните като комплект - алгоритъм, език-агностик, структури от данни, цветен филтър

Алгоритъм за проверка дали набор А е подмножество от серия В по-бързо от линейно време - алгоритъм, набор, подмножество

Намерете общи елементи в две големи данни, настроени в разумен срок - алгоритъм, apache-spark, bigdata

Колко хеш функции изисква филтърът ми за разцвет? - алгоритъм, филтър, цъфтят