Algorithme de tourniquet exemple

La précision est souvent indiquée en tant qu`approximation (ε, δ) {displaystyle (epsilon, delta)}, ce qui signifie que l`algorithme atteint une erreur inférieure à ε {displaystyle epsilon} avec une probabilité de 1 − δ {displaystyle 1-delta}. Let ρ (y) {displaystyle rho (y)} représente la position du moins significatif 1-bit dans la représentation binaire de Yi avec une convention appropriée pour ρ (0) {displaystyle rho (0)}. Après toutes les valeurs de m de flux sont arrivés, t = M a x (h (a i)) {displaystyle upsilon = mathrm {Max} (h (a_ {i}))} est utilisé pour calculer F 0 ′ = t i {displaystyle F`_ {0} = {dfrac {t} {upsilon}}}. Le moment de fréquence KTH d`un ensemble de fréquences a {displaystyle mathbf {a}} est défini comme F k (a) = ∑ i = 1 n a i k {displaystyle f_ {k} (mathbf {a}) = sum _ {i = 1} ^ {n} a_ {i} ^ {k}}. Le premier algorithme pour cela a été proposé par Flajolet et Martin. Où ε est le paramètre d`approximation et δ est le paramètre de confiance. L`algorithme précédent calcule F 2 {displaystyle f_ {2}} dans l`ordre de O (n (log m + log n)) {displaystyle O ({sqrt {n}} (log m + log n))} bits de mémoire. Les algorithmes de semi-streaming ont été introduits dans 2005 comme une extension des algorithmes de diffusion en continu qui permet un nombre constant ou logarithmique de passes sur le DataSet [1]. Le deuxième moment F 2 {displaystyle f_ {2}} est utile pour calculer les propriétés statistiques des données, telles que le coefficient de variation de Gini.

Pour ce papier, les auteurs ont plus tard remporté le prix Gödel en 2005 “pour leur contribution fondamentale aux algorithmes de streaming. Plus formellement, fixer une certaine constante positive c > 1, laisser la longueur du ruisseau être m, et de laisser fi dénoter la fréquence de la valeur i dans le flux. À mesure que le flux progresse, les éléments de la fin de la fenêtre sont retirés de la considération tandis que les nouveaux éléments du flux prennent leur place. Mais ils ont fixé une limite t au nombre de valeurs dans l`espace de hachage. Un algorithme qui calcule une approximation (ε, δ) de FK, où F`k est la valeur (ε, δ)-approximée de FK. Il ya aussi des problèmes qui sont très dépendants de l`ordre du ruisseau (i. L`algorithme précédent décrit la première tentative d`approximation de F0 dans le flux de données par Flajolet et Martin. Cette approche peut être affinée en utilisant des moyennes mobiles pondérées exponentiellement et la variance pour la normalisation. Supposons que S1 soit de l`ordre O (n 1 − 1/k/λ 2) {displaystyle O (n ^ {1-1/k}/lambda ^ {2})} et S2 être de l`ordre O (log (1/ε)) {displaystyle O (log (1/ varepsilon))}. Pour cette classe de problèmes, il y a un vecteur a = (a 1,…, a n) {displaystyle mathbf {a} = (a_ {1}, dots, a_ {n})} (initialisé au zéro vecteur 0 {displaystyle mathbf {0}}) dont les mises à jour lui sont présentées dans un flux. Le nombre total de variables aléatoires X sera le S 1 ∗ S 2 {displaystyle s_ {1} * s_ {2}}. En 2010, D.

Laissez BITMAP [0. Une grande partie de la documentation en continu s`intéresse aux statistiques de calcul des distributions de fréquences trop volumineuses pour être stockées. LET A est la séquence de flux de données de longueur M dont la cardinalité doit être déterminée. Ainsi, pour calculer X, nous devons maintenir uniquement les bits de log (n) pour stocker les bits AP et log (n) pour stocker r. Robert Morris [10]. Le temps d`accès peut être réduit si nous stockons les valeurs de hachage t dans une arborescence binaire. Les limites inférieures ont été calculées pour de nombreux problèmes de diffusion de données qui ont été étudiés. Dans la plupart des modèles, ces algorithmes ont accès à une mémoire limitée (généralement logarithmique dans la taille et/ou la valeur maximale dans le flux).

Bar-Yossef et coll. Morris dans son article dit que si l`exigence de précision est supprimée, un compteur n peut être remplacé par un journal de compteur n qui peut être stocké dans log log n bits.