Archive for the 'tekst' Category

Levenshtein and Distance Between Strings in 3D

Working on the strings distances, or text metrics, I found out the Levenshtein method insufficient. For less-than-similar strings it doesn’t help at all, giving numbers close to max possible, and for similar strings it does not consider the quality of different letters. Generally speaking, I find Janet1 closer to Janet2 than to Janet9. Or ABC closer to BBC than to NBC. The notion of number of operations in Lev method didn’t quite suit me either. Thinking of operations needed to create one string of the other, I’d rather take the count of smartest possible copy&paste moves. In other words, how many times I have to cut one string to make the other of the slices. That would be distance in first dimension. The other – distance between letters replacing each other: when abc becomes bbc, it’s a-b replacement, and distance from a to b is 1. The distance depends on the alphabet used. For some cases it’s more useful to use a keyboard-layout order of characters instead of usual alphabetic, in order to emphasise similarities based on easy typed sequences, like asdf or qwerty. Here’s some Flash demo, calculator and benchmark to compare performance of Levenshtein and my method.

3d position of the words

it depends on their similarity to the word you input
Sorry, either Adobe flash is not installed or you do not have it enabled


Similarity calculator

gives the original Levenshtein and the distance3d figures

Sorry, either Adobe flash is not installed or you do not have it enabled


Benchmarking

Levenshtein is rather quadratic, while distance3d seems more like linear, though the
difference shows up for words longer than 15 characters.

Sorry, either Adobe flash is not installed or you do not have it enabled


o chamstwie

A to się przetoczyło, przez blogi, przez blipy, przez wykopy, przez TVNy. Dyskusja na temat niezbyt nowy, ale ostatnio gorący (odgrzewany?): chamstwo w Sieci.

Przemyślawszy, wzniósłszy się nieco ponad przypadki partykularne (Świeniewicz, Kaczyński, ta czy inna celebryta), ułożyłem to sobie w kilka punktów:

  • Anonimowość
    To za długo nie potrwa. W tej chwili jest pozorna, a będzie jej coraz mniej i wszędzie tam, gdzie znajdziemy coś interesującego będziemy zmuszeni odsłonić tożsamość. Jeśli zaś pozostaną oazy nieidentyfikacji, to najpewniej będą albo moderowane przez zamieszkujące je społeczności, albo pogrążone w chaosie i wrzasku, nudne, a co za tym idzie, krótkożywe. Na potrzeby nieujawniania danych osobowych będziemy pewnie używać kilku tożsamości elektronicznych, jak kataryna czy kretynofil. Obie te postaci to efekt jakiejś pracy włożonej w kreację. Ich charakterystyka nie jest pewnie odbiciem normalnego zachowania ich właścicieli, pozostaje czymś w rodzaju roli, tak jak prezenter w TV czy komentator sportowy.
  • Relacja autorytet — publiczność
    Wydaje mi się, że dawno zapomniany model uprawiania polityki przez rozmowy wraca właśnie w wielkim stylu. Aby przekonać do siebie ludzi, czy to wyborców, czy czytelników, trzeba będzie ich przekonać bezpośrednio. Ci autoryteci, którzy nie obrażą się na puszczanie bąków i wulgarne komentarze a będą mieli dość samozaparcia i argumentów, wygrają. Może to oznaczać, niestety, rządy chamstwa, ale dopiero wtedy, gdy a) wybory będą bezpośrednie, b) będzie w nich uczestniczyć podatne na demagogię pospólstwo. Oba te warunki raczej nie są jeszcze spełnione.

    Problem (jak z Dorotą Świeniewicz) jest wtedy, gdy trafia na osobę nieprzygotowaną do zderzenia z całą skalą ludzkich reakcji. Żeby trafić do poranka TVN wystarczy przebiec kawałek od bramki do sceny na koncercie, a wtedy już jest pozamiatane. Ktoś polubi, ktoś inny nazwie szmatą, a wszystko w 15 minut po programie. Ale zastanówmy się, czy opinia tysiąca anonimowych ludzi powinna przeważać nad tą od trenerów, fachowców, koleżanek z zespołu? Jeśli przeważyła, trudno, widać do nowych mediów musimy dorosnąć. W końcu to my sami.

  • Jakość publikowanych treści
    Tu mam kłopot. Czy wulgaryzmy i ostry język wykluczają merytoryczną wypowiedź? Być może utrudniają dyskusję. Skłaniałbym się jednak do poglądu, że ważniejsza od formy jest treść. Agresja pozostaje problemem, obojętne czy w krawacie, czy w podkoszulku. Klient w krawacie bywa już bardziej awanturujący się, a kamera spokojnie pokaże go przed 23. Wolę więc, żeby na antenie czy wizji pojawiły się wszelkie słownikowe i niesłownikowe formy, a odbiorcom pozostawiono wybór. Kiedy bowiem ktoś za mnie wybiera coś ładne z kształtu, a parszywe w duszy, to na klawiaturę i usta cisną mi się przysłownikowe kurwy. No i nie wiem, czy to dobrze, że nikt z nich (wydawców, dziennikarzy, polityków, wszystkich innych polskich decydentów) ich (kurew, znaczy) nigdy nie poznał.

    Ochrona tzw. najmłodszych przed tzw. szkodliwymi treściami jest przecież dość złudna. Tu sąsiad rzuci mięsem, tam ziom z podwórka puści wiąchę… To, że media nie będą używać języka potocznego powinno być wyłącznie wyborem twórców publikujących w tych mediach. Jeśli prof. Staniszkis zechce sypnąć wiązankę, uznam to za wzbogacenie środków artystycznych, nie za upadek. Jeśli zrobi to Lepper, nie uznam tego za wzlot twórczy. Nie wartościuję tych postaci na podstawie używania lub nie pewnych wyrazów. Oczywiście jest różnica w używanym przez nie języku, ale to raczej efekt niż przyczyna. Tamowanie potoczności językowych w medium jest leczeniem objawowym, niczym więcej. Nietamowanie zaś w żadnym wypadku nie zmusi Żakowskiego, Najsztuba czy Kolendy-Zaleskiej do chóralnej grypsery w ich mediach.

spot PO spotem PiS?

Polityka polska bywa ciekawa. Rzadko uważam ruchy medialno-marketingowe poszczególnych partii za jakoś szczególnie błyskotliwe, owszem lubię nastawienie do świata i ludzi prezentowane przez PO, uwielbiam happeningi Palikota, ale dziś dla odmiany bardzo pozytywnie zaskoczył mnie team Kurski-Kamiński. Mają się onie zwrócić do p. Dolniaka, szefa sztabu PO, o pozwolenie na wykorzystanie całego spotu PO z poprzednich wyborów jako reklamy wyborczej PiS. Przedstawienie obietnic PO w charakterze pokerowego ‘sprawdzam’ uznaję za dobry, odważny i fajny ruch. Nie ma w nim zwykłej zjadliwości, przynajmniej w warstwie bezpośredniego komunikatu. Domyślam się oczywiście, że czai się tam syczące, nawet mimo braku odpowiednich spółgłosek, “a nie mówiłem?”, ale jest przestrzeń do własnej interpretacji, a to już oznacza pewien szacunek dla samodzielnego rozumu odbiorcy.

Odpowiedź p. Dolniaka, złapanego przez Brygidę Grysiak z TVN24 w Sejmie, była zachowawcza i bez humoru. Moim zdaniem, jedyna prawidłowa odpowiedź to “tak, oczywiście”… Gdyby z kolei Platforma zgłosiła dla tzw. fair play spot PiS z wyborów przez PiS wygranych, byłaby to nieco paranoiczna, ale przynajmniej oryginalna, kampania wyborcza. Jedni i drudzy mieli podobny czas do dyspozycji.

Natomiast zaprezentowany przez PO spot jest… tani. Dobrze przynajmniej, że trzyma pozytywny klimat i nikogo nie atakuje. Koncepcyjnie, realizacyjnie — tani. Ale tak obiecali…

Next Page »