Pomoc w programowaniu, odpowiedzi na pytania / Rubin / Ruby i Mongodb z odwróconym indeksem dają zabawne wyniki - ruby, regex, mongodb, hash

Ruby i Mongodb z odwróconym indeksem wywołują zabawne wyniki - ruby, regex, mongodb, hash

W moim programie tworzę odwrócony indeks, używając danych z kanału Twittera, jednak podczas analizowania i umieszczania ich w mongodb pojawiają się zabawne problemy.

Typowy typ wpisu powinien wyglądać następująco:

{"ax"=>1, "easyjet"=>1, "from"=>2}

Jednak podczas analizowania niektórych tweetów trafiają one do bazy danych w następujący sposób:

{""=>{""=>{""=>{""=>{""=>{"giants"=>{"dhem"=>1, "giants"=>1, "giantss"=>1}}}}

Mam te wiersze, które dzielą tweeta i zwiększają wartości w bazie danych:

def pull_hash_tags(tweet, lang)
hash_tags = tweet.split.find_all { |word| /^#.+/.match word }
t = tweet.gsub(/https?://[S]+/,"") # removing urls
t = t.gsub(/#w+/,"") # removing hash tags
t = t.gsub(/[^0-9a-z ]/i, "") # removing non-alphanumerics and keeping spaces
t = t.gsub(/r/," ")
t = t.gsub(/n/," ")
hash_tags.each { |tag| add_to_hash(lang, tag, t) }
end

def add_to_hash(lang, tag, t)
t.gsub(/W+/, " ").split.each { |word| @db.collection.update({"_id" => lang}, {"$inc" => {"#{tag}.#{word}" => 1}}, { :upsert => true }) }
end

Próbuję uzyskać normalne słowa (zawierające tylko znaki alfanumeryczne) bez podwójnych spacji, bez powrotu karetki itp.

Odpowiedzi:

1 dla odpowiedzi № 1

Powinieneś dodać t.strip! jak się wydaje, problem może polegać na początkowych / końcowych odstępach.

Powiązane pytania

Ruby - Zdalne połączenie z Mongodb na EC2 - ruby, mongodb, amazon-ec2

Skąd znam rozmiar mojego dokumentu wewnątrz MongoDB ze sterownikiem ruby - ruby, mongodb

jak radzić sobie z monopodbowym kluczem E11000 duplikatu klucza w ruby - ruby, mongodb, obsłudze wyjątków, obsłudze błędów

Ruby Odzyskaj ostatnio wzniesiony dokument Mongo - ruby-on-rails, ruby, mongodb

wyślij e-mail po potwierdzeniu przez użytkownika [zamknięty] - ruby-on-rails, ruby, mongodb, html-email

Jak pracuję z mongodb w rubinach na szynach - ruby-on-rails, mongodb

Railsy niezdolne do połączenia mogolb mongolabu za pomocą wersji mongoid 4 - ruby-on-rails, mongodb

Nie można zainstalować Doorkeeper-MongoDB - ruby-on-rails, mongodb, odźwierny

Mnóstwo kursorów upuść / zamknij i poproś o "system.namespaces" z mongoidem - ruby-on-rails, ruby, mongodb, mongoid

Railsy i MongoDB: praca bez zalet i wad ORM? - ruby-on-rails, mongodb, mongoid, mongomapper

Jak zdobyć wersję MongoDB z kodu Ruby za pomocą Mongoid lub Mongo Ruby Driver? - ruby-on-rails, ruby, mongodb, mongoid

Jak mogę uzyskać liczbę kluczy skrótu, które pasują do tablicy w MongoDB? - ruby-on-rails, mongodb, mongoid

Ustawienia MongoDB: uprawnienia mongo.log są nieprawidłowe? - ruby-on-rails-3, mongodb, osx-mountain-lion

jak używać nin i regex w mongoDB - regex, spring, mongodb, subquery, notin

słownik python, przechowywany w mongodb, pobierany w rubinie na szynach - python, rubin, mongodb

Sterownik ruby MongoDB znajduje się na szczycie sterownika javascript? - mongodb

Dotyczące Mongodb i rubinu na szynach [zamknięte] - mongodb, ruby-on-rails-3.2

Czy Docker zastępuje pliki? - mongodb, doker

Zapytania MongoDB w Kibana - json, mongodb, elasticsearch, kibana

MongoDB Full-TextSearch C # Driver - c #, .net, mongodb, wyszukiwanie pełnotekstowe, mongodb-query