/ / Is Approximate String Matching / Fuzzy String Searching е възможно с BigQuery? - google-bigquery

Приблизително ли е съвпадение на струнните / размити стрингове с BigQuery? - google-bigquery

Благодарение на Google за доставката на BigQuery, това е страхотно!
Приблизително ли е съвпадение на струнните / размити стрингове с BigQuery?
Дали Google планира да добави тази функционалност към BigQuery?

Със сигурност собствеността на Google приблизителна струннаАлгоритъмът за съвпадение може да се използва за доставяне на тази способност на BigQuery, като същевременно запазва интелектуалната собственост на Google. Търсихме цялата документация за BigQuery и въпросите за Overflow на стека. Разбира се има много алгоритми за това, макар да се интегрира с BigQuery?

Необходимостта ни е проста, да сравняваме две струни, които ще бъдат почти същите, макар че могат да бъдат малко по-различни. Например:

"Rhodes USA" vs. "Rhodes USA, LLC", vs. "Rhodes USA LLC".

От нашите тестове BigQuery се появяват две струнитрябва да се съчетаят точно за BigQuery, за да се присъединят към тях, дори и до броя на крайните интервали във всеки низ. Добавянето на тази функционалност или насоки за интеграция с BigQuery ще бъде много ценена. Това е в подкрепа на "Милуоки Джетс", регионална, новаторска компания с частична собственост в Милуоки, САЩ. Благодарим отново на Google за доставката на BigQuery.

Благодаря ви много и най-добре, Андрю Паулин (414) 212-5372

Отговори:

5 за отговор № 1

За съжаление, приблизителното съвпадение на низовете не е такаподдържа. Най-близкото, което можете да получите, е чрез използване на регулярни изрази. Вашият най-добър залог е да нормализирате данните преди да стигнете до BigQuery - т.е. да превърнете "Родос САЩ" и "Родос, САЩ" в същия низ. Ще добавя бъг за заявка за функция за тази поддръжка, обаче.