Помощ при програмиране, отговори на въпроси / Питон / Как да групирате (или групирате) данните от CSV файл? - python, list, csv, cluster-computing

Как да се групират (или групират) данните от CSV файл? - python, списък, csv, cluster-computing

В CSV имам набор от три колони,

A,B,10
A,C,15
A,D,21
B,A,10
B,C,20

Искам да групирам или групирам A, B, C, D двойки, базирани натретата колона. Условието е нарастването на 10. 0-10 един клъстер, 11-20 друг клъстер и така нататък. Всеки клъстер ще съдържа двойки от A, B, C, D. По принцип, ако третата колона е между 0 - 10, двойката ще отиде в първия клъстер. А, В има 10 в трета колона, така че те отиват в първия клъстер. Очаквам да е 10-15 клъстера.

Ето как открих CSV:

fileread = open("/data/dataset.csv", "rU")
readcsv = csv.reader(fileread, delimiter=",")

L = list(readcsv)

Създадох набор:

set(item[2] for item in L if (item[0]=="A" and item[1] == "B" and item[2] <= 10)

Основният ми въпрос тук е как да проверя третата колона и да съхраняваш двойките в клъстер?

Отговори:

2 за отговор № 1

Какво ще кажете за това: Завъртете данните и определете групите, като делите третия елемент на 10.

import csv
with open("data.txt") as f:
groups = {}
for item in list(csv.reader(f, delimiter=",")):
n = int(item[2]) // 10
group = "%d-%d" % (n*10, n*10+9)
groups.setdefault(group, []).append(item[:2])

Използване на данните ви, groups завършва така:

{"20-29": [["A", "D"], ["B", "C"]],
"10-19": [["A", "B"], ["A", "C"], ["B", "A"]]}

Речниците са неподредени, така че ако искатеда ги отпечатате в подреден ред, за да сортирате ключовете. Това е малко трудно, тъй като те са низове и ще бъдат подредени лексикографски. Но можете да направите това:

for k in sorted(groups, key=lambda k: int(k.split("-")[0])):
print k, groups[k]

(или използвайте само по-малкия номер като ключ на първо място)

Свързани въпроси

Дали дискът на Кворум ще повлияе на работещия клъстер и клъстера IP? - sql-сървър

Акка клъстерът не се стартира, когато се използват ръчно свързване - скала, клъстерно-изчислителна, акака, ака-клъстер

избирането на конкретен клъстер и открояването на данни в r - r

R: Направих анализ на клъстера - как да добавя класификацията на групи към първоначалните ми данни? - r, анализ на клъстерите

Cluster Failover - redis, cluster-computing, failover

Как да използвате различен маркер за различна точка в разсейване парцел pylab - python, matplotlib

Определяне на размера на клъстера след Kmeans в Python - питън, машинно обучение, клъстерно изчисление, анализ на данни

Добавяне на елемент към речника вътре в речника [дубликат] - python, python-2.7, речник

Datastax cassandra-driver (python) не успя да внесе - python, cassandra, datastax

Как да обединим два информационни рамки в Spark Hadoop без общ ключ? - питън, хаоп, апаш-искра, искряща рамка за данни, паркет

Създайте клъстер за работна група "Failover" на EC2 - powershell, amazon-web-services, amazon-ec2, dns, failover

Windows Failover Cluster не е онлайн по време на създаването на SQL Always On Availability Group - powershell, azure, failovercluster

Как Касандра обработва част от дешифрирането на клъстерите? - nosql, касандра, клъстър-компютри

Възможно ли е за К Средния клъстер да няма член? - k-средства, центрофуги

Статична променлива в пролетната сесия на боб на клъстер - ява, пролет, сесия, статично, клъстерно изчисление

Как да свържете Mac към

Използване на протокола за клюки в управлението на клъстера Erlang - erlang, протоколи, клъстерно-изчислителни, клюки

домейн рамка рамка и MySQL клъстер - C #, MySQL, рамка на предприятието, клъстер-изчисляване

Каква е разликата между клъстера и инстанцията в AWS Aurora RDS - amazon-web-services, cluster-computing, amazon-rds, amazon-rds-aurora

Възможно ли е да се групират данните в 100% дясни групи, като се използват k-средства? - алгоритъм, k-средства