Spark Scala Regex -> Création de plusieurs colonnes en fonction regex

voix
0

Disons que j'ai un fichier texte avec des données comme par exemple ..

my sample data set kdf/dfjl/ looks like this

J'ai une expression régulière qui peut capturer tout cela en groupes. Les valeurs que je voudrais mettre dans mon colonnes seraient comme ça.

les valeurs désirées de groupes

Je voudrais chaque groupe pour devenir sa propre colonne dans un RDD

val pattern = (\S ) ([\S\s] )\ (\S ) (\S ) (\S ) (\S ).r

var myrdd = sc.textFile(my/data/set.txt)
myrdd.map(line => pattern.findAllIn(line))

J'ai essayé plusieurs méthodes différentes pour obtenir les résultats de la regex dans des colonnes différentes, comme toArray, toSeq, mais n'ont pas même se rapprocher encore.

Je suis au courant de la façon dont les données existent à l'intérieur des matchs ....

val answer = pattern.findAllIn(line).matchData
for(m <- answer){
  for(e <- m.subgroups){
    println(e)
  }
}

Ce sont ces « e ce que je suis après .. mais ne pas avoir beaucoup de chance d'obtenir que les données séparées dans mon RDD.

Merci

Créé 02/09/2018 à 05:15
source utilisateur
Dans d'autres langues...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more