Sinnvolle Massendaten erzeugen für Pseudo Kundendaten

Hubivan

Mitglied
Ich stehe vor folgendem Problem,

Ich brauche eine Datenbank mit mindestens 1.000.000 Datensätzen:

Die Daten lassen sich aber leider nicht alle vollautomatisch über eine schleife und einen zufallsgenerator erzeugen, da ich auch Vornamen und Nachnamen enthalten sein sollen.
Auf diesen Testdaten soll getestet werden wie schnell mein Programm zur unscharfen Suche braucht um die Datenbank anhand von Vornamen oder Nachnamen zu durchsuchen kann.
Dazu wäre es natürlich sinnvoll, "echte" Vornamen und Nachnamen zu verwenden. Und nicht irgendwelchen Buchstabensalat, den ich mir mit einem Zufallsgenerator erzeugen könnte.

Hat jeman ne Idee wo ich eventuell einen passenden dump oder so bekomme?
Eine Art Wörtebuch für Vornamen und Nachnamen in digitaler Form wäre auch ok, die könnte man dann ja auslesen und zufällig kombinieren lassen.
 
Abend!

Mit einer Liste von Vornamen wäre Dir bestimmt schon einmal geholfen, oder? Schau mal auf http://www.beepworld.de/members12/pseudorealismus/vornamenliste.htm
Da findest Du unzählige Namen aller Herren Länder. Die Liste dürftest Du ohne Probleme in einen nützlichen Datensatz zerlegen können.

Bei den Nachnamen musst Du Dir echt was einfallen lassen. Du könntest ja einfach die Vornamen auch als Nachnamen verwenden - zufällig kombiniert, versteht sich. Allerdings wird dein Algoritmus bestimmt auch mit den Nachnamen funktionieren, wenn er es bei den Vornamen tut. ;-)

Ich hab' noch eine Idee, falls du o.g. Methode nicht für die Nachnahmen verwenden willst: nimm einfach ein paar Datensätze von http://www.blindtexte.de und behandle das Kauderwelsch wie die Liste der 1. URL ...

Naja, ich hoffe ich konnte Dir helfen.

Gruß
Enum
 
Zuletzt bearbeitet:
PS: Bei den Datensätzen könnte Dir auch das Telefonbuch Deiner Stadt helfen - gibt's auch auf CD. Google weiss Rat...

Enum
 
Danke!

Das mit den Vornamen ist schon mal sehr gut :)

Jetzt brauch ich nur noch ein paar nette Nachnamen.

UPDATE:

Inspiriert von deiner Vornamenliste hab ich mal bei Google "Familiennamen+Liste" eingegeben und folgendes gefunden:

http://www.schloeder.net/surnames.html

http://de.wikipedia.org/wiki/Liste_der_häufigsten_Familiennamen_in_Deutschland

Ich denke das gibt eine Ordentliche Liste, jetzt nur noch vor und Nachnamen zufällig kombinieren lassen und in die Datenbank schreiben :) Juhu... Problem gelöst...

Jetzt muss ich mir nur noch überlegen wie ich die vielen Namen am besten in dem Programm unterkriege für die Massendatenerzeugung...
weil für ein normales String Array sind das wohl zu viele oder?
Hat da jemand Erfahrung?
(das ganze wird als Java Programm realisiert)
 
Zuletzt bearbeitet:
Abend!

Klar, dürfte nicht allzu schwer sein. Welchen Typ hat denn die Datenbank, die Du erstellen möchtest? Im Falle von SQL könnte ich Dir blitzflink einen Algoritmus basteln, der Dir eine DB mit beliebig vielen Namen erstellt - Oracle ist leider nicht mein Fall.

Gruß
Enum
 
PS:

Richtig, für eine einzelne Variable ist so ein Datensatz zu groß. Zumindest dürfte das in der Praxis bei der Verarbeitung enorme Probleme hervorrufen - aufgrund der Performance, versteht sich.
 
Abend!

Klar, dürfte nicht allzu schwer sein. Welchen Typ hat denn die Datenbank, die Du erstellen möchtest? Im Falle von SQL könnte ich Dir blitzflink einen Algoritmus basteln, der Dir eine DB mit beliebig vielen Namen erstellt - Oracle ist leider nicht mein Fall.

Gruß
Enum

Wenn du SQL schreibst meinst du sicher MySQL oder? Weil SQL an und für sich ist ja nur ein Standard nach dem sich Oracle auch richtet...
Naja, jedenfalls weitesgehend, leider haben ja alle DB Hersteller oft etwas unterschiedliche Ansichten wie der SQL-Standard umzusetzen ist...

Also die Datenbank, wird MySQL, Oracle und eventuell noch PostGre sein, da das ganze
ne Applikation werden soll, die auf verschiedene SQL Datenbanken aufsetzen kann.

Danke für dein Angebot mit dem Algorithmus, aber das mach ich lieber selbst das ganze ist Teil meiner Diplomarbeit und die soll ja auch weitgehen selbständig gemacht werden.
Zu dem kann ich ja nur dazulernen wenn ich das selbst mal ausprobiere.
 
Morgen!

Das mit Oracle ist schon klar. Die Datenbank hätte auch jedes System verstanden. Nur den Code hätte ich nicht für Oracle schreiben können. Ach ja, ich bevorzuge Postgre.

Mit Deiner Diplomarbeit wünsche ich Dir viel Erfolg!
Vielleicht tust Du mir den Gefallen und lässt mich das Ergebnis deiner Bemühungen sehen, wenn es vollendet ist?
Nenn mich abnorm, pervers oder wasweisich, aber ich liebe es, solche Werke zu studieren. Meines Vaters Doktorarbeit habe ich mit siebzehn Jahren gelesen - und mit zwanzig zu 33% verstanden ... ;-)

Gruß
Enum
 
Ich würd dir gerne das Endergebnis der Arbeit zeigen, nur fürchte ich das es vertrauliche Informationen enthält, die jemanden der nicht in der Firma arbeitet in der ich meine Diplomarbeit mache, nicht's angehen.
Ich werd das ganze aber wenn es soweit ist nochmal von den Verantworlichen prüfen lassen und nachfragen wie es mit einer allgemeinen Veröffentlichung bestellt ist.
Vielleicht hast du ja Glück.

Das Programm, dass ich mir für die Erzeugung der Massendaten schreiben werde sowie den daraus entstandenen Dump, kann ich aber gerne hier veröffentlichen, sowas wird ja vielleicht öfter gebraucht...

Das ganze wird dann ja eh nur Pseudodaten enthalten und die Software wird eh nur so ne Art Prototyp sein, der demonstrieren soll, dass es prinzipiell machbar ist :)
 

Neue Beiträge

Zurück