Das deutsche QBasic- und FreeBASIC-Forum

Muecke · Gast

Hallo miteinander,

ich glaube das ich das etwas umständlich mache ich habe aber leider nichts gefunden das mich weiterbringt.

ich möchte aus einer Datei eine Bestimmte Zeile (i) auslesen
wie mache ich das am besten?

ich habe hier einen Ansatz, glaube aber das ich da suboptimal unterwegs bin mit.

Jojo · Verfasst am: 06.01.2014, 16:35 Titel:

Einfacher als das geht's wirklich nicht, und Performance wird auch nicht dein Problem sein, oder? zwinkern

_________________
» Die Mathematik wurde geschaffen, um Probleme zu lösen, die es nicht gäbe, wenn die Mathematik nicht erschaffen worden wäre.

Muecke · Gast

du hast recht die Performance ist nicht wirklich mein Problem lächeln

.

dachte nur das es vielleicht die Möglichkeit gibt

so was in die Richtung

grindstone · Verfasst am: 06.01.2014, 18:13 Titel:

@Muecke: Wenn du nur eine oder einige wenige Zeilen oder jede Zeile nur einmal brauchst, ist dein erster Ansatz die beste Lösung. Wenn du dagegen häufiger darauf zugreifen willst und/oder in einer anderen Rehenfolge als sie in der Datei stehen, ist es günstiger, vorher die ganze Datei zeilenweise in ein Array zu kopieren und dann über den entsprechenden Index darauf zuzugreifen.

Gruß
grindstone
_________________
For ein halbes Jahr wuste ich nich mahl wie man Proggramira schreibt. Jetzt bin ich einen!

Muecke · Gast

OK, ich habe nun entschlossen das ich die Datei vollständig in ein 2D Arrey laden werde, da ich öfter auf die Daten in unterschiedlicher reihen folge zugreifen möchte traurig

nur das teil ist extrem langsam traurig

meine Datei:
Zeilen: 360
Spalten: 1011
Größe 1.370 KB

das Teil ist wirklich extrem langsam traurig

und das ist noch eine der Kleinen Datei ich habe noch Daten Sätze hier die Zeilen von über 12652 haben.
die Daten sind dann um die 54.641 KB Groß.

wie kann ich das denn beschleunigen?

das ist der Test Code:

Jojo · Verfasst am: 07.01.2014, 00:27 Titel:

Du hast so ziemlich jede mögliche teure Operation direkt in deiner innersten Schleife, natürlich ist das langsam.

* ReDim Preserve kopiert in jedem Schleifendurchlauf das komplette (jedes mal wachsende) Array (sofern FB sowas nicht durch Arrays mit Kapazität != tatsächlich benötigter Platz optimiert, was ich nicht glaube). Sinnvoller wäre es beispielsweise, Das Array immer in 100er-Schritten zu vergrößern, sodass das Umkopieren nur noch bei jedem 100. Schleifendurchlauf stattfindet. Selbiges gilt übrigens für das Redim Preserve in der explode-Methode.

* Ltrim(Rtrim(Mid(...))) erzeugt drei temporäre String-Objekte, das ist ebenfalls teuer. Sinnvoller wäre es, das Ergebnis von Ltrim und Rtrim jeweils "von Hand" zu berechnen (also jeweils ab anfptr und endptr nach Leerzeichen suchen) und dann die gefundenen Stellen an Mid übergeben. Und wenn dir das zu viel Arbeit ist, verwende wenigstens Trim() statt Ltrim(Rtrim()), um ein temporäres Objekt zu sparen.

* Jegliche Bildschirmausgaben sind immer teuer, die sollten auch nicht nach jeder Zeile gemacht werden.

* Screensync verlangsamt dein Programm künstlich, da es für jede eingelesene Zeile bis zu 1/60 Sekunde verbrät.

Die ersten beiden Punkte lassen sich durch besseren Code lösen, die letzten beiden Punkte haben einfach überhaupt nichts in einer inneren Schleife verloren. Versuch erst mal, den Ausgabecode aus der inneren Schleife zu entfernen, evtl reicht das schon und du musst dich gar nicht um die ersten beiden Punkte kümmern - besser wäre es aber.
_________________
» Die Mathematik wurde geschaffen, um Probleme zu lösen, die es nicht gäbe, wenn die Mathematik nicht erschaffen worden wäre.

Muecke · Gast

OK das muss ich mir morgen noch mal genauer anschauen,

die Ausgabe in der Schleife habe ich eingebaut da ich dachte das mein Programm abgestürzt ist und ich den Fehler finden wollte da es einfach nicht mehr reagierte traurig

bei der Ausgabe ist mir dann aufgefallen das es die Verarbeitens Dauer ist, und nicht das Prog abgestürzt ist lächeln

werde das morgen Optimieren nach deinem vorschlagen.

Danke für die hinweise.

Sebastian · Administrator Anmeldungsdatum: 10.09.2004 Beiträge: 5969 Wohnort: Deutschland

Hallo,

eine große Datei mit sehr vielen Zeilen in ein Array einzulesen, indem man es mit jeder Zeile via REDIM PRESERVE um 1 Element vergrößert, ist auch extrem ineffizient.

Dazu muss man wissen, wie Arrays und REDIM PRESERVE "unter der Haube" funktionieren.

Wenn du ein Array erstellst, wird im Speicher ein Block reserviert mit der Größe [Größe eines Elements] X [Anzahl der Elemente] = [Blockgröße].

Vor und hinter dem Array stehen irgendwelche anderen Daten. Aber für das Array reicht der Platz.

Wenn du jetzt das Array etwas größer machen möchtest, kann das Programm nicht einfach hintendran weiterschreiben. Weil da höchstwahrscheinlich irgendwas anderes steht, was nicht einfach so überschrieben werden darf.

D.h. wenn dein Array bisher 100 Byte belegt und du jetzt z. B. einen Integer mit 4 Byte hinzufügen möchtest, fordert das Programm eine neue Speicherlücke mit 104 Bytes an. Anschließend wird das alte Array (100 Byte) in das neue Array kopiert. Das alte Array wird gelöscht.

Wenn du ein Array 10.000x so vergrößerst, wird 10.000x das gesamte Array in ein neues kopiert und das alte gelöscht.

Das liegt daran, dass Arrays immer Blöcke "am Stück" sind und nicht gestückelt vorliegen. Daraus ergibt sich folgende Eigenschaft: Wenn ein Array im Speicher an der Adresse 1000 anfängt. Und ein Arrayelement 4 Bytes lang ist (z. B. ein INTEGER), dann steht das 1. Arrayelement an Adresse 1000, das zweite an Adresse 1004, das dritte an 1008 usw. Du kannst dann einfach die Basisadresse mit einem Offset addieren, um zum gewünschten Element zu kommen. Dadurch gehen lesende Zugriffe auf eine beliebige Stelle des Arrays extrem schnell. Wenn ich weiß, wo das Array anfängt im Speicher und wie lang 1 einzelnes Element ist, weiß ich spielend einfach, wo das Element 2384 oder das Element 83930 steht. Das muss man nicht suchen, sondern kann die Stelle einfach ausrechnen.

Daraus ergibt sich aber auch, dass Array-Inhalte nicht verstreut im Speicher liegen können ("Hier ein bisschen, dann an anderer Stelle ein bisschen usw.").

Der große Nachteil ist, dass ein Array nicht wachsen kann. Man kann nur ein größeres anlegen und dann das kurze Array in das neue große reinkopieren. Für den Programmierer sieht es so aus, als würde das Array größer, aber in Wirklichkeit entsteht bloß ein neues Array, in das die alten Inhalte hinüberkopiert werden.

Wenn man eine Datenstruktur braucht, die mit ihren Anforderungen wächst, verwendet man eine verkettete Liste. Die hat den Vorteil, dass Verlängerungen (Einfüge-Operationen) problemlos, ganz schnell und ohne Umkopieren funktionieren. Ihr Nachteil ist, dass du nicht von vornherein weißt, wo das Element 1239 steht. Sondern du musst, wenn du einen bestimmten Index willst, die Liste vom Anfang an durchgehen, bis du beim gewünschten Element landest. Das heißt, das Wachsen geht super. Das Lesen ist, wenn man nicht vom Anfang an loslegen will, etwas langsamer.

Siehe zum Thema Listen:

Viele Grüße!
Sebastian
_________________

Die gefährlichsten Familienclans | Opas Leistung muss sich wieder lohnen - für 6 bis 10 Generationen!

Muecke · Gast

OK es hat mir keine Ruhe gelassen lächeln

ich wollte das jetzt doch noch machen.

das Prog ist schon deutlich schneller geworden lächeln

interessant wäre es eine Leitzeit mal zu messen um zu sehen was man wirklich einspart lächeln

ich lasse jetzt das 2D Arrey auf der zweiten Ebene Prüfen ob es wirtlich Größer geworden ist oder nicht wenn nicht muss es auch nicht vergrößert werden.
so muss ich das nur noch von ziele zu ziele vergrößern lächeln

kann ich beim Datei Öffnen auch gleich auslesen wievielte Zeilen eine Datei hat? ohne sie durchlaufen zu müssen?
dann könnte ich das Arrey auch gleich auf die Zeilen von beginn an anpassen.

das mit dem Leerzeichen von Hand habe ich nicht ganz verstanden traurig

das ist der Code jetzt:

HorstD · Anmeldungsdatum: 01.11.2007 Beiträge: 110

Das mit dem Redim Preserve hast du anscheinend nicht verstanden.

Hier siehst du, was gemeint ist
http://www.vbarchiv.net/tipps/tipp_345-array-dynamisch-vergr-ern.html

Warum berechnest du jedesmal die Länge des Separators?
anfptr = endptr + Len(Separator)

grindstone · Verfasst am: 07.01.2014, 08:27 Titel:

@Muecke:

Jojo · Verfasst am: 07.01.2014, 10:26 Titel:

Muecke · Gast

Muecke · Gast

so jetzt lasse ich zu erst die Anzahl der Zeilen zählen und dann erstelle ich ein zu Großes Arrey:-) das ich später dann wider kleiner mache:-)

die Zeiten sind erstaunlich was es bringt.

habe es auch mal verglichen mit und Ohne Trim macht auch was aus.
werde das noch mit einer Kleinen abfrage machen (For Schleife) und die Leerzeichen am Anfang zu finden und am Ende, und schauen was dann an Zeiten raus kommt:

@grindstone: Das ist nicht Schuld, du hast mir nur ein Beispiel aufgezeigt was ich daraus gemacht habe ist meins nicht deins zwinkern

ich muss schon selbst das Hirn anschmeißen, will das ja selber hin bekommen zwinkern

*hoffe ich zumindest*

Das ist der Code bis jetzt lächeln

grindstone · Verfasst am: 08.01.2014, 03:46 Titel:

@Muecke:
Du brauchst die Datei zum zweiten Durchsuchen nicht zu schließen und erneut zu öffnen. Es reicht, vor dem zweiten Durchgang den Dateizeiger mit

grindstone · Verfasst am: 09.01.2014, 00:47 Titel:

@Mücke: Hier das versprochene Beispielprogramm.