Das deutsche QBasic- und FreeBASIC-Forum

Input · Anmeldungsdatum: 28.07.2014 Beiträge: 59

Hallo liebes Forum, hab da noch ein Problem: Ich würde gern jedes Wort im Text zählen, weiss aber nicht ob mein Algi für die einzelnen Wörter als "Input" so gut ist. Wäre froh um jeden Tipp, Komplettlösung wär natürlich auch nicht schlecht. Vielen Dank!!

Sebastian · Administrator Anmeldungsdatum: 10.09.2004 Beiträge: 5969 Wohnort: Deutschland

Hallo,

was hältst du von folgendem Code? Er zählt die Wörter und ermittelt nebenbei die durchschnittliche Länge eines Wortes. lächeln

Input · Anmeldungsdatum: 28.07.2014 Beiträge: 59

Vielen Dank!! Ich möchte aber eigentlich nur das erste Wort als Variable in ein Arrey schreiben, dann das Zweite...

Wenn dann ein Wort im Arrey schon vorhanden ist, dann wird einfach die Zahl auf 2 erhöht. Am Ende sollte es dann etwa so aussehen: Und=3 das=5 Hase=1

Mein Problem ist jetzt einfach, dass mein Prog sehr langsam ist und die Schleife wohl fast unendlich dreht.

Sebastian · Verfasst am: 17.08.2014, 19:39 Titel: HashMap / Baum

Hallo,

dann bräuchtest du idealerweise sowas:
http://de.wikipedia.org/wiki/Hashtabelle

Wenn du ein Wort isoliert hast, musst du vom Wort (= String) zu einer Integer-Variablen kommen, die diesem Wort zugeordnet ist. Diese Integer-Variable wäre der Häufigkeitszähler des Wortes.

Eine relativ schlichte Lösung bestünde darin, einen TYPE anzulegen, der ein Wort und einen Integer enthält, und davon ein Array zu erzeugen:

grindstone · Verfasst am: 18.08.2014, 09:37 Titel:

Hallo,

Sebastian · Verfasst am: 18.08.2014, 16:09 Titel: Implementierung mit Baum

Hallo,

ich habe mal den Ansatz mit einem Baum implementiert:
http://users.freebasic-portal.de/sebastian/fb/wordcount/wordcount_tree.zip

Hier der Quelltext (ist aber auch im ZIP-Archiv enthalten):
http://users.freebasic-portal.de/sebastian/fb/wordcount/wordcount_tree.bas

Das ZIP-Archiv enthält die rund 1 MB große deutsche Übersetzung der Debian-Referenz.

Das Programm ist nur oberflächlich getestet. Verwendung auf eigene Gefahr und ohne Garantie für Richtigkeit der Ergebnisse. Sicherlich sind an manchen Stellen Optimierungen möglich. Zum Beispiel wird oft LEN(...) ermittelt. Das könnte man besser als Integer-Parameter mitschleifen, damit das nicht so oft ermittelt werden muss. Allerdings wird dadurch das Programm auch etwas unübersichtlicher.

Der Häufigkeitsbaum wird so tief wie die Länge des längsten Wortes. Der Aufwand zum Nachschlagen einer Worthäufigkeit ist linear von der Wortlänge abhängig und dauert für alle Worte der Länge n gleich lang (Best Case = Worst Case = Average Case). Es ist also etwas anderes als eine sequentielle "Liste", wo es eine Rolle spielt, ob das Wort am Anfang der Liste sofort gefunden wird (Best Case) oder erst die ganze Liste bis zum Ende durchsucht werden muss, ehe das Wort gefunden wird (Worst Case).

Bei den Zeitmessungen ist zu beachten, dass beide durch PRINT-Ausgaben zwischendurch verfälscht (= verlängert) werden (Zeilen 64-66 und Zeile 107).

Viele Grüße!
Sebastian
_________________

Die gefährlichsten Familienclans | Opas Leistung muss sich wieder lohnen - für 6 bis 10 Generationen!

Input · Anmeldungsdatum: 28.07.2014 Beiträge: 59

Vielen Dank euch beiden; ihr seit ja echte Freaks!! happy

Ich werd es aber trotzdem mal selber noch versuchen; vom Prinzip her sollte es ja nicht all zu schwer sein. Werde mich melden, wenn ich's geschafft hab. LG: Input zwinkern

grindstone · Verfasst am: 19.08.2014, 13:16 Titel:

@ Sebastian:
Ich habe unsere beiden Programme mal miteinander verglichen: Beim Suchen von einzelnen Wörtern ist dein Programm ca. 15 mal so schnell wie meins, da helfen auch alle Programmiertricks nichts. grinsen

Dafür habe ich beim Einlesen der Datei die Nase vorn. lächeln

Ich habe mir daher erlaubt, beides zu kombinieren und deine Einleseroutine umzuschreiben. Das Resultat habe ich nach http://www.freebasic-portal.de/porticula/wortzaehler-1773.html hochgeladen. Die Vermischung unserer Programmierstile sieht nicht wirklich schön aus, aber es funktioniert: Das Einlesen geht jetzt gut 10mal so schnell. happy

Eine Macke hat das Programm allerdings (noch): Wenn man nach einem Wort sucht, das im Text nicht vorkommt, stürzt es ab.

Gruß
grindstone
_________________
For ein halbes Jahr wuste ich nich mahl wie man Proggramira schreibt. Jetzt bin ich einen!

Sebastian · Verfasst am: 19.08.2014, 19:27 Titel:

Muttonhead · Verfasst am: 19.08.2014, 20:13 Titel:

Find das mit dem Baum recht spannen aber mir geht hier ein wenig die Vorstellung verloren.

Angenommen hab "nur" meine 26 Buchstaben:
eine Hand mit 26 Fingern und auf jedem Finger wieder eine (mit 26 Finger) usw?

Mutton

Sebastian · Verfasst am: 19.08.2014, 20:24 Titel:

Toa-Nuva · Verfasst am: 20.08.2014, 02:33 Titel:

Diese Datenstruktur nennt sich übrigens Trie. lächeln

Was den Tradeoff zwischen Einlesen einzelner Zeichen vs kompletter Dateien angeht, da würde ich eigentlich immer einen Puffer fester Größe (z.B. 16 oder 32 KB) verwenden. Dann hängt es nicht von der Dateigröße ab, wie viel Arbeitsspeicher man verbraucht, und trotzdem sollte das Lesen nicht (wahrnehmbar) länger dauern, als würde man die komplette Datei auf einmal einlesen.
Wenn die Programmiersprache bzw deren Bibliotheken von sich aus nicht schon so was anbieten, würde es sich empfehlen, selbst einen Wrapper für die zur Verfügung stehenden Dateizugriffsoperationen zu schreiben.
Zeichenweises Einlesen direkt von der Festplatte würde ich auf jeden Fall auf den Tod vermeiden. happy

_________________
704 Signature not found

grindstone · Verfasst am: 20.08.2014, 03:13 Titel:

Toa-Nuva · Verfasst am: 20.08.2014, 14:23 Titel:

Sebastian · Verfasst am: 20.08.2014, 15:47 Titel:

grindstone · Verfasst am: 21.08.2014, 02:17 Titel:

nemored · Anmeldungsdatum: 22.02.2007 Beiträge: 4597 Wohnort: ~/

Der Volltext der Wikipedia wird wohl schwierig - außer du schreibst dir einen Crawler - einzelne Artikel könntest du aber als Ebook sichern, wobei auch die Ausgabe als PDF oder ODF unterstützt wird.
_________________
Deine Chance beträgt 1:1000. Also musst du folgendes tun: Vergiss die 1000 und konzentriere dich auf die 1.

RockTheSchock · Anmeldungsdatum: 04.04.2007 Beiträge: 138

Naja einen Crawler braucht man dafür nicht. Da gibt es dumps, für die es wiederum Tools zum Import in eine SQL Datenbank gibt.

http://de.wikipedia.org/wiki/Hilfe:Download
http://dumps.wikimedia.org/enwiki/latest/
http://dumps.wikimedia.org/dewiki/latest/

Ich habe mir mal eine Datei angeschaut. Die scheint zumindest aus reinem Text zu bestehen - einen Titel pro Zeile.
dewiki-latest-all-titles-in-ns0.gz

dewiki-latest-pages-articles.xml.bz2
Aus der XML Datei dewiki-latest-pages-articles.xml.bz2 kann man sicher auch den Text leicht herausholen. Z.b. gibt es folgendes Tool:

https://github.com/bwbaugh/wikipedia-extractor

grindstone · Verfasst am: 21.08.2014, 10:20 Titel:

Unter ftp://ftp5.gwdg.de/pub/wikipedia/DVD/Wikipedia.zeno kann man den kompletten Text herunterladen (Dateigröße ca. 3 GB), allerdings nicht als lesbaren Text, sondern (angeblich) im XML-Format. Es gibt dazu Anzeigetools, aber ob man das Ganze damit in ASCII-Text konvertieren kann, weiß ich nicht, und Open Office dürfte vor dieser Dateigröße wohl kapitulieren. Ich werde mal downloaden, aber das dauert...

Die Bibel als reiner Text ist übrigens gerade mal 4 MB groß. verwundert

Gruß
grindstone

EDIT: Hier ein Screenshot einer ersten "quick & dirty" - Version der grafischen Darstellung des Speicherbedarfs (mit der Bibel als Quelltext, AT + NT)

_________________
For ein halbes Jahr wuste ich nich mahl wie man Proggramira schreibt. Jetzt bin ich einen!

Muttonhead · Verfasst am: 21.08.2014, 15:17 Titel:

Ist das der komplette Graph? Würde ja bedeuten das die Bibel bis zum Schluß fleißig mit neuen Wörtern bestückt ist, der Graph ist ja nun alles andere als grade

Mutton