Das deutsche QBasic- und FreeBASIC-Forum

Input · Anmeldungsdatum: 28.07.2014 Beiträge: 59

Hallo liebes Forum. ': Ich mach da gerade etwas mir der Datenkompression rum grinsen

, das Decodieren klappt so aber nicht ganz korrekt. Weiss nicht, woran das liegt. Hab wohl mal wieder Tomaten auf den Augen. Auch kommt man so nur auf max. 30% Kompression. Wäre froh, wenn mir da jemand weiterhelfen könnte. Vielen Dank!! ';

nemored · Anmeldungsdatum: 22.02.2007 Beiträge: 4726 Wohnort: ~/

Funktioniert denn die Datenkompression? Zwei Anmerkungen auf die Schnelle:

Input · Anmeldungsdatum: 28.07.2014 Beiträge: 59

Vielen Dank, hab's jetzt geschafft und das Programm entsprechend korrigiert. Die Kompression liegt jetzt bei legendären 20%. Würde das gerne bei meinem Verschlüsselungsprog miteinbauen; da bräucht ich aber schon so um die 80%. Wäre jedenfalls schön. Für die Phrasen hab ich die Lutherbibel genommen und mit Cryptool analysiert. Sollte also schon etwa stimmen; auch wenn hebräisch und griechisch das etwas verfälschen. Dass die Kompression jetzt richtig arbeitet, habe ich mit folgendem Prog getestet (kann ja vielleicht auch mal noch jemand brauchen):

Haubitze · Anmeldungsdatum: 14.10.2009 Beiträge: 132

hallo

ich wuerde zB auch hinter jedem if then noch ein continue do setzen.
warum:
beim packen hast du ja wenn ein if zutrifft etwas gefunden, du brauchst also nicht mehr weiter suchen. ausserdem gehts du damit sicher du so das zB
solche dinge auch findest, "und das der baum" oder "und die Frau das Glas"

beim entpachen hast du wenn ein if zutrifft ja auch etwas(ein token) gefunden. ergo du musst auch hier nicht weiter suchen.

salute

PS: kann auch sein das ich wieder hn hitzekollaps hab grinsen

Input · Anmeldungsdatum: 28.07.2014 Beiträge: 59

Ja, danke. Das bringt auch wieder 1.5% mehr Kompression, und langsamer wird's dadurch sicher auch nicht. zwinkern

EDIT: Jetzt hab ich aber wieder Fehlermeldungen. mit den Augen rollen

Jojo · Verfasst am: 10.08.2015, 13:35 Titel:

Wenn du ernsthaft daran interessiert bist, eine einigermaßen solide Kompression zu bauen, solltest du dir mal die Huffman-Kodierung ansehen - diese kann zu jedem Input ein optimales Code-Wörterbuch erstellen - wie du selbst schon bemerkt hast, ist dein festes Code-Wörterbuch natürlich nur sehr eingeschränkt für Texte einer bestimmten Sprachr nutzbar, und du schließt vorweg bestimmte Textzeichen komplett von der Benutzung aus.
Huffman ist ein wichtiger Schritt in vielen modernen Kompressionsverfahren.
_________________
» Die Mathematik wurde geschaffen, um Probleme zu lösen, die es nicht gäbe, wenn die Mathematik nicht erschaffen worden wäre.

grindstone · Verfasst am: 11.08.2015, 12:08 Titel:

@Jojo: Ohne mich jetzt wirklich eingehend damit befasst zu haben: Ist bei der Huffman - Codierung nicht spätestens beim 10. Zeichen des Quellalphabets der Punkt erreicht, wo das Codewort länger ist als der entsprechende ASCII-Code des Buchstabens?

Gruß
grindstone
_________________
For ein halbes Jahr wuste ich nich mahl wie man Proggramira schreibt. Jetzt bin ich einen!

dreael · Verfasst am: 11.08.2015, 12:46 Titel:

Noch schlauer: Gerade im Linux-Bereich gibt es bekanntlich gzib, bzip2 usw., dabei stehen die eigentlichen Kompressions- und Dekompressionsroutinen auch als Bibliotheken zur Verfügung. => Dürfte vermutlich kein Hexenwerk sein, mittels entsprechendem FB-Headerfile (API) eine solche Bibliothek zu benutzen. Vorteil: Das Rad muss nicht erneut erfunden werden.

Lektüre:

http://www.bzip.org/1.0.3/bzip2-manual-1.0.3.html#libprog

@Profis: Wäre vielleicht gut, ein FB-Beispiel zu bauen, welches einen Byte-Array komprimiert und dekomprimiert.
_________________
Teste die PC-Sicherheit mit www.sec-check.net

St_W · Anmeldungsdatum: 22.07.2007 Beiträge: 959 Wohnort: Austria

@dreael: FB liefert bereits Header und Beispiele für u.a. zlib, bzip2 und libzip mit, wenn man existierende Bibliotheken verwenden möchte.

Ich denke dass es hier aber eher um den Lerneffekt geht, wobei es sicher nicht schaden kann sich einmal mit dem Huffman Algorithmus auseinanderzusetzen.
_________________
Aktuelle FreeBasic Builds, Projekte, Code-Snippets unter http://users.freebasic-portal.de/stw/
http://www.mv-lacken.at Musikverein Lacken (MV Lacken)

Jojo · Verfasst am: 11.08.2015, 13:52 Titel:

grindstone: Huffman basiert auf einer Häufigkeitsverteilung. Wenn du einen nicht optimalen Baum erstellst und besonders häufig verwendete Zeichen einem besonders langen Pfad im Baum zuweist, ist das natürlich äußerst doof. Manche Zeichen werden einen langen Pfad haben, aber die häufigsten Zeichen können eben mit nur wenigen Bit kodiert werden. Die Anzahl der benötigten Bits wächst allerdings logarithmisch, d.h. du brauchst nicht 10 Bit für 10 verschiedene Zeichen.
_________________
» Die Mathematik wurde geschaffen, um Probleme zu lösen, die es nicht gäbe, wenn die Mathematik nicht erschaffen worden wäre.

grindstone · Verfasst am: 11.08.2015, 20:09 Titel:

Zum Thema Lerneffekt: Mir ist die Tunstall-Kodierung irgendwie einsichtiger.

Und wenn es nur um die Komprimierung und ein schnelles Erfolgserlebnis geht, wäre auch die Kommandozeilenversion von 7Zip eine Alternative.

Gruß
grindstone
_________________
For ein halbes Jahr wuste ich nich mahl wie man Proggramira schreibt. Jetzt bin ich einen!

Input · Anmeldungsdatum: 28.07.2014 Beiträge: 59

Habe heute mal etwas gestöbert und dabei ein ganz brauchbares Buch gefunden: http://www.lntwww.de/downloads/Informationstheorie/Theorie/Inf_Kap2_gesamt.pdf

grindstone · Verfasst am: 11.08.2015, 22:42 Titel:

Viel Spaß beim Durchackern zwinkern

Gruß
grindstone
_________________
For ein halbes Jahr wuste ich nich mahl wie man Proggramira schreibt. Jetzt bin ich einen!

Input · Anmeldungsdatum: 28.07.2014 Beiträge: 59

Edit: So, hab jetzt mal noch etwas dran rumgebastelt:

nemored · Anmeldungsdatum: 22.02.2007 Beiträge: 4726 Wohnort: ~/

Allein schon durch die bloße Fülle an möglichen Dreierkombinationen (bei einem Zeichenvorrat von 33 bis 255 sind das 223^3 = 11 089 567 Kombinationen, für die du alle den kompletten Text mehrmals durchgehst) ist klar, dass es ziemlich lange dauern wird. Ansonsten könnte man noch versuchen, die Anzahl der benötigten Textdurchläufe (einschließlich INSTR) zu minimieren.
_________________
Deine Chance beträgt 1:1000. Also musst du folgendes tun: Vergiss die 1000 und konzentriere dich auf die 1.

-----

"Das wissen doch sowieso nur Nerdinauten, die Schlaumeierologie studiert haben." - coldmirror

Input · Anmeldungsdatum: 28.07.2014 Beiträge: 59

Ja, da muss ich sicher noch dran basteln; ich hab aber ehrlich gesagt auch noch nicht wirklich so den Durchblick. mit den Augen rollen