Das deutsche QBasic- und FreeBASIC-Forum

Eternal_pain · Anmeldungsdatum: 08.08.2006 Beiträge: 1783 Wohnort: BW/KA

Auf der Suche nach einer Schnelleren Blur-Routine fand ich ein ASM Code den ich zumindest schon mal versucht habe in FB zu setzen, klappt allerdings noch nicht so ganz und könnte etwas hilfe brauchen lächeln

Quelle zum Original im Code

grindstone · Verfasst am: 22.03.2015, 14:54 Titel:

Hallo Eternal_pain!

Ohne Gewähr, weil nicht getestet, würde ich diese Lösung vorschlagen:

Eternal_pain · Anmeldungsdatum: 08.08.2006 Beiträge: 1783 Wohnort: BW/KA

Ich habe ja bereits verschiedene Blur Routinen selbst gebastelt, die auch soweit gut funktionieren, doch allesamt sehr langsam sind... daher hatte mich diese ASM Routine interessiert... allerdings (wie glaube auch in deinem Beispiel) wollte ich zum einen gern die adressen entsprechend eines FB-Image anpassen zum anderen verstehe ich vorallem den teil mit den stack nicht so recht... wie wird da alles in FB richtig in der Funktion/Sub übergeben...

grindstone · Verfasst am: 22.03.2015, 18:17 Titel:

Wie der Stack verwendet wird, kannst du in der Referenz unter "Cdecl" nachlesen: Alle beim Aufruf übergebenen Parameter werden -von rechts nach links, also der hinterste zuerst- auf den Stack gelegt, anschließend kommt noch die Rücksprungadresse obendrauf.

Von der Assemblerroutine werden dann noch einige Registerinhalte oben draufgepackt, die am Ende wieder heruntergenommen werden müssen, sonst gibt es Chaos. Um alles andere kümmert sich der FB-Compiler.

Diese Assemblerroutine eignet sich allerdings in nur für 8 bit - Graustufen - Bitmaps, da jedes Pixel nur mit einem einzigen Byte beschrieben wird. Sie müsste noch auf die von dir verwendete Farbtiefe angepasst werden. In Punkto Geschwindigkeit dürfte sie dann aber kaum zu schlagen sein.

Bei 32 bit Farbtiefe funktioniert die Routine vielleicht, wenn du die mit Sternchen versehenen Zeilen einfügst:

Jojo · Verfasst am: 22.03.2015, 20:38 Titel:

grindstone · Verfasst am: 22.03.2015, 22:14 Titel:

Du machst mich neugierig! Meine Assemblererfahrungen beschränken sich im wesentlichen auf AVR-Controller (und 6502, aber das ist schon lange her). Sind die entsprechenden Funktionen von FB aus überhaupt zugänglich? Die richtigen Experten nutzen ja sogar die Hardware der Grafikkarte.

Immerhin: Eine Dokumentation zu MMX habe ich gefunden. Die werde ich mir im den nächsten Tagen mal reinziehen... lächeln

Gruß
grindstone
_________________
For ein halbes Jahr wuste ich nich mahl wie man Proggramira schreibt. Jetzt bin ich einen!

Jojo · Verfasst am: 22.03.2015, 22:33 Titel:

Die Funktionen sind über den eingebauten Assembler verfügbar, ja. Das ist natürlich nicht so elegant wie in C/C++ mit Intrinsics, aber immerhin ein Anfang. Intrinsics sind Funktionen, die nichts weiteres tun, als einen genau spezifizierten Assemblerbefehl auszugeben. Das PDF, das du da ausgegraben hast, dokumentiert z.B. diese Intrinsics wie _mm_extract_epi16.

Bevor du jetzt dich aber MMX einarbeitest, hol dir lieber direkt die Dokumentation zu SSE2, das ist wesentlich nützlicher und wird ebenfalls von jedem halbwegs modernen Rechner unterstützt (x64 hat garantiert SSE2-Support, und fast jede x86-CPU seit dem Pentium 4 hat auch SSE2). SSE hat den Vorteil, dass die Register doppelt so breit sind (128 statt 64 bit), also doppelt so viele Pixel (Audiosamples, Textzeichen, etc...) gleichzeitig verarbeitet können, und insgesamt ist das Instruction Set einfach viel nützlicher als das von MMX.
_________________
» Die Mathematik wurde geschaffen, um Probleme zu lösen, die es nicht gäbe, wenn die Mathematik nicht erschaffen worden wäre.

volta · Anmeldungsdatum: 04.05.2005 Beiträge: 1876 Wohnort: D59192

es war einmal in einer anderen Galaxy ...........

ach, Eternel hat das damals selbst ins Freebasic-Portal übertragen grinsen

http://www.freebasic-portal.de/code-beispiele/sonstiges/fader-in-asm-mmx-26.html
_________________
Warnung an Choleriker:
Dieser Beitrag kann Spuren von Ironie & Sarkasmus enthalten.
Zu Risiken & Nebenwirkungen fragen Sie Ihren Therapeuten oder Psychiater.

grindstone · Verfasst am: 25.03.2015, 12:18 Titel:

Kann es sein, daß der FB - Compiler bei geeignetem Quellcode von sich aus die MMX/SSE - Befehle verwendet? Als ich nämlich vor einiger Zeit ein Programm zum Normalisieren von Audiodateien von

RockTheSchock · Anmeldungsdatum: 04.04.2007 Beiträge: 138

Eventuell kannst du das ganze extrem Beschleunigen, indem du SSE2/SSE3 SIMD Befehle verwendest.

mit diesen beiden Instruktionen 4 mal in Folge ausgeführt müssten die durschnittswere für 4 bis 5 Pixel auf einmal berechnet werden können. Vorher und nachher müssten dann noch ein paar MOV befehle gemacht werden und der Puffer für die Bilddaten muss natürlich aligned sein.

PAVGB xmm1, xmm2/m128
PSHUFB xmm1, xmm2/m128

Jojo · Verfasst am: 25.03.2015, 17:38 Titel:

grindstone: Das liegt eher daran, dass eine String-Extraktion einfach saulangsam ist. FB erzeugt zumindest stadandardmäßig Code, der auch auf einem 486er noch läuft, also kein SSE. Ob es spezielle Codepfade für ausgewählte Funktionen mit SSE gibt (in der C/C++-Standardbibliothek gibt es das oft für so Funktionen wie sin/cos/pow/...) weiß ich nicht.
_________________
» Die Mathematik wurde geschaffen, um Probleme zu lösen, die es nicht gäbe, wenn die Mathematik nicht erschaffen worden wäre.

RockTheSchock · Anmeldungsdatum: 04.04.2007 Beiträge: 138

Mein Post hat sich auf die Blur Funktion bezogen, die ja immer den Durchschnitswert von 4 Pixel * 3 Farben (Bytes)bzw. 4 Bytes mit Alphachannel berechnet. D.h 4 * 4 bytes das sind 16 bytes.

Mit wenigen Instruktionen auf den xmm registern, müsste es möglich sein die Durchschnittswerte von 4 Pixel parallel zu berechnen.

volta · Anmeldungsdatum: 04.05.2005 Beiträge: 1876 Wohnort: D59192

Hi,
in FB wird in der gfxlib2 MMX angewandt (z.B. "fb_gfx_mmx.s")
Bei der Compiler-Option "-fpu SSE" werden SSE2-Assembleranweisungen zur Berechnungen von SINGLE- und DOUBLE-Variablen benutzt.
Es wird jeweils vorher geprüft ob die CPU das mitmacht.

@RockTheSchock
zum schnellen Datentransport sind SSE/SSE2 Befehle sehr gut
aber
MMX hat in der Pixelbearbeitung noch Vorteile. Ein Pixel (4 Byte) läst sich einfach in 4 Words expandieren (und packen).
Damit sind dann Additionen (auch +-*/) ohne Überlauf machbar.
_________________
Warnung an Choleriker:
Dieser Beitrag kann Spuren von Ironie & Sarkasmus enthalten.
Zu Risiken & Nebenwirkungen fragen Sie Ihren Therapeuten oder Psychiater.

Eternal_pain · Anmeldungsdatum: 08.08.2006 Beiträge: 1783 Wohnort: BW/KA

Das Fading-Beispiel hatte ich auch schon gesucht gehabt, hatte es aber unter 'Grafik und Fonts' gesucht und entsprechend nicht gefunden zwinkern

habe da dann noch das hier http://datab.us/V5oupL86Kcw#x64%20Assembly%20and%20C++%20Tutorial%2064:%20Calling%20BoxBlurASM
und noch einen anderen MMX ASM Code (Leider auch mit magerer Beschreibung) gefunden

Werde mir am Wochenende mal alles genauer ansehen und gucken was ich daraus gebastelt bekomme... habe unter der Woche leider nicht so viel Zeit

Danke schon einmal im vorraus lächeln

_________________

grindstone · Verfasst am: 26.03.2015, 18:09 Titel:

Mit der Option "-fpu SSE" zeigt der Compiler ein seltsames Verhalten:

Die Zeile

Jojo · Verfasst am: 26.03.2015, 18:20 Titel:

volta · Anmeldungsdatum: 04.05.2005 Beiträge: 1876 Wohnort: D59192

@grindstone
welche FB Version benutzt du?

grindstone · Verfasst am: 27.03.2015, 12:45 Titel:

Bei mir tritt der Fehler sowohl mit 1.01.0 als auch mit 0.90.1 auf. Die Ursache steckt aber irgendwo anders im Quellcode. Wenn ich die Zeilen

Eternal_pain · Anmeldungsdatum: 08.08.2006 Beiträge: 1783 Wohnort: BW/KA

Mein eigenen Code konnte ich noch ein klein wenig optimieren und erreiche damit nun ca ~16FPS auf dem Desktop-PC

grindstone · Verfasst am: 28.03.2015, 11:39 Titel:

Welche Größe hat dein Testbild? Ich komme bei 1280 x 1024 Pixel auf 13 bzw. 50 FPS -ohne Rand.

Gruß
grindstone
_________________
For ein halbes Jahr wuste ich nich mahl wie man Proggramira schreibt. Jetzt bin ich einen!