Das deutsche QBasic- und FreeBASIC-Forum

Type · Anmeldungsdatum: 24.02.2006 Beiträge: 187 Wohnort: Dresden

Hallo Leudde,

ich hab da eine etwas abwegige Programmidee im Kopf rumschwirren:
Ein Spracherkennungsprogramm!

Wenn man einen bestimmten Satz sagt, dann soll ein vorher zugeortnetes Programm geöffnet werden.
Wenn ich zum Beispiel "öffne Mozilla" sage, dann soll Firefox gestartet werden. - Dies könnte man ja vorher entsprechend festlegen.

Leider brauche ich dafür eine Routine, die das Gesprochene "aufnimmt" und mit der vorher festgelegten Sprachausgabe vergleicht.
Man könnte ja dann die "Tonkurven" (was weis ich, wie das heißt) miteinander vergleichen und einige Abweichungen zulassen.

In QBasic gibt es ja Programme, die eine Grafik aus einer *.wav erstellen. Leider weis ich nicht, wie ich die Aufnahme anzeigen und so vergleichen könnte.

Könnt ihr mir da weiterhelfen?
Was haltet ihr überhaupt von der Idee? durchgeknallt

MfG Type

Mao · Verfasst am: 16.11.2006, 22:54 Titel:

Es gibt irgendwo auf der Seite der CodingCrew ein Beispielprogramm von Marty, bei dem er auf's Mikro zugreift und die Wellen anzeigt. lächeln

Zur Idee selbst: mit den Augen rollen

Graphisch vergleichen wär wahrscheinlich so gut wie nicht möglich. Wenn man aber Abweichungen von sagen wir 5-10% zulässt (bei dem, was du gepostet hast, isses mehr zwinkern

), dann kann "öffne Mozilla" genauso etwas anderes bedeuten. Verschiedene Ereignisse/vordefinierte Tonaufnahmen würden sich dann überlagern und du bekämst dann zum Beispiel Firefox geöffnet und gleichzeitig auch einen Client für das ed2k-Netz ("öffne Gorilla" lachen

).
Also meine Meinung kurzgefasst: das wird nix. zwinkern

So schön die Idee auch ist. Ich weiß, es gibt Spracherkennungssoftware (warum darf sich der Scheiß überhaupt so nennen?!) - rauskommen tut meist immer etwas _vollkommen_ anderes. Beispiel Handy: ich hab da auch 'ne Art Spracherkennung, wen ich anrufen will. Aber ich brauch bloß mal erkältet sein, oder ich bin g'rad an 'ner gut befahrenen Straße und schon funktioniert's net mehr. Ganz einfach deswegen, da die Abweichung zu groß ist. zwinkern

Aber lass dich mal nicht entmutigen ( zwinkern

), es gibt auch andere interessante Dinge, die in diese Richtung (fast eine Art KI) hingehen. Probier doch zum Beispiel mal, 'nen Eliza-Fake zu schreiben. lächeln

_________________
Eine handvoll Glück reicht nie für zwei.
--

Elvis · Verfasst am: 16.11.2006, 23:03 Titel:

Naja, also... theoretisch ist nichts unmöglich happy

Aber so was ist schon extrem schwierig... mit den Augen rollen

Eisbaer · Anmeldungsdatum: 16.10.2004 Beiträge: 354 Wohnort: Deutschland,Bayern

Ok, unmöglich ist das nicht.
Kommt drauf an wie du es anpacken willst,

Generell dazu siehe Telefon: (Festnetz)

Bei einem Fernsprechkanal werden 256 Stufen benutzt, ein Codewort hat 8 Bit, die Abtastfrequenz beträgt 8 kHz.

http://de.wikipedia.org/wiki/Puls-Code-Modulation
http://de.wikipedia.org/wiki/ISDN

So könnte man das dann, statt als Wave-Sinus Welle als 8 Bit Code speichern und hätte das Sprachmuster als 1 und 0 Wert.
Damit lassen sie Fehler vermeiden und Toleranzen hinzufügen.

noch was zum Mikrofon und zur Frequenzbestimmung:
http://www.activevb.de/tipps/vb6tipps/tipp0406.html

Grüße Eisbaer
_________________
Eigene Webseite:
http://www.eisbaer-studios.de

croco97 · Anmeldungsdatum: 04.11.2005 Beiträge: 260

Ich wüsste sofort, wie ich das anpacke: Über neuronale Netze.
http://de.wikipedia.org/wiki/K%C3%BCnstliches_neuronales_Netz
http://www.neuronalesnetz.de/
http://www.pscode.com/vb/scripts/ShowCode.asp?txtCodeId=36178&lngWId=1

Das heisst, man schickt die Amplituden-Sequenzen vieler Sprachsamples "Öffne Mozilla" von verschiedenen Sprechern in den Input eines NN und lässt es auf Treffer trainieren. Das wird nicht viel Training brauchen, weil die Aufgabe für NN gut geschnitten und recht einfach ist.

Viele Grüsse!

Croco

Elvis · Verfasst am: 17.11.2006, 15:02 Titel:

Type · Anmeldungsdatum: 24.02.2006 Beiträge: 187 Wohnort: Dresden

Hallo Leudde,
eure Meinungen find ich sehr interessant, hätte nicht gedacht, dass es so eine Resonanz gibt. zwinkern

Ich hab mal versucht mit Hilfe von Sample.bas der CodingCrew eine Aufnahme- und Abfrageroutine zu basteln.
Anstatt der Grafik, habe ich den "Wert" verwendet, der zuerst erstellt wird. (daraus ensteht dann die Grafik)
Die Zahlen werden beim erstellen eines Sprachbefehls gespeichert und die ganze Zeit über in einer Routine abgefragt.
durchgeknallt

Hat an sich gut gefunzt, aber die Abweichungen sind zu groß um sie vergleichen zu können. Vor allem was die länge des Sprachbefehls angeht...
- Daran muss ich wohl noch arbeiten...

MfG Type

Jojo · Verfasst am: 17.11.2006, 23:38 Titel:

nur mal so, genau die selbe projektfrage und genau den selben lösungsansatz vom autor aus gab's auch schon aufm Infection-Board.....kann das was heißen? durchgeknallt

_________________
» Die Mathematik wurde geschaffen, um Probleme zu lösen, die es nicht gäbe, wenn die Mathematik nicht erschaffen worden wäre.

dreael · Verfasst am: 18.11.2006, 11:56 Titel:

Das Samplen über den A/D-Wandler der Soundkarte stellt bei diesem Projekt noch die einfachste Aufgabe dar. Schwieriger wird schon die Auswertung.

Direkter Wellenformvergleich kannst Du vergessen, schliesslich spricht man nicht immer genau gleich schnell, so dass bereits die Anzahl Schwingungen variiert. Am ehesten dürfest Du noch Erfolg haben mit einer Fourier-Analyse Erfolg haben, also dem gezielten Zerlegen in die Grund- und einzelnen Oberschwingungen.
_________________
Teste die PC-Sicherheit mit www.sec-check.net

Skilltronic · Anmeldungsdatum: 10.09.2004 Beiträge: 1148 Wohnort: Köln

Hallo

Type · Anmeldungsdatum: 24.02.2006 Beiträge: 187 Wohnort: Dresden

Tach Leudde,

genau das hatte ich auch vor.
Der Lautstärkepegel wird aufgenommen und mit dem Gesprochenen verglichen. - Es wird aber nur etwas aufgenommen, wenn eine bestimmte Lautstärke erreicht wird.

Diese wird zuvor automatisch festgelegt. (Wenn man nichts sagt, dann gibt es ja trotzdem Geräusche, diese Umgebungslautstärke wird dann übergangen und nicht in der Aufnahme gespeichert)

Der Sache mit dem Vergleich komme ich, glaub ich, langsam näher... - Allerdings weis ich noch nicht, was man gegen die Längenunterschiede des Gesprochenen Textes machen kann... mit dem Kopf durch die Mauer wollen

@Jojo:
Infection-Borad? - Ich bin nur hier registriert... keine Ahnung! - Könntest du mir evt. ne URL geben, damit ich mir das mal durchlesen kann?

@dreael:
Irgendwie kann ich mit dieser Fourier-Analyse nix anfangen, ich versteh das irgendwie nich ugly!

MfG Type

Michael Frey · Verfasst am: 18.11.2006, 14:43 Titel:

Jojo · Verfasst am: 18.11.2006, 21:53 Titel:

type: guckst du hier... zwinkern

_________________
» Die Mathematik wurde geschaffen, um Probleme zu lösen, die es nicht gäbe, wenn die Mathematik nicht erschaffen worden wäre.

Eisbaer · Verfasst am: 19.11.2006, 13:17 Titel: IBM - Spracherkennung

Oder du wartest einfach auf IBM... lächeln

http://www.golem.de/0409/33525.html

Grüße Eisbaer
_________________
Eigene Webseite:
http://www.eisbaer-studios.de

Flo · Verfasst am: 20.11.2006, 17:36 Titel:

Mao · Verfasst am: 20.11.2006, 17:57 Titel:

Du hast wirklich noch viel zu lernen. Zunge rausstrecken

Wenn man überleben will, muss man Kritik vertragen können und erkennen, was gerechtfertigt war und was nicht. (In diesem Fall war's das aber. zwinkern

)
_________________
Eine handvoll Glück reicht nie für zwei.
--

croco97 · Anmeldungsdatum: 04.11.2005 Beiträge: 260

helium · Verfasst am: 21.11.2006, 14:18 Titel:

Jo, NNs wäre jetzt erlichgesagt meine einzige Idee, wie ich das umsetzten könnte, obwohl meine NN-Erfahrungen doch arg beschränkt sind.

Audioanalysen in der Zeit-Domäne kannste ansonsten direkt knicken, behaupte ich jetzt mal.

Selbst in der Freqeunz-Domäne wirste Probleme haben. Die Formanten sind zwar bei allen Menschen ähnlich (deswegen klingt ein Mensch immer nach Mensch), aber dennoch verschieden (deswegen haben verschiedene Menschen auch verschiedene Stimmen). Männder, Frauen und Kinder sind diesbezüglich dann auch noch komplett verschieden.
_________________
Bevor Sie aufhören sich körperlich zu betätigen sollten Sie ihren Doktor befragen. Körperliche Inaktivität ist abnormal und gefährlich für Ihre Gesundheit.

Skilltronic · Anmeldungsdatum: 10.09.2004 Beiträge: 1148 Wohnort: Köln

Hallo

Type · Anmeldungsdatum: 24.02.2006 Beiträge: 187 Wohnort: Dresden

Hallo Leudde,