Vorheriges Thema anzeigen :: Nächstes Thema anzeigen |
Autor |
Nachricht |
E605
Anmeldungsdatum: 06.02.2011 Beiträge: 1
|
Verfasst am: 06.02.2011, 22:04 Titel: Parsen von HTML |
|
|
Hey,
Ich versuche derzeit mit FreeBasic eine HTML-Seite erst herunterzuladen und dann anschließend zu verarbeiten. Das herunterladen klappt dank http://www.freebasic-portal.de/porticula/test-clientbas-739.html ohne Probleme, allerdings harpert es bei der Verarbeitung. Die HTML-Seite ist wie folgt aufgebaut:
Code: |
<html>
<generische Tags>
<table id=xy>
...
</table>
<table id="content">
<tr>
<td>Wert1</td>
<td>Wert2</td>
</tr>
<tr>
<td>Wert3</td>
</tr>
</table>
<generische Tags>
|
Ich bin an den Werten "Wert1","Wert2","Wert3" (Anzahl variabel) interessiert. Das Problem ist, ich hab überhaupt keine Ahnung wie ich jetzt vorgehen soll. Meine Idee war es eine RegEx C-Bibliothek zu nehmen. Allerdings weiß ich auch nicht wie in diesem Fall die Regular Expression aussehen sollte. Hat vielleicht jemand eine Idee was man sonst machen könnte? |
|
Nach oben |
|
 |
nemored

Anmeldungsdatum: 22.02.2007 Beiträge: 4704 Wohnort: ~/
|
Verfasst am: 06.02.2011, 22:09 Titel: |
|
|
Zu XML gibt es auf jeden Fall schon gute Parser für FreeBASIC; HTML weiß ich nicht auswendig. Wenn du dir über den Seitenaufbau zu 100% sicher bist, dann kannst du auch mit INSTR arbeiten. Für Seiten, die ich selbst verwalte, nutze ich dafür auch gern Markierungen mittels <!-- Kommentar --> _________________ Deine Chance beträgt 1:1000. Also musst du folgendes tun: Vergiss die 1000 und konzentriere dich auf die 1. |
|
Nach oben |
|
 |
ThePuppetMaster

Anmeldungsdatum: 18.02.2007 Beiträge: 1839 Wohnort: [JN58JR]
|
Verfasst am: 08.02.2011, 20:56 Titel: |
|
|
nun ... da gibt es mehrere varianten, wie du vorgehen kannst.
wenn du eine seit hast, die immer so aussieht, und deren struktur immer gleich bleibt, dann kannst du das sehr simpel mit instr und instrrev lösen ..
wenn sich die struktur jedoch ändert, dann solltest du einen strukturierten parser basteln, (falls du das überhaupt selbst basteln willst)
dieser könnte dann die tag's und deren inhalt in eine Baumstruktur übersetzen, die du Windows-Explorer like auflistesten kannst.
dort kannst du dann entsprechend deinen rahmenbedinungen die informationen extrahieren.
MfG
TPM _________________ [ WebFBC ][ OPS ][ ToOFlo ][ Wiemann.TV ] |
|
Nach oben |
|
 |
|