HtmlSQL Class. Parsear Contenido HTML

Vimos anteriormente cómo parsear contenido XML mediante Magpie RSS, pero en muchos casos una web puede no ofrecer un RSS y el contenido que necesitamos parsear se encuentra en HTML. Vamos a ver hoy como hacerlo mediante la clase HtmlSQL

parsear html


Lo primero que debemos hacer es descargar la clase:


Una vez descargada y subida a nuestro servidor podremos comenzar a trabajar con esta clase.Vamos a ver cómo realizar una consulta simple con htmlSQL. Lo primero será incluir la librería:

include_once("../snoopy.class.php");
include_once("../htmlsql.class.php");
$wsql = new htmlsql();

Nos conectamos a la URL:

if (!$wsql->connect('url', 'http://codedump.jonasjohn.de/')){
print 'Error durante la consección: ' . $wsql->error;
exit;
}


Ahora ya podremos realiar una consulta. En este ejemplo extraeremos todos los links que posean la clase "nav_item" (class="nav_item"):


if (!$wsql->query('SELECT * FROM a WHERE $class == "nav_item"')){
print "Query error: " . $wsql->error;
exit;
}



Ya podremos mostrar los resultados:

foreach($wsql->fetch_array() as $row){
print_r($row);
$row is an array and looks like this:
Array (
[href] => /feedback.htm
[class] => nav_item
[tagname] => a
[text] => Feedback
)
}

Esto es solo un ejemplo, al descargar la clase encontrarán muchos más ejemplo de lo que se puede realizar con esta clase. Les recomendamos visitar la web de sus creadores.
 
PHP Ya! © Creative Commons 2010 | Plantilla Quo creada por Ciudad Blogger