PHP: cómo raspar el contenido del sitio web basado en Javascript

Estoy tratando de obtener el contenido de este sitio web usando la biblioteca PHP simplehtmldom.

http://www.immigration.govt.nz/migrant/stream/work/workingholiday/czechwhs.htm ”

No funciona, así que traté de usar CURL:

function curl_get_file_contents($URL) { $c = curl_init(); curl_setopt($c, CURLOPT_RETURNTRANSFER, 1); curl_setopt($c, CURLOPT_URL, $URL); $contents = curl_exec($c); curl_close($c); if ($contents) return $contents; else return FALSE; } 

Pero siempre resuélvete solo con algún código y contenido JS:

 Please enable JavaScript to view the page content. 

¿Hay alguna posibilidad de resolver esto usando PHP? Debo usar PHP en este caso, así que necesito simular el navegador basado en JS.

Muchas gracias por cualquier consejo.

Debo usar PHP en este caso, así que necesito simular el navegador basado en JS.

Te recomendaría de dos maneras:

  1. Aproveche el plugin v8js php para lidiar con los js del sitio al raspar. Vea aquí un ejemplo de uso.
  2. Simule el navegador basado en JS a través de Selenium , iMacros o webRobots.io Chrome ext. Pero en este caso estás fuera de las secuencias de comandos de PHP.