Scrape Isi dari Sebuah Artikel dengan Menggunakan Laravel PHP

Kadang dalam sebuah artikel disisipi tag yang tidak berkaitan dengan isi berita tersebut. Misalnya script yang isinya menampilkan iklan. Saat scrape inginnya hanya mengambil isi yang perlu saja, misalnya kata-kata yang ada di dalam tag paragraf (<p>).

Ada sebuah pustaka yang menarik yang bisa digunakan dengan baik pada Laravel:

composer require weidner/goutte;

Kemudian panggil pustaka tersebut di dalam berkas PHP:

use Symfony\Component\DomCrawler\Crawler;
use Weidner\Goutte\GoutteFacade as Goutte;

Lengkapnya seperti di bawah ini:

$crawler = Goutte::request('GET', $url);
$crawler = $this->document->filter('article');
$content = $crawler->filter('p')->each(function ($node) {
  return $node->text();
});

Hasil dari scrape akan disimpan dalam varibel $content dalam bentuk array.

Connect with me:

Comments

Spammy comment will be deleted. Markdown syntax is supported.