Scrape Isi dari Sebuah Artikel dengan Menggunakan Laravel PHP
0
Kadang dalam sebuah artikel disisipi tag yang tidak berkaitan dengan isi berita tersebut. Misalnya script yang isinya menampilkan iklan. Saat scrape inginnya hanya mengambil isi yang perlu saja, misalnya kata-kata yang ada di dalam tag paragraf (<p>
).
Ada sebuah pustaka yang menarik yang bisa digunakan dengan baik pada Laravel:
composer require weidner/goutte;
Kemudian panggil pustaka tersebut di dalam berkas PHP:
use Symfony\Component\DomCrawler\Crawler;
use Weidner\Goutte\GoutteFacade as Goutte;
Lengkapnya seperti di bawah ini:
$crawler = Goutte::request('GET', $url);
$crawler = $this->document->filter('article');
$content = $crawler->filter('p')->each(function ($node) {
return $node->text();
});
Hasil dari scrape akan disimpan dalam varibel $content
dalam bentuk array.