ぽっぺんしゃんにょろりんこ

匿名・非追跡型アダルト動画検索エンジンの設計ノート

スクレイピング

Node.jsでループ処理+データベースをフラグ管理!未処理URLだけを自動でクローリングする話

こんにちは、にょろりんこの備忘録的技術ブログです。 今日は「Node.jsで未処理のURLだけを自動で回していくループ処理モジュール」を紹介します。名前は `loop.js`。このコードはすごく地味だけど、WebクローラやURL収集バッチの「心臓部」とも言える存在で…

PuppeteerとNode.jsで自動クロール。動的・静的ウェブページのURLを抽出するというお話

こんにちは、にょろりんこの備忘録的技術ブログです。 今回は、自作クローラシリーズの中核ともいえる「URL収集ロジック」について紹介してみようと思います。 静的なHTMLページはもちろん、JavaScriptでリンクが後から描画される動的ページ(SPAなど)にも…