ぽっぺんしゃんにょろりんこ

匿名・非追跡型アダルト動画検索エンジンの設計ノート

SQL

検索機能をAPIに切り出して軽量化!個人製検索エンジンで試した責務分離の実践例

こんにちは、にょろりんこの備忘録的技術ブログです。 今回は、個人で開発・運用している検索エンジン「SaePorns」の内部構成を見直した話です。 検索機能のコードが次第に肥大化してきたため、思い切って検索処理を外部APIとして分離し、処理の責任を整理し…

Node.jsで、もうクロールしないURLと、またクロールするURLを分けてフラグ管理する話

こんにちは、にょろりんこの備忘録的技術ブログです。 今回は、私が自作している Node.js 製のクローラーの中で使っている flag-update.js という小さなファイルについて紹介します。 ティアラ_手をマルにする このファイルの役割はとてもシンプルで、対象の…

Node.jsでループ処理+データベースをフラグ管理!未処理URLだけを自動でクローリングする話

こんにちは、にょろりんこの備忘録的技術ブログです。 今日は「Node.jsで未処理のURLだけを自動で回していくループ処理モジュール」を紹介します。名前は `loop.js`。このコードはすごく地味だけど、WebクローラやURL収集バッチの「心臓部」とも言える存在で…

プロキシが回転型じゃなかったので、自前でIPローテのコードを書いた話

こんにちは、にょろりんこの備忘録的技術ブログです。 今回は、検索エンジンのインデクシングでよく使われる「回転型プロキシ」について、実際に契約してみたところ、全く回転しなかったという話と、そこから自前でIPローテーションの制御コードを作った過程…

Node.jsのCLI引数を活用し、開発・本番を分岐するテストモードを実装!本番DBを汚すことなく動作確認をする話

こんにちは、にょろりんこの備忘録的ブログです。 今回は、Node.jsのCLI引数を活用し、開発・本番を分岐するテストモードを実装。本番DBを汚すことなく動作確認をするというお話をしていきます。 みなさん、こんな経験ありませんか? スクリプトを試したいけ…