タイトル | スクレイピング |
---|---|
投稿者 | ayase |
投稿日 | 2023年09月12日 |
『スクレイピング』 久しぶりのコラムです。 最近、仕事の関係で少しpython(プログラム言語)の勉強をしています。 そこそこコードもかけるようになってきたので、前々からやってみたかったスクレイピングのプログラムを書いてみました。 まずは、掲示板の書込を一括して集計できるようなものを作ってみました。 もちろん風俗系の板です。 なんとかch系の板は、けっこう1ページに膨大な情報が入っていて検索する場合も楽なのですが、なんとかラブの板は、1ページに10コメントしか載っていません。一つの板は100ページくらい(コメント数は999件)になります。 過去に遡って女の子の情報を収集しようとすると ページ切り替え→検索→ページ切り替え力換え→検索・・・ と非常にめんどうなのです。 そこでこれらの100ページにわたるコメントを全部一気に読み込んで、全部まとめて見れるようなhtmlを生成するプログラムを作りました。 使われた方はご存じだと思いますが、pythonにはいろんなツールが準備されていて、このようなことをするプログラムも数十行程度で書けちゃいます。 掲示板整理プログラムは、そこそこ使えるのができたので、次は、特定のキーワードで口コミを収集するようなプログラムを作ってみようかと考えています。 こんなのが欲しい!っていうアイデアがあれば、教えてください。 | |
この風俗コラムへの応援コメント(4件中、最新3件)
- あんずぼー(57)2023/9/21>>ayase(129)の『スクレイピング』のコラムスクレイプって、削るとか削ぐとか、そういう意味でしたっけ?
まさに情報を削ぐというか、上澄みを取るようなイメージなのでしょうか。
確かに必要な情報を得ようとすると、次々にページ開いて閉じてを繰り返さないといけないので、かなりの時間と手間を要しますよね…。(それがいつも面倒になってしまうワタシです。笑)
お店の在籍情報から、特定の条件で抽出できたら…と思うのですが、そういう機能があるところもあれば無いお店も多く…。
というか、そもそも「アンダーの有無」というプロフ情報が無いお店がほとんどですので…。(^^;)