PythonのBeutifulSoupを使ってWebScrapingにTry
HTML言語を全く知らない拙者がPythonのライブラリBeautiful Soupを使用してWebscrapingにTry。 Python講師いまにゅ先生やPythonYouTuberサプー先生のYouTubeを参考に、わたしなりに素材を見つけて、WebScrapingにチャレンジしてみました。 まず素材ですが、「ふるさとチョイス」さんのふるさと納税返礼品リストを使ってみることにしました。あまり商品数が多すぎると整理が複雑になりますし、少なすぎるとWebScrapingらしくならないので、少しマニアックなWordでSearchしてみたところ、Hit22itemというReasonableな品物を見つけました。 SearchWordは「クラリネット」です。Search resultのスクショです。 これらの商品のitem name,(商品名) price(価格=寄付金額), product city(自治体)を取得して、tableに整理します。 必要なlibraryをimportします。 ! pip install beautifulsoup4 from bs4 import BeautifulSoup import requests from posixpath import split import pandas as pd 次にsearch resultのWeb siteのaddressをCopy and pasteしたあと、requestでweb siteを呼び出し、HTML fileを読み込みます。 url_ec = 'https://www.furusato-tax.jp/search?q=%E3%82%AF%E3%83%A9%E3%83%AA%E3%83%8D%E3%83%83%E3%83%88&header=1&target=1&sst=B' res = requests.get ( url_ec ) soup = BeautifulSoup ( res.text , 'html.parser' ) soup.find_allを使用して、HTMLFileのpとかidといったtagとclassに注目して、欲しい情報を取得します。tag...