Python3で日本経済新聞のタイトルを取得する

02 13, 2019

やってみたかったスクレイピング

Webサービスを作っていると、コンテンツのベースデータを集めるためにスクレイピングが出来たらいいな。はいつも思っている。 そこで一念奮起してPythonを勉強している。

今回やること

日経新聞のホームページからタイトルを取得

書いたスクリプト

import urllib.request, urllib.error
from bs4 import BeautifulSoup

# アクセスするURL
url = "http://www.nikkei.com/"

# URLにアクセスする
html = urllib.request.urlopen(url)

# htmlをBeautifulSoupで処理する
soup = BeautifulSoup(html, "html.parser")

# タイトル要素を取得する
title_tag = soup.title

# 要素の文字列を取得する
title = title_tag.string

# タイトル要素を出力
print(title_tag)

# タイトルを文字列を出力
print(title)

urllibとは?

urllib は URL を扱う幾つかのモジュールを集めたパッケージです。

  • urllib.request は URL を開いて読むためのモジュールです

  • urllib.error は urllib.request が発生させる例外を持っています

  • urllib.parse は URL をパースするためのモジュールです

  • urllib.robotparser は robots.txt ファイルをパースするためのモジュールです

BeautifulSoupとは?

Pythonのライブラリの一つで、スクレイピングに特化したモジュールです。 htmlファイルをタグ情報から解析し、抽出データを格納したインスタンスを返します。

ハマったところ

参考にしたコードがPython2系だったので書き方が結構違った。


コリ

コリといいます。奈良県でサラリーマンをしています。GatsbyJSでサイトを作るのが趣味です。