yt-dlp/yt_dlp/extractor/ctvnews.py

import re

from .common import InfoExtractor
from ..utils import orderedSet


class CTVNewsIE(InfoExtractor):
    _VALID_URL = r'https?://(?:.+?\.)?ctvnews\.ca/(?:video\?(?:clip|playlist|bin)Id=|.*?)(?P<id>[0-9.]+)(?:$|[#?&])'
    _TESTS = [{
        'url': 'http://www.ctvnews.ca/video?clipId=901995',
        'md5': 'b608f466c7fa24b9666c6439d766ab7e',
        'info_dict': {
            'id': '901995',
            'ext': 'flv',
            'title': 'Extended: \'That person cannot be me\' Johnson says',
            'description': 'md5:958dd3b4f5bbbf0ed4d045c790d89285',
            'timestamp': 1467286284,
            'upload_date': '20160630',
            'categories': [],
            'tags': [],
            'season_id': 57981,
            'duration': 764.631,
            'series': 'CTV News National story',
            'thumbnail': r're:^https?://.*\.jpg$',
            'season': 'Season 0',
            'season_number': 0,
        },
    }, {
        'url': 'http://www.ctvnews.ca/video?playlistId=1.2966224',
        'info_dict':
        {
            'id': '1.2966224',
        },
        'playlist_mincount': 19,
    }, {
        'url': 'http://www.ctvnews.ca/video?binId=1.2876780',
        'info_dict':
        {
            'id': '1.2876780',
        },
        'playlist_mincount': 100,
    }, {
        'url': 'https://www.ctvnews.ca/it-s-been-23-years-since-toronto-called-in-the-army-after-a-major-snowstorm-1.5736957',
        'info_dict':
        {
            'id': '1.5736957',
        },
        'playlist_mincount': 6,
    }, {
        'url': 'http://www.ctvnews.ca/1.810401',
        'only_matching': True,
    }, {
        'url': 'http://www.ctvnews.ca/canadiens-send-p-k-subban-to-nashville-in-blockbuster-trade-1.2967231',
        'only_matching': True,
    }, {
        'url': 'http://vancouverisland.ctvnews.ca/video?clipId=761241',
        'only_matching': True,
    }]

    def _real_extract(self, url):
        page_id = self._match_id(url)

        def ninecninemedia_url_result(clip_id):
            return {
                '_type': 'url_transparent',
                'id': clip_id,
                'url': f'9c9media:ctvnews_web:{clip_id}',
                'ie_key': 'NineCNineMedia',
            }

        if page_id.isdigit():
            return ninecninemedia_url_result(page_id)
        else:
            webpage = self._download_webpage(f'http://www.ctvnews.ca/{page_id}', page_id, query={
                'ot': 'example.AjaxPageLayout.ot',
                'maxItemsPerPage': 1000000,
            })
            entries = [ninecninemedia_url_result(clip_id) for clip_id in orderedSet(
                re.findall(r'clip\.id\s*=\s*(\d+);', webpage))]
            if not entries:
                webpage = self._download_webpage(url, page_id)
                if 'getAuthStates("' in webpage:
                    entries = [ninecninemedia_url_result(clip_id) for clip_id in
                               self._search_regex(r'getAuthStates\("([\d+,]+)"', webpage, 'clip ids').split(',')]
            return self.playlist_result(entries, page_id)
[ctvnews] Add new extractor(closes #2156) 9 years ago			`import re`

			`from .common import InfoExtractor`
[ctvnews] use orderedSet, increase the number of items for playlists and use smaller bin list for test 9 years ago			`from ..utils import orderedSet`
[ctvnews] Add new extractor(closes #2156) 9 years ago

			`class CTVNewsIE(InfoExtractor):`
[ie/ctvnews] Fix playlist ID extraction (#8892) Authored by: qbnu 1 month ago			`_VALID_URL = r'https?://(?:.+?\.)?ctvnews\.ca/(?:video\?(?:clip\|playlist\|bin)Id=\|.*?)(?P<id>[0-9.]+)(?:$\|[#?&])'`
[ctvnews] Add new extractor(closes #2156) 9 years ago			`_TESTS = [{`
			`'url': 'http://www.ctvnews.ca/video?clipId=901995',`
[ie/ctvnews] Fix playlist ID extraction (#8892) Authored by: qbnu 1 month ago			`'md5': 'b608f466c7fa24b9666c6439d766ab7e',`
[ctvnews] Add new extractor(closes #2156) 9 years ago			`'info_dict': {`
			`'id': '901995',`
[9c9media] extract mpd formats and subtitles 7 years ago			`'ext': 'flv',`
[ctvnews] Add new extractor(closes #2156) 9 years ago			`'title': 'Extended: \'That person cannot be me\' Johnson says',`
			`'description': 'md5:958dd3b4f5bbbf0ed4d045c790d89285',`
			`'timestamp': 1467286284,`
			`'upload_date': '20160630',`
[ie/ctvnews] Fix playlist ID extraction (#8892) Authored by: qbnu 1 month ago			`'categories': [],`
			`'tags': [],`
			`'season_id': 57981,`
			`'duration': 764.631,`
			`'series': 'CTV News National story',`
			`'thumbnail': r're:^https?://.*\.jpg$',`
			`'season': 'Season 0',`
			`'season_number': 0,`
[cleanup] Add more ruff rules (#10149) Authored by: seproDev Reviewed-by: bashonly <88596187+bashonly@users.noreply.github.com> Reviewed-by: Simon Sawicki <contact@grub4k.xyz> 7 months ago			`},`
[ctvnews] Add new extractor(closes #2156) 9 years ago			`}, {`
			`'url': 'http://www.ctvnews.ca/video?playlistId=1.2966224',`
			`'info_dict':`
			`{`
			`'id': '1.2966224',`
			`},`
			`'playlist_mincount': 19,`
			`}, {`
[ctvnews] use orderedSet, increase the number of items for playlists and use smaller bin list for test 9 years ago			`'url': 'http://www.ctvnews.ca/video?binId=1.2876780',`
[ctvnews] Add new extractor(closes #2156) 9 years ago			`'info_dict':`
			`{`
[ctvnews] use orderedSet, increase the number of items for playlists and use smaller bin list for test 9 years ago			`'id': '1.2876780',`
[ctvnews] Add new extractor(closes #2156) 9 years ago			`},`
[ctvnews] use orderedSet, increase the number of items for playlists and use smaller bin list for test 9 years ago			`'playlist_mincount': 100,`
[ie/ctvnews] Fix playlist ID extraction (#8892) Authored by: qbnu 1 month ago			`}, {`
			`'url': 'https://www.ctvnews.ca/it-s-been-23-years-since-toronto-called-in-the-army-after-a-major-snowstorm-1.5736957',`
			`'info_dict':`
			`{`
			`'id': '1.5736957',`
			`},`
			`'playlist_mincount': 6,`
[ctvnews] Add new extractor(closes #2156) 9 years ago			`}, {`
			`'url': 'http://www.ctvnews.ca/1.810401',`
			`'only_matching': True,`
			`}, {`
			`'url': 'http://www.ctvnews.ca/canadiens-send-p-k-subban-to-nashville-in-blockbuster-trade-1.2967231',`
			`'only_matching': True,`
[ctvnews] relax _VALID_URL regex(closes #11394) 8 years ago			`}, {`
			`'url': 'http://vancouverisland.ctvnews.ca/video?clipId=761241',`
			`'only_matching': True,`
[ctvnews] Add new extractor(closes #2156) 9 years ago			`}]`

			`def _real_extract(self, url):`
			`page_id = self._match_id(url)`

			`def ninecninemedia_url_result(clip_id):`
			`return {`
			`'_type': 'url_transparent',`
			`'id': clip_id,`
[cleanup] Add more ruff rules (#10149) Authored by: seproDev Reviewed-by: bashonly <88596187+bashonly@users.noreply.github.com> Reviewed-by: Simon Sawicki <contact@grub4k.xyz> 7 months ago			`'url': f'9c9media:ctvnews_web:{clip_id}',`
[ctvnews] Add new extractor(closes #2156) 9 years ago			`'ie_key': 'NineCNineMedia',`
			`}`

			`if page_id.isdigit():`
			`return ninecninemedia_url_result(page_id)`
			`else:`
[cleanup] Add more ruff rules (#10149) Authored by: seproDev Reviewed-by: bashonly <88596187+bashonly@users.noreply.github.com> Reviewed-by: Simon Sawicki <contact@grub4k.xyz> 7 months ago			`webpage = self._download_webpage(f'http://www.ctvnews.ca/{page_id}', page_id, query={`
[ctvnews] Add new extractor(closes #2156) 9 years ago			`'ot': 'example.AjaxPageLayout.ot',`
[ctvnews] use orderedSet, increase the number of items for playlists and use smaller bin list for test 9 years ago			`'maxItemsPerPage': 1000000,`
[ctvnews] Add new extractor(closes #2156) 9 years ago			`})`
[ctvnews] use orderedSet, increase the number of items for playlists and use smaller bin list for test 9 years ago			`entries = [ninecninemedia_url_result(clip_id) for clip_id in orderedSet(`
[ctvnews] Add new extractor(closes #2156) 9 years ago			`re.findall(r'clip\.id\s=\s(\d+);', webpage))]`
[CTVNewsIE] Add fallback for video search (#2378) Closes #2370 Authored by: Ashish0804 3 years ago			`if not entries:`
			`webpage = self._download_webpage(url, page_id)`
			`if 'getAuthStates("' in webpage:`
			`entries = [ninecninemedia_url_result(clip_id) for clip_id in`
			`self._search_regex(r'getAuthStates\("([\d+,]+)"', webpage, 'clip ids').split(',')]`
[ctvnews] Add new extractor(closes #2156) 9 years ago			`return self.playlist_result(entries, page_id)`