youtube-dl/youtube_dl/extractor/facebook.py

# coding: utf-8
from __future__ import unicode_literals

import re
import socket

from .common import InfoExtractor
from ..compat import (
    compat_etree_fromstring,
    compat_http_client,
    compat_urllib_error,
    compat_urllib_parse_unquote,
    compat_urllib_parse_unquote_plus,
)
from ..utils import (
    clean_html,
    error_to_compat_str,
    ExtractorError,
    float_or_none,
    get_element_by_id,
    int_or_none,
    js_to_json,
    limit_length,
    parse_count,
    qualities,
    sanitized_Request,
    try_get,
    urlencode_postdata,
    urljoin,
)


class FacebookIE(InfoExtractor):
    _VALID_URL = r'''(?x)
                (?:
                    https?://
                        (?:[\w-]+\.)?(?:facebook\.com|facebookcorewwwi\.onion)/
                        (?:[^#]*?\#!/)?
                        (?:
                            (?:
                                video/video\.php|
                                photo\.php|
                                video\.php|
                                video/embed|
                                story\.php|
                                watch/?
                            )\?(?:.*?)(?:v|video_id|story_fbid)=|
                            [^/]+/videos/(?:[^/]+/)?|
                            [^/]+/posts/|
                            groups/[^/]+/permalink/
                        )|
                    facebook:
                )
                (?P<id>[0-9]+)
                '''
    _LOGIN_URL = 'https://www.facebook.com/login.php?next=http%3A%2F%2Ffacebook.com%2Fhome.php&login_attempt=1'
    _CHECKPOINT_URL = 'https://www.facebook.com/checkpoint/?next=http%3A%2F%2Ffacebook.com%2Fhome.php&_fb_noscript=1'
    _NETRC_MACHINE = 'facebook'
    IE_NAME = 'facebook'

    _VIDEO_PAGE_TEMPLATE = 'https://www.facebook.com/video/video.php?v=%s'
    _VIDEO_PAGE_TAHOE_TEMPLATE = 'https://www.facebook.com/video/tahoe/async/%s/?chain=true&isvideo=true&payloadtype=primary'

    _TESTS = [{
        'url': 'https://www.facebook.com/video.php?v=637842556329505&fref=nf',
        'md5': '6a40d33c0eccbb1af76cf0485a052659',
        'info_dict': {
            'id': '637842556329505',
            'ext': 'mp4',
            'title': 're:Did you know Kei Nishikori is the first Asian man to ever reach a Grand Slam',
            'uploader': 'Tennis on Facebook',
            'upload_date': '20140908',
            'timestamp': 1410199200,
        },
        'skip': 'Requires logging in',
    }, {
        # data.video
        'url': 'https://www.facebook.com/video.php?v=274175099429670',
        'info_dict': {
            'id': '274175099429670',
            'ext': 'mp4',
            'title': 're:^Asif Nawab Butt posted a video',
            'uploader': 'Asif Nawab Butt',
            'upload_date': '20140506',
            'timestamp': 1399398998,
            'thumbnail': r're:^https?://.*',
        },
        'expected_warnings': [
            'title'
        ]
    }, {
        'note': 'Video with DASH manifest',
        'url': 'https://www.facebook.com/video.php?v=957955867617029',
        'md5': 'b2c28d528273b323abe5c6ab59f0f030',
        'info_dict': {
            'id': '957955867617029',
            'ext': 'mp4',
            'title': 'When you post epic content on instagram.com/433 8 million followers, this is ...',
            'uploader': 'Demy de Zeeuw',
            'upload_date': '20160110',
            'timestamp': 1452431627,
        },
        'skip': 'Requires logging in',
    }, {
        'url': 'https://www.facebook.com/maxlayn/posts/10153807558977570',
        'md5': '037b1fa7f3c2d02b7a0d7bc16031ecc6',
        'info_dict': {
            'id': '544765982287235',
            'ext': 'mp4',
            'title': '"What are you doing running in the snow?"',
            'uploader': 'FailArmy',
        },
        'skip': 'Video gone',
    }, {
        'url': 'https://m.facebook.com/story.php?story_fbid=1035862816472149&id=116132035111903',
        'md5': '1deb90b6ac27f7efcf6d747c8a27f5e3',
        'info_dict': {
            'id': '1035862816472149',
            'ext': 'mp4',
            'title': 'What the Flock Is Going On In New Zealand  Credit: ViralHog',
            'uploader': 'S. Saint',
        },
        'skip': 'Video gone',
    }, {
        'note': 'swf params escaped',
        'url': 'https://www.facebook.com/barackobama/posts/10153664894881749',
        'md5': '97ba073838964d12c70566e0085c2b91',
        'info_dict': {
            'id': '10153664894881749',
            'ext': 'mp4',
            'title': 'Average time to confirm recent Supreme Court nominees: 67 days Longest it\'s t...',
            'thumbnail': r're:^https?://.*',
            'timestamp': 1456259628,
            'upload_date': '20160223',
            'uploader': 'Barack Obama',
        },
    }, {
        # have 1080P, but only up to 720p in swf params
        # data.video.story.attachments[].media
        'url': 'https://www.facebook.com/cnn/videos/10155529876156509/',
        'md5': '9571fae53d4165bbbadb17a94651dcdc',
        'info_dict': {
            'id': '10155529876156509',
            'ext': 'mp4',
            'title': 'She survived the holocaust — and years later, she’s getting her citizenship s...',
            'timestamp': 1477818095,
            'upload_date': '20161030',
            'uploader': 'CNN',
            'thumbnail': r're:^https?://.*',
            'view_count': int,
        },
    }, {
        # bigPipe.onPageletArrive ... onPageletArrive pagelet_group_mall
        # data.node.comet_sections.content.story.attachments[].style_type_renderer.attachment.media
        'url': 'https://www.facebook.com/yaroslav.korpan/videos/1417995061575415/',
        'info_dict': {
            'id': '1417995061575415',
            'ext': 'mp4',
            'title': 'md5:1db063d6a8c13faa8da727817339c857',
            'timestamp': 1486648217,
            'upload_date': '20170209',
            'uploader': 'Yaroslav Korpan',
        },
        'params': {
            'skip_download': True,
        },
    }, {
        'url': 'https://www.facebook.com/LaGuiaDelVaron/posts/1072691702860471',
        'info_dict': {
            'id': '1072691702860471',
            'ext': 'mp4',
            'title': 'md5:ae2d22a93fbb12dad20dc393a869739d',
            'timestamp': 1477305000,
            'upload_date': '20161024',
            'uploader': 'La Guía Del Varón',
            'thumbnail': r're:^https?://.*',
        },
        'params': {
            'skip_download': True,
        },
    }, {
        # data.node.comet_sections.content.story.attachments[].style_type_renderer.attachment.media
        'url': 'https://www.facebook.com/groups/1024490957622648/permalink/1396382447100162/',
        'info_dict': {
            'id': '1396382447100162',
            'ext': 'mp4',
            'title': 'md5:19a428bbde91364e3de815383b54a235',
            'timestamp': 1486035494,
            'upload_date': '20170202',
            'uploader': 'Elisabeth Ahtn',
        },
        'params': {
            'skip_download': True,
        },
    }, {
        'url': 'https://www.facebook.com/video.php?v=10204634152394104',
        'only_matching': True,
    }, {
        'url': 'https://www.facebook.com/amogood/videos/1618742068337349/?fref=nf',
        'only_matching': True,
    }, {
        # data.mediaset.currMedia.edges
        'url': 'https://www.facebook.com/ChristyClarkForBC/videos/vb.22819070941/10153870694020942/?type=2&theater',
        'only_matching': True,
    }, {
        # data.video.story.attachments[].media
        'url': 'facebook:544765982287235',
        'only_matching': True,
    }, {
        # data.node.comet_sections.content.story.attachments[].style_type_renderer.attachment.media
        'url': 'https://www.facebook.com/groups/164828000315060/permalink/764967300301124/',
        'only_matching': True,
    }, {
        # data.video.creation_story.attachments[].media
        'url': 'https://zh-hk.facebook.com/peoplespower/videos/1135894589806027/',
        'only_matching': True,
    }, {
        # data.video
        'url': 'https://www.facebookcorewwwi.onion/video.php?v=274175099429670',
        'only_matching': True,
    }, {
        # no title
        'url': 'https://www.facebook.com/onlycleverentertainment/videos/1947995502095005/',
        'only_matching': True,
    }, {
        # data.video
        'url': 'https://www.facebook.com/WatchESLOne/videos/359649331226507/',
        'info_dict': {
            'id': '359649331226507',
            'ext': 'mp4',
            'title': '#ESLOne VoD - Birmingham Finals Day#1 Fnatic vs. @Evil Geniuses',
            'uploader': 'ESL One Dota 2',
        },
        'params': {
            'skip_download': True,
        },
    }, {
        # data.node.comet_sections.content.story.attachments[].style_type_renderer.attachment.all_subattachments.nodes[].media
        'url': 'https://www.facebook.com/100033620354545/videos/106560053808006/',
        'info_dict': {
            'id': '106560053808006',
        },
        'playlist_count': 2,
    }, {
        # data.video.story.attachments[].media
        'url': 'https://www.facebook.com/watch/?v=647537299265662',
        'only_matching': True,
    }, {
        # data.node.comet_sections.content.story.attachments[].style_type_renderer.attachment.all_subattachments.nodes[].media
        'url': 'https://www.facebook.com/PankajShahLondon/posts/10157667649866271',
        'info_dict': {
            'id': '10157667649866271',
        },
        'playlist_count': 3,
    }, {
        # data.nodes[].comet_sections.content.story.attachments[].style_type_renderer.attachment.media
        'url': 'https://m.facebook.com/Alliance.Police.Department/posts/4048563708499330',
        'info_dict': {
            'id': '117576630041613',
            'ext': 'mp4',
            # TODO: title can be extracted from video page
            'title': 'Facebook video #117576630041613',
            'uploader_id': '189393014416438',
            'upload_date': '20201123',
            'timestamp': 1606162592,
        },
        'skip': 'Requires logging in',
    }]
    _SUPPORTED_PAGLETS_REGEX = r'(?:pagelet_group_mall|permalink_video_pagelet|hyperfeed_story_id_[0-9a-f]+)'

    @staticmethod
    def _extract_urls(webpage):
        urls = []
        for mobj in re.finditer(
                r'<iframe[^>]+?src=(["\'])(?P<url>https?://www\.facebook\.com/(?:video/embed|plugins/video\.php).+?)\1',
                webpage):
            urls.append(mobj.group('url'))
        # Facebook API embed
        # see https://developers.facebook.com/docs/plugins/embedded-video-player
        for mobj in re.finditer(r'''(?x)<div[^>]+
                class=(?P<q1>[\'"])[^\'"]*\bfb-(?:video|post)\b[^\'"]*(?P=q1)[^>]+
                data-href=(?P<q2>[\'"])(?P<url>(?:https?:)?//(?:www\.)?facebook.com/.+?)(?P=q2)''', webpage):
            urls.append(mobj.group('url'))
        return urls

    def _login(self):
        useremail, password = self._get_login_info()
        if useremail is None:
            return

        login_page_req = sanitized_Request(self._LOGIN_URL)
        self._set_cookie('facebook.com', 'locale', 'en_US')
        login_page = self._download_webpage(login_page_req, None,
                                            note='Downloading login page',
                                            errnote='Unable to download login page')
        lsd = self._search_regex(
            r'<input type="hidden" name="lsd" value="([^"]*)"',
            login_page, 'lsd')
        lgnrnd = self._search_regex(r'name="lgnrnd" value="([^"]*?)"', login_page, 'lgnrnd')

        login_form = {
            'email': useremail,
            'pass': password,
            'lsd': lsd,
            'lgnrnd': lgnrnd,
            'next': 'http://facebook.com/home.php',
            'default_persistent': '0',
            'legacy_return': '1',
            'timezone': '-60',
            'trynum': '1',
        }
        request = sanitized_Request(self._LOGIN_URL, urlencode_postdata(login_form))
        request.add_header('Content-Type', 'application/x-www-form-urlencoded')
        try:
            login_results = self._download_webpage(request, None,
                                                   note='Logging in', errnote='unable to fetch login page')
            if re.search(r'<form(.*)name="login"(.*)</form>', login_results) is not None:
                error = self._html_search_regex(
                    r'(?s)<div[^>]+class=(["\']).*?login_error_box.*?\1[^>]*><div[^>]*>.*?</div><div[^>]*>(?P<error>.+?)</div>',
                    login_results, 'login error', default=None, group='error')
                if error:
                    raise ExtractorError('Unable to login: %s' % error, expected=True)
                self._downloader.report_warning('unable to log in: bad username/password, or exceeded login rate limit (~3/min). Check credentials or wait.')
                return

            fb_dtsg = self._search_regex(
                r'name="fb_dtsg" value="(.+?)"', login_results, 'fb_dtsg', default=None)
            h = self._search_regex(
                r'name="h"\s+(?:\w+="[^"]+"\s+)*?value="([^"]+)"', login_results, 'h', default=None)

            if not fb_dtsg or not h:
                return

            check_form = {
                'fb_dtsg': fb_dtsg,
                'h': h,
                'name_action_selected': 'dont_save',
            }
            check_req = sanitized_Request(self._CHECKPOINT_URL, urlencode_postdata(check_form))
            check_req.add_header('Content-Type', 'application/x-www-form-urlencoded')
            check_response = self._download_webpage(check_req, None,
                                                    note='Confirming login')
            if re.search(r'id="checkpointSubmitButton"', check_response) is not None:
                self._downloader.report_warning('Unable to confirm login, you have to login in your browser and authorize the login.')
        except (compat_urllib_error.URLError, compat_http_client.HTTPException, socket.error) as err:
            self._downloader.report_warning('unable to log in: %s' % error_to_compat_str(err))
            return

    def _real_initialize(self):
        self._login()

    def _extract_from_url(self, url, video_id):
        webpage = self._download_webpage(
            url.replace('://m.facebook.com/', '://www.facebook.com/'), video_id)

        video_data = None

        def extract_video_data(instances):
            video_data = []
            for item in instances:
                if try_get(item, lambda x: x[1][0]) == 'VideoConfig':
                    video_item = item[2][0]
                    if video_item.get('video_id'):
                        video_data.append(video_item['videoData'])
            return video_data

        server_js_data = self._parse_json(self._search_regex(
            r'handleServerJS\(({.+})(?:\);|,")', webpage,
            'server js data', default='{}'), video_id, fatal=False)

        if server_js_data:
            video_data = extract_video_data(server_js_data.get('instances', []))

        def extract_from_jsmods_instances(js_data):
            if js_data:
                return extract_video_data(try_get(
                    js_data, lambda x: x['jsmods']['instances'], list) or [])

        def extract_dash_manifest(video, formats):
            dash_manifest = video.get('dash_manifest')
            if dash_manifest:
                formats.extend(self._parse_mpd_formats(
                    compat_etree_fromstring(compat_urllib_parse_unquote_plus(dash_manifest))))

        def process_formats(formats):
            # Downloads with browser's User-Agent are rate limited. Working around
            # with non-browser User-Agent.
            for f in formats:
                f.setdefault('http_headers', {})['User-Agent'] = 'facebookexternalhit/1.1'

            self._sort_formats(formats)

        if not video_data:
            server_js_data = self._parse_json(self._search_regex([
                r'bigPipe\.onPageletArrive\(({.+?})\)\s*;\s*}\s*\)\s*,\s*["\']onPageletArrive\s+' + self._SUPPORTED_PAGLETS_REGEX,
                r'bigPipe\.onPageletArrive\(({.*?id\s*:\s*"%s".*?})\);' % self._SUPPORTED_PAGLETS_REGEX
            ], webpage, 'js data', default='{}'), video_id, js_to_json, False)
            video_data = extract_from_jsmods_instances(server_js_data)

        if not video_data:
            graphql_data = self._parse_json(self._search_regex(
                r'handleWithCustomApplyEach\([^,]+,\s*({.*?"(?:dash_manifest|playable_url(?:_quality_hd)?)"\s*:\s*"[^"]+".*?})\);',
                webpage, 'graphql data', default='{}'), video_id, fatal=False) or {}
            for require in (graphql_data.get('require') or []):
                if require[0] == 'RelayPrefetchedStreamCache':
                    entries = []

                    def parse_graphql_video(video):
                        formats = []
                        q = qualities(['sd', 'hd'])
                        for (suffix, format_id) in [('', 'sd'), ('_quality_hd', 'hd')]:
                            playable_url = video.get('playable_url' + suffix)
                            if not playable_url:
                                continue
                            formats.append({
                                'format_id': format_id,
                                'quality': q(format_id),
                                'url': playable_url,
                            })
                        extract_dash_manifest(video, formats)
                        process_formats(formats)
                        v_id = video.get('videoId') or video.get('id') or video_id
                        info = {
                            'id': v_id,
                            'formats': formats,
                            'thumbnail': try_get(video, lambda x: x['thumbnailImage']['uri']),
                            'uploader_id': try_get(video, lambda x: x['owner']['id']),
                            'timestamp': int_or_none(video.get('publish_time')),
                            'duration': float_or_none(video.get('playable_duration_in_ms'), 1000),
                        }
                        description = try_get(video, lambda x: x['savable_description']['text'])
                        title = video.get('name')
                        if title:
                            info.update({
                                'title': title,
                                'description': description,
                            })
                        else:
                            info['title'] = description or 'Facebook video #%s' % v_id
                        entries.append(info)

                    def parse_attachment(attachment, key='media'):
                        media = attachment.get(key) or {}
                        if media.get('__typename') == 'Video':
                            return parse_graphql_video(media)

                    data = try_get(require, lambda x: x[3][1]['__bbox']['result']['data'], dict) or {}

                    nodes = data.get('nodes') or []
                    node = data.get('node') or {}
                    if not nodes and node:
                        nodes.append(node)
                    for node in nodes:
                        attachments = try_get(node, lambda x: x['comet_sections']['content']['story']['attachments'], list) or []
                        for attachment in attachments:
                            attachment = try_get(attachment, lambda x: x['style_type_renderer']['attachment'], dict)
                            ns = try_get(attachment, lambda x: x['all_subattachments']['nodes'], list) or []
                            for n in ns:
                                parse_attachment(n)
                            parse_attachment(attachment)

                    edges = try_get(data, lambda x: x['mediaset']['currMedia']['edges'], list) or []
                    for edge in edges:
                        parse_attachment(edge, key='node')

                    video = data.get('video') or {}
                    if video:
                        attachments = try_get(video, [
                            lambda x: x['story']['attachments'],
                            lambda x: x['creation_story']['attachments']
                        ], list) or []
                        for attachment in attachments:
                            parse_attachment(attachment)
                        if not entries:
                            parse_graphql_video(video)

                    return self.playlist_result(entries, video_id)

        if not video_data:
            m_msg = re.search(r'class="[^"]*uiInterstitialContent[^"]*"><div>(.*?)</div>', webpage)
            if m_msg is not None:
                raise ExtractorError(
                    'The video is not available, Facebook said: "%s"' % m_msg.group(1),
                    expected=True)
            elif '>You must log in to continue' in webpage:
                self.raise_login_required()

            # Video info not in first request, do a secondary request using
            # tahoe player specific URL
            tahoe_data = self._download_webpage(
                self._VIDEO_PAGE_TAHOE_TEMPLATE % video_id, video_id,
                data=urlencode_postdata({
                    '__a': 1,
                    '__pc': self._search_regex(
                        r'pkg_cohort["\']\s*:\s*["\'](.+?)["\']', webpage,
                        'pkg cohort', default='PHASED:DEFAULT'),
                    '__rev': self._search_regex(
                        r'client_revision["\']\s*:\s*(\d+),', webpage,
                        'client revision', default='3944515'),
                    'fb_dtsg': self._search_regex(
                        r'"DTSGInitialData"\s*,\s*\[\]\s*,\s*{\s*"token"\s*:\s*"([^"]+)"',
                        webpage, 'dtsg token', default=''),
                }),
                headers={
                    'Content-Type': 'application/x-www-form-urlencoded',
                })
            tahoe_js_data = self._parse_json(
                self._search_regex(
                    r'for\s+\(\s*;\s*;\s*\)\s*;(.+)', tahoe_data,
                    'tahoe js data', default='{}'),
                video_id, fatal=False)
            video_data = extract_from_jsmods_instances(tahoe_js_data)

        if not video_data:
            raise ExtractorError('Cannot parse data')

        if len(video_data) > 1:
            entries = []
            for v in video_data:
                video_url = v[0].get('video_url')
                if not video_url:
                    continue
                entries.append(self.url_result(urljoin(
                    url, video_url), self.ie_key(), v[0].get('video_id')))
            return self.playlist_result(entries, video_id)
        video_data = video_data[0]

        formats = []
        subtitles = {}
        for f in video_data:
            format_id = f['stream_type']
            if f and isinstance(f, dict):
                f = [f]
            if not f or not isinstance(f, list):
                continue
            for quality in ('sd', 'hd'):
                for src_type in ('src', 'src_no_ratelimit'):
                    src = f[0].get('%s_%s' % (quality, src_type))
                    if src:
                        preference = -10 if format_id == 'progressive' else 0
                        if quality == 'hd':
                            preference += 5
                        formats.append({
                            'format_id': '%s_%s_%s' % (format_id, quality, src_type),
                            'url': src,
                            'preference': preference,
                        })
            extract_dash_manifest(f[0], formats)
            subtitles_src = f[0].get('subtitles_src')
            if subtitles_src:
                subtitles.setdefault('en', []).append({'url': subtitles_src})
        if not formats:
            raise ExtractorError('Cannot find video formats')

        process_formats(formats)

        video_title = self._html_search_regex(
            r'<h2\s+[^>]*class="uiHeaderTitle"[^>]*>([^<]*)</h2>', webpage,
            'title', default=None)
        if not video_title:
            video_title = self._html_search_regex(
                r'(?s)<span class="fbPhotosPhotoCaption".*?id="fbPhotoPageCaption"><span class="hasCaption">(.*?)</span>',
                webpage, 'alternative title', default=None)
        if not video_title:
            video_title = self._html_search_meta(
                'description', webpage, 'title', default=None)
        if video_title:
            video_title = limit_length(video_title, 80)
        else:
            video_title = 'Facebook video #%s' % video_id
        uploader = clean_html(get_element_by_id(
            'fbPhotoPageAuthorName', webpage)) or self._search_regex(
            r'ownerName\s*:\s*"([^"]+)"', webpage, 'uploader',
            default=None) or self._og_search_title(webpage, fatal=False)
        timestamp = int_or_none(self._search_regex(
            r'<abbr[^>]+data-utime=["\'](\d+)', webpage,
            'timestamp', default=None))
        thumbnail = self._html_search_meta(['og:image', 'twitter:image'], webpage)

        view_count = parse_count(self._search_regex(
            r'\bviewCount\s*:\s*["\']([\d,.]+)', webpage, 'view count',
            default=None))

        info_dict = {
            'id': video_id,
            'title': video_title,
            'formats': formats,
            'uploader': uploader,
            'timestamp': timestamp,
            'thumbnail': thumbnail,
            'view_count': view_count,
            'subtitles': subtitles,
        }

        return info_dict

    def _real_extract(self, url):
        video_id = self._match_id(url)

        real_url = self._VIDEO_PAGE_TEMPLATE % video_id if url.startswith('facebook:') else url
        return self._extract_from_url(real_url, video_id)


class FacebookPluginsVideoIE(InfoExtractor):
    _VALID_URL = r'https?://(?:[\w-]+\.)?facebook\.com/plugins/video\.php\?.*?\bhref=(?P<id>https.+)'

    _TESTS = [{
        'url': 'https://www.facebook.com/plugins/video.php?href=https%3A%2F%2Fwww.facebook.com%2Fgov.sg%2Fvideos%2F10154383743583686%2F&show_text=0&width=560',
        'md5': '5954e92cdfe51fe5782ae9bda7058a07',
        'info_dict': {
            'id': '10154383743583686',
            'ext': 'mp4',
            'title': 'What to do during the haze?',
            'uploader': 'Gov.sg',
            'upload_date': '20160826',
            'timestamp': 1472184808,
        },
        'add_ie': [FacebookIE.ie_key()],
    }, {
        'url': 'https://www.facebook.com/plugins/video.php?href=https%3A%2F%2Fwww.facebook.com%2Fvideo.php%3Fv%3D10204634152394104',
        'only_matching': True,
    }, {
        'url': 'https://www.facebook.com/plugins/video.php?href=https://www.facebook.com/gov.sg/videos/10154383743583686/&show_text=0&width=560',
        'only_matching': True,
    }]

    def _real_extract(self, url):
        return self.url_result(
            compat_urllib_parse_unquote(self._match_id(url)),
            FacebookIE.ie_key())
-												[facebook] Add coding cookie

											
										
										
											8 years ago
+								# coding: utf-8
-												[facebook] Modernize

											
										
										
											11 years ago
+								from __future__ import unicode_literals
-												Move Facebook into its own file

											
										
										
											12 years ago
+								import re
 								import socket
 								from .common import InfoExtractor
-												[util] Move compatibility functions out of util

utils is large enough without these compatibility functions.

Everything that is present in newer versions of Python (i.e. with dev Python it's just an import) goes into compat.py .
Everything else (i.e. youtube-dl-specific helpers) goes into utils.py .

											
										
										
											10 years ago
+								from ..compat import (
-												[facebook] Add support for DASH manifests

											
										
										
											9 years ago
+								    compat_etree_fromstring,
-												Move Facebook into its own file

											
										
										
											12 years ago
+								    compat_http_client,
 								    compat_urllib_error,
-												[facebook] Use compat_urllib_parse_unquote

											
										
										
											10 years ago
+								    compat_urllib_parse_unquote,
-												[facebook] Add support for DASH manifests

											
										
										
											9 years ago
+								    compat_urllib_parse_unquote_plus,
-												[util] Move compatibility functions out of util

utils is large enough without these compatibility functions.

Everything that is present in newer versions of Python (i.e. with dev Python it's just an import) goes into compat.py .
Everything else (i.e. youtube-dl-specific helpers) goes into utils.py .

											
										
										
											10 years ago
+								)
 								from ..utils import (
-												[facebook] Fix extraction (closes #11926)

											
										
										
											8 years ago
+								    clean_html,
-												Rename error_to_str to error_to_compat_str

											
										
										
											9 years ago
+								    error_to_compat_str,
-												Move Facebook into its own file

											
										
										
											12 years ago
+								    ExtractorError,
-												[facebook] Add support for Relay based pages(closes #26823)

											
										
										
											4 years ago
+								    float_or_none,
-												[facebook] Fix extraction (closes #11926)

											
										
										
											8 years ago
+								    get_element_by_id,
-												[facebook] Extract timestamp (Closes #10508)

											
										
										
											8 years ago
+								    int_or_none,
-												[facebook] Fix extraction (closes #11926)

											
										
										
											8 years ago
+								    js_to_json,
-												[facebook] Fix support for untitled videos (Fixes #3757)

											
										
										
											10 years ago
+								    limit_length,
-												[facebook] Extract view count and update tests (closes #16942)

											
										
										
											7 years ago
+								    parse_count,
-												[facebook] Add support for Relay based pages(closes #26823)

											
										
										
											4 years ago
+								    qualities,
-												Switch codebase to use sanitized_Request instead of
compat_urllib_request.Request

[downloader/dash] Use sanitized_Request

[downloader/http] Use sanitized_Request

[atresplayer] Use sanitized_Request

[bambuser] Use sanitized_Request

[bliptv] Use sanitized_Request

[brightcove] Use sanitized_Request

[cbs] Use sanitized_Request

[ceskatelevize] Use sanitized_Request

[collegerama] Use sanitized_Request

[extractor/common] Use sanitized_Request

[crunchyroll] Use sanitized_Request

[dailymotion] Use sanitized_Request

[dcn] Use sanitized_Request

[dramafever] Use sanitized_Request

[dumpert] Use sanitized_Request

[eitb] Use sanitized_Request

[escapist] Use sanitized_Request

[everyonesmixtape] Use sanitized_Request

[extremetube] Use sanitized_Request

[facebook] Use sanitized_Request

[fc2] Use sanitized_Request

[flickr] Use sanitized_Request

[4tube] Use sanitized_Request

[gdcvault] Use sanitized_Request

[extractor/generic] Use sanitized_Request

[hearthisat] Use sanitized_Request

[hotnewhiphop] Use sanitized_Request

[hypem] Use sanitized_Request

[iprima] Use sanitized_Request

[ivi] Use sanitized_Request

[keezmovies] Use sanitized_Request

[letv] Use sanitized_Request

[lynda] Use sanitized_Request

[metacafe] Use sanitized_Request

[minhateca] Use sanitized_Request

[miomio] Use sanitized_Request

[meovideo] Use sanitized_Request

[mofosex] Use sanitized_Request

[moniker] Use sanitized_Request

[mooshare] Use sanitized_Request

[movieclips] Use sanitized_Request

[mtv] Use sanitized_Request

[myvideo] Use sanitized_Request

[neteasemusic] Use sanitized_Request

[nfb] Use sanitized_Request

[niconico] Use sanitized_Request

[noco] Use sanitized_Request

[nosvideo] Use sanitized_Request

[novamov] Use sanitized_Request

[nowness] Use sanitized_Request

[nuvid] Use sanitized_Request

[played] Use sanitized_Request

[pluralsight] Use sanitized_Request

[pornhub] Use sanitized_Request

[pornotube] Use sanitized_Request

[primesharetv] Use sanitized_Request

[promptfile] Use sanitized_Request

[qqmusic] Use sanitized_Request

[rtve] Use sanitized_Request

[safari] Use sanitized_Request

[sandia] Use sanitized_Request

[shared] Use sanitized_Request

[sharesix] Use sanitized_Request

[sina] Use sanitized_Request

[smotri] Use sanitized_Request

[sohu] Use sanitized_Request

[spankwire] Use sanitized_Request

[sportdeutschland] Use sanitized_Request

[streamcloud] Use sanitized_Request

[streamcz] Use sanitized_Request

[tapely] Use sanitized_Request

[tube8] Use sanitized_Request

[tubitv] Use sanitized_Request

[twitch] Use sanitized_Request

[twitter] Use sanitized_Request

[udemy] Use sanitized_Request

[vbox7] Use sanitized_Request

[veoh] Use sanitized_Request

[vessel] Use sanitized_Request

[vevo] Use sanitized_Request

[viddler] Use sanitized_Request

[videomega] Use sanitized_Request

[viewvster] Use sanitized_Request

[viki] Use sanitized_Request

[vk] Use sanitized_Request

[vodlocker] Use sanitized_Request

[voicerepublic] Use sanitized_Request

[wistia] Use sanitized_Request

[xfileshare] Use sanitized_Request

[xtube] Use sanitized_Request

[xvideos] Use sanitized_Request

[yandexmusic] Use sanitized_Request

[youku] Use sanitized_Request

[youporn] Use sanitized_Request

[youtube] Use sanitized_Request

[patreon] Use sanitized_Request

[extractor/common] Remove unused import

[nfb] PEP 8

											
										
										
											9 years ago
+								    sanitized_Request,
-												[facebook] Fix extraction (closes #11926)

											
										
										
											8 years ago
+								    try_get,
-												[facebook] Make thumbnail and duration optional

Fixes #4425.
Looks like both properties aren't given to us anymore. For now, just fall back to not returning them.

											
										
										
											10 years ago
+								    urlencode_postdata,
-												[facebook] add support for Relay post pages(closes #26935)

											
										
										
											4 years ago
+								    urljoin,
-												Move Facebook into its own file

											
										
										
											12 years ago
+								)
 								class FacebookIE(InfoExtractor):
-												[facebook] Add support for embeds

Example URL: http://www.hostblogger.de/blog/archives/6181-Auto-jagt-Betonmischer.html

											
										
										
											11 years ago
+								    _VALID_URL = r'''(?x)
-												[facebook] Add shortcut and reformat _VALID_URL

											
										
										
											9 years ago
+								                (?:
 								                    https?://
-												[facebook] Recognize .onion URLs (closes #11443)

											
										
										
											8 years ago
+								                        (?:[\w-]+\.)?(?:facebook\.com|facebookcorewwwi\.onion)/
-												[facebook] Add shortcut and reformat _VALID_URL

											
										
										
											9 years ago
+								                        (?:[^#]*?\#!/)?
 								                        (?:
 								                            (?:
 								                                video/video\.php|
 								                                photo\.php|
 								                                video\.php|
-												[facebook] Support mobile URLs (closes #8638)

											
										
										
											9 years ago
+								                                video/embed|
-												[facebook] proper support for watch videos(closes #22795)(#27062)

											
										
										
											4 years ago
+								                                story\.php|
 								                                watch/?
-												[facebook] Support mobile URLs (closes #8638)

											
										
										
											9 years ago
+								                            )\?(?:.*?)(?:v|video_id|story_fbid)=|
-												[facebook] Merge FacebookPostIE into FacebookIE

Fixes #8713

											
										
										
											9 years ago
+								                            [^/]+/videos/(?:[^/]+/)?|
-												[facebook] Support videos in groups

Viewing/Downloading videos in groups requires logging in, even for
those in public groups.

Fixes #6951.

											
										
										
											9 years ago
+								                            [^/]+/posts/|
 								                            groups/[^/]+/permalink/
-												[facebook] Add shortcut and reformat _VALID_URL

											
										
										
											9 years ago
+								                        )|
 								                    facebook:
 								                )
 								                (?P<id>[0-9]+)
 								                '''
-												[facebook] Fix the login process (fixes #1244)

											
										
										
											11 years ago
+								    _LOGIN_URL = 'https://www.facebook.com/login.php?next=http%3A%2F%2Ffacebook.com%2Fhome.php&login_attempt=1'
 								    _CHECKPOINT_URL = 'https://www.facebook.com/checkpoint/?next=http%3A%2F%2Ffacebook.com%2Fhome.php&_fb_noscript=1'
-												Move Facebook into its own file

											
										
										
											12 years ago
+								    _NETRC_MACHINE = 'facebook'
-												[facebook] Modernize

											
										
										
											11 years ago
+								    IE_NAME = 'facebook'
-												[facebook] Add support for DASH manifests

											
										
										
											9 years ago
-												[facebook] Merge FacebookPostIE into FacebookIE

Fixes #8713

											
										
										
											9 years ago
+								    _VIDEO_PAGE_TEMPLATE = 'https://www.facebook.com/video/video.php?v=%s'
-												[facebook] fix tahoe request(closes #17171)

											
										
										
											6 years ago
+								    _VIDEO_PAGE_TAHOE_TEMPLATE = 'https://www.facebook.com/video/tahoe/async/%s/?chain=true&isvideo=true&payloadtype=primary'
-												[facebook] Merge FacebookPostIE into FacebookIE

Fixes #8713

											
										
										
											9 years ago
-												[facebook] Match video.php URLs

											
										
										
											10 years ago
+								    _TESTS = [{
-												[facebook] Fix and caption if title is empty

											
										
										
											10 years ago
+								        'url': 'https://www.facebook.com/video.php?v=637842556329505&fref=nf',
 								        'md5': '6a40d33c0eccbb1af76cf0485a052659',
-												[facebook] Modernize

											
										
										
											11 years ago
+								        'info_dict': {
-												[facebook] Fix and caption if title is empty

											
										
										
											10 years ago
+								            'id': '637842556329505',
-												[facebook] Modernize

											
										
										
											11 years ago
+								            'ext': 'mp4',
-												[facebook] Fix test case

											
										
										
											10 years ago
+								            'title': 're:Did you know Kei Nishikori is the first Asian man to ever reach a Grand Slam',
-												[facebook] add uploader value to the tests

											
										
										
											10 years ago
+								            'uploader': 'Tennis on Facebook',
-												[facebook] Extract timestamp (Closes #10508)

											
										
										
											8 years ago
+								            'upload_date': '20140908',
 								            'timestamp': 1410199200,
-												[facebook] Support thumbnails (closes #14416)

											
										
										
											7 years ago
+								        },
 								        'skip': 'Requires logging in',
-												[facebook] Fix support for untitled videos (Fixes #3757)

											
										
										
											10 years ago
+								    }, {
-												[facebook] add support for group posts with multiple videos(closes #19131)

											
										
										
											4 years ago
+								        # data.video
-												[facebook] Fix support for untitled videos (Fixes #3757)

											
										
										
											10 years ago
+								        'url': 'https://www.facebook.com/video.php?v=274175099429670',
 								        'info_dict': {
 								            'id': '274175099429670',
 								            'ext': 'mp4',
-												[facebook] Extract view count and update tests (closes #16942)

											
										
										
											7 years ago
+								            'title': 're:^Asif Nawab Butt posted a video',
-												[facebook] add uploader value to the tests

											
										
										
											10 years ago
+								            'uploader': 'Asif Nawab Butt',
-												[facebook] Extract timestamp (Closes #10508)

											
										
										
											8 years ago
+								            'upload_date': '20140506',
 								            'timestamp': 1399398998,
-												[facebook] Support thumbnails (closes #14416)

											
										
										
											7 years ago
+								            'thumbnail': r're:^https?://.*',
-												[facebook] Move the title extraction warning below (fixes #5820)

											
										
										
											10 years ago
+								        },
 								        'expected_warnings': [
 								            'title'
 								        ]
-												[facebook] Add support for DASH manifests

											
										
										
											9 years ago
+								    }, {
 								        'note': 'Video with DASH manifest',
 								        'url': 'https://www.facebook.com/video.php?v=957955867617029',
-												[facebook] Extract timestamp (Closes #10508)

											
										
										
											8 years ago
+								        'md5': 'b2c28d528273b323abe5c6ab59f0f030',
-												[facebook] Add support for DASH manifests

											
										
										
											9 years ago
+								        'info_dict': {
 								            'id': '957955867617029',
 								            'ext': 'mp4',
 								            'title': 'When you post epic content on instagram.com/433 8 million followers, this is ...',
 								            'uploader': 'Demy de Zeeuw',
-												[facebook] Extract timestamp (Closes #10508)

											
										
										
											8 years ago
+								            'upload_date': '20160110',
 								            'timestamp': 1452431627,
-												[facebook] Add support for DASH manifests

											
										
										
											9 years ago
+								        },
-												[facebook] Support thumbnails (closes #14416)

											
										
										
											7 years ago
+								        'skip': 'Requires logging in',
-												[facebook] Merge FacebookPostIE into FacebookIE

Fixes #8713

											
										
										
											9 years ago
+								    }, {
 								        'url': 'https://www.facebook.com/maxlayn/posts/10153807558977570',
 								        'md5': '037b1fa7f3c2d02b7a0d7bc16031ecc6',
 								        'info_dict': {
 								            'id': '544765982287235',
 								            'ext': 'mp4',
 								            'title': '"What are you doing running in the snow?"',
 								            'uploader': 'FailArmy',
-												[facebook] Remove SWF params so that 1080P are detected

Closes #11073

In the provided link, SWF params give up to 720P, and VideoConfig
gives 1080P for both best and bestvideo. I guess all Facebook videos
supports HTML5 now, so I remove the old detection for SWF params

											
										
										
											8 years ago
+								        },
 								        'skip': 'Video gone',
-												[facebook] Fix for m.facebook.com URLs

											
										
										
											9 years ago
+								    }, {
 								        'url': 'https://m.facebook.com/story.php?story_fbid=1035862816472149&id=116132035111903',
 								        'md5': '1deb90b6ac27f7efcf6d747c8a27f5e3',
 								        'info_dict': {
 								            'id': '1035862816472149',
 								            'ext': 'mp4',
 								            'title': 'What the Flock Is Going On In New Zealand  Credit: ViralHog',
 								            'uploader': 'S. Saint',
 								        },
-												[facebook] Remove SWF params so that 1080P are detected

Closes #11073

In the provided link, SWF params give up to 720P, and VideoConfig
gives 1080P for both best and bestvideo. I guess all Facebook videos
supports HTML5 now, so I remove the old detection for SWF params

											
										
										
											8 years ago
+								        'skip': 'Video gone',
-												[facebook] Handle escaped swf params

Fixes #8713

											
										
										
											9 years ago
+								    }, {
 								        'note': 'swf params escaped',
 								        'url': 'https://www.facebook.com/barackobama/posts/10153664894881749',
 								        'md5': '97ba073838964d12c70566e0085c2b91',
 								        'info_dict': {
 								            'id': '10153664894881749',
 								            'ext': 'mp4',
-												[facebook] Support thumbnails (closes #14416)

											
										
										
											7 years ago
+								            'title': 'Average time to confirm recent Supreme Court nominees: 67 days Longest it\'s t...',
 								            'thumbnail': r're:^https?://.*',
 								            'timestamp': 1456259628,
 								            'upload_date': '20160223',
 								            'uploader': 'Barack Obama',
-												[facebook] Handle escaped swf params

Fixes #8713

											
										
										
											9 years ago
+								        },
-												[facebook] Remove SWF params so that 1080P are detected

Closes #11073

In the provided link, SWF params give up to 720P, and VideoConfig
gives 1080P for both best and bestvideo. I guess all Facebook videos
supports HTML5 now, so I remove the old detection for SWF params

											
										
										
											8 years ago
+								    }, {
 								        # have 1080P, but only up to 720p in swf params
-												[facebook] add support for group posts with multiple videos(closes #19131)

											
										
										
											4 years ago
+								        # data.video.story.attachments[].media
-												[facebook] Remove SWF params so that 1080P are detected

Closes #11073

In the provided link, SWF params give up to 720P, and VideoConfig
gives 1080P for both best and bestvideo. I guess all Facebook videos
supports HTML5 now, so I remove the old detection for SWF params

											
										
										
											8 years ago
+								        'url': 'https://www.facebook.com/cnn/videos/10155529876156509/',
-												[facebook] Extract view count and update tests (closes #16942)

											
										
										
											7 years ago
+								        'md5': '9571fae53d4165bbbadb17a94651dcdc',
-												[facebook] Remove SWF params so that 1080P are detected

Closes #11073

In the provided link, SWF params give up to 720P, and VideoConfig
gives 1080P for both best and bestvideo. I guess all Facebook videos
supports HTML5 now, so I remove the old detection for SWF params

											
										
										
											8 years ago
+								        'info_dict': {
 								            'id': '10155529876156509',
 								            'ext': 'mp4',
-												[facebook] Support thumbnails (closes #14416)

											
										
										
											7 years ago
+								            'title': 'She survived the holocaust — and years later, she’s getting her citizenship s...',
-												[facebook] Remove SWF params so that 1080P are detected

Closes #11073

In the provided link, SWF params give up to 720P, and VideoConfig
gives 1080P for both best and bestvideo. I guess all Facebook videos
supports HTML5 now, so I remove the old detection for SWF params

											
										
										
											8 years ago
+								            'timestamp': 1477818095,
 								            'upload_date': '20161030',
 								            'uploader': 'CNN',
-												[facebook] Support thumbnails (closes #14416)

											
										
										
											7 years ago
+								            'thumbnail': r're:^https?://.*',
-												[facebook] Extract view count and update tests (closes #16942)

											
										
										
											7 years ago
+								            'view_count': int,
-												[facebook] Remove SWF params so that 1080P are detected

Closes #11073

In the provided link, SWF params give up to 720P, and VideoConfig
gives 1080P for both best and bestvideo. I guess all Facebook videos
supports HTML5 now, so I remove the old detection for SWF params

											
										
										
											8 years ago
+								        },
-												[facebook] Improve JS data regex (closes #12042)

											
										
										
											8 years ago
+								    }, {
 								        # bigPipe.onPageletArrive ... onPageletArrive pagelet_group_mall
-												[facebook] add support for group posts with multiple videos(closes #19131)

											
										
										
											4 years ago
+								        # data.node.comet_sections.content.story.attachments[].style_type_renderer.attachment.media
-												[facebook] Improve JS data regex (closes #12042)

											
										
										
											8 years ago
+								        'url': 'https://www.facebook.com/yaroslav.korpan/videos/1417995061575415/',
 								        'info_dict': {
 								            'id': '1417995061575415',
 								            'ext': 'mp4',
-												[facebook] Extract view count and update tests (closes #16942)

											
										
										
											7 years ago
+								            'title': 'md5:1db063d6a8c13faa8da727817339c857',
-												[facebook] Improve JS data regex (closes #12042)

											
										
										
											8 years ago
+								            'timestamp': 1486648217,
 								            'upload_date': '20170209',
 								            'uploader': 'Yaroslav Korpan',
 								        },
 								        'params': {
 								            'skip_download': True,
 								        },
-												[facebook] Relax video id matching (closes #11017, closes #12055, closes #12056)

											
										
										
											8 years ago
+								    }, {
 								        'url': 'https://www.facebook.com/LaGuiaDelVaron/posts/1072691702860471',
 								        'info_dict': {
 								            'id': '1072691702860471',
 								            'ext': 'mp4',
 								            'title': 'md5:ae2d22a93fbb12dad20dc393a869739d',
 								            'timestamp': 1477305000,
 								            'upload_date': '20161024',
 								            'uploader': 'La Guía Del Varón',
-												[facebook] Support thumbnails (closes #14416)

											
										
										
											7 years ago
+								            'thumbnail': r're:^https?://.*',
-												[facebook] Relax video id matching (closes #11017, closes #12055, closes #12056)

											
										
										
											8 years ago
+								        },
 								        'params': {
 								            'skip_download': True,
 								        },
 								    }, {
-												[facebook] add support for group posts with multiple videos(closes #19131)

											
										
										
											4 years ago
+								        # data.node.comet_sections.content.story.attachments[].style_type_renderer.attachment.media
-												[facebook] Relax video id matching (closes #11017, closes #12055, closes #12056)

											
										
										
											8 years ago
+								        'url': 'https://www.facebook.com/groups/1024490957622648/permalink/1396382447100162/',
 								        'info_dict': {
 								            'id': '1396382447100162',
 								            'ext': 'mp4',
-												[facebook] Extract view count and update tests (closes #16942)

											
										
										
											7 years ago
+								            'title': 'md5:19a428bbde91364e3de815383b54a235',
-												[facebook] Relax video id matching (closes #11017, closes #12055, closes #12056)

											
										
										
											8 years ago
+								            'timestamp': 1486035494,
 								            'upload_date': '20170202',
 								            'uploader': 'Elisabeth Ahtn',
 								        },
 								        'params': {
 								            'skip_download': True,
 								        },
-												[facebook] Match video.php URLs

											
										
										
											10 years ago
+								    }, {
 								        'url': 'https://www.facebook.com/video.php?v=10204634152394104',
 								        'only_matching': True,
-												[facebook] Extend _VALID_URL

											
										
										
											10 years ago
+								    }, {
 								        'url': 'https://www.facebook.com/amogood/videos/1618742068337349/?fref=nf',
 								        'only_matching': True,
-												[facebook] Extend _VALID_URL take 2 (#5120)

											
										
										
											10 years ago
+								    }, {
-												[facebook] add support for group posts with multiple videos(closes #19131)

											
										
										
											4 years ago
+								        # data.mediaset.currMedia.edges
-												[facebook] Extend _VALID_URL take 2 (#5120)

											
										
										
											10 years ago
+								        'url': 'https://www.facebook.com/ChristyClarkForBC/videos/vb.22819070941/10153870694020942/?type=2&theater',
 								        'only_matching': True,
-												[facebook] Add shortcut and reformat _VALID_URL

											
										
										
											9 years ago
+								    }, {
-												[facebook] add support for group posts with multiple videos(closes #19131)

											
										
										
											4 years ago
+								        # data.video.story.attachments[].media
-												[facebook] Add shortcut and reformat _VALID_URL

											
										
										
											9 years ago
+								        'url': 'facebook:544765982287235',
 								        'only_matching': True,
-												[facebook] Support videos in groups

Viewing/Downloading videos in groups requires logging in, even for
those in public groups.

Fixes #6951.

											
										
										
											9 years ago
+								    }, {
-												[facebook] add support for group posts with multiple videos(closes #19131)

											
										
										
											4 years ago
+								        # data.node.comet_sections.content.story.attachments[].style_type_renderer.attachment.media
-												[facebook] Support videos in groups

Viewing/Downloading videos in groups requires logging in, even for
those in public groups.

Fixes #6951.

											
										
										
											9 years ago
+								        'url': 'https://www.facebook.com/groups/164828000315060/permalink/764967300301124/',
 								        'only_matching': True,
-												[facebook] Relax _VALID_URL (Closes #10151)

											
										
										
											9 years ago
+								    }, {
-												[facebook] add support for group posts with multiple videos(closes #19131)

											
										
										
											4 years ago
+								        # data.video.creation_story.attachments[].media
-												[facebook] Relax _VALID_URL (Closes #10151)

											
										
										
											9 years ago
+								        'url': 'https://zh-hk.facebook.com/peoplespower/videos/1135894589806027/',
 								        'only_matching': True,
-												[facebook] Recognize .onion URLs (closes #11443)

											
										
										
											8 years ago
+								    }, {
-												[facebook] add support for group posts with multiple videos(closes #19131)

											
										
										
											4 years ago
+								        # data.video
-												[facebook] Recognize .onion URLs (closes #11443)

											
										
										
											8 years ago
+								        'url': 'https://www.facebookcorewwwi.onion/video.php?v=274175099429670',
 								        'only_matching': True,
-												[facebook] Make title optional (closes #12443)

											
										
										
											8 years ago
+								    }, {
 								        # no title
 								        'url': 'https://www.facebook.com/onlycleverentertainment/videos/1947995502095005/',
 								        'only_matching': True,
-												[facebook] Add support for tahoe player videos (closes #15441)

Specific videos appear to use a newer/different player, this requires a
second request for the video data as the initial request is missing the
specified data.

Additionally these videos have different page content for the uploader
value, which is stored in the `<meta property="og:title"...>` element of
the initial request.

											
										
										
											7 years ago
+								    }, {
-												[facebook] add support for group posts with multiple videos(closes #19131)

											
										
										
											4 years ago
+								        # data.video
-												[facebook] Add support for tahoe player videos (closes #15441)

Specific videos appear to use a newer/different player, this requires a
second request for the video data as the initial request is missing the
specified data.

Additionally these videos have different page content for the uploader
value, which is stored in the `<meta property="og:title"...>` element of
the initial request.

											
										
										
											7 years ago
+								        'url': 'https://www.facebook.com/WatchESLOne/videos/359649331226507/',
 								        'info_dict': {
 								            'id': '359649331226507',
 								            'ext': 'mp4',
 								            'title': '#ESLOne VoD - Birmingham Finals Day#1 Fnatic vs. @Evil Geniuses',
 								            'uploader': 'ESL One Dota 2',
 								        },
 								        'params': {
 								            'skip_download': True,
 								        },
-												[facebook] add support for group posts with multiple videos(closes #19131)

											
										
										
											4 years ago
+								    }, {
 								        # data.node.comet_sections.content.story.attachments[].style_type_renderer.attachment.all_subattachments.nodes[].media
 								        'url': 'https://www.facebook.com/100033620354545/videos/106560053808006/',
 								        'info_dict': {
 								            'id': '106560053808006',
 								        },
 								        'playlist_count': 2,
-												[facebook] proper support for watch videos(closes #22795)(#27062)

											
										
										
											4 years ago
+								    }, {
 								        # data.video.story.attachments[].media
 								        'url': 'https://www.facebook.com/watch/?v=647537299265662',
 								        'only_matching': True,
-												[facebook] add support for Relay post pages(closes #26935)

											
										
										
											4 years ago
+								    }, {
 								        # data.node.comet_sections.content.story.attachments[].style_type_renderer.attachment.all_subattachments.nodes[].media
 								        'url': 'https://www.facebook.com/PankajShahLondon/posts/10157667649866271',
 								        'info_dict': {
 								            'id': '10157667649866271',
 								        },
 								        'playlist_count': 3,
 								    }, {
 								        # data.nodes[].comet_sections.content.story.attachments[].style_type_renderer.attachment.media
 								        'url': 'https://m.facebook.com/Alliance.Police.Department/posts/4048563708499330',
 								        'info_dict': {
 								            'id': '117576630041613',
 								            'ext': 'mp4',
 								            # TODO: title can be extracted from video page
 								            'title': 'Facebook video #117576630041613',
 								            'uploader_id': '189393014416438',
 								            'upload_date': '20201123',
 								            'timestamp': 1606162592,
 								        },
 								        'skip': 'Requires logging in',
-												[facebook] Match video.php URLs

											
										
										
											10 years ago
+								    }]
-												[facebook] add support for Relay post pages(closes #26935)

											
										
										
											4 years ago
+								    _SUPPORTED_PAGLETS_REGEX = r'(?:pagelet_group_mall|permalink_video_pagelet|hyperfeed_story_id_[0-9a-f]+)'
-												Move Facebook into its own file

											
										
										
											12 years ago
-												[facebook] Improve Facebook embedded detection

Related to #9938.

Another example comes from 9834872bf63b4e03b66c5e3b8f306556e735d8c5.

											
										
										
											9 years ago
+								    @staticmethod
-												[facebook] Add support for plugin video embeds and multiple embeds (closes #13493)

											
										
										
											8 years ago
+								    def _extract_urls(webpage):
 								        urls = []
 								        for mobj in re.finditer(
 								                r'<iframe[^>]+?src=(["\'])(?P<url>https?://www\.facebook\.com/(?:video/embed|plugins/video\.php).+?)\1',
 								                webpage):
 								            urls.append(mobj.group('url'))
-												[facebook] Improve Facebook embedded detection

Related to #9938.

Another example comes from 9834872bf63b4e03b66c5e3b8f306556e735d8c5.

											
										
										
											9 years ago
+								        # Facebook API embed
 								        # see https://developers.facebook.com/docs/plugins/embedded-video-player
-												[facebook] Add support for plugin video embeds and multiple embeds (closes #13493)

											
										
										
											8 years ago
+								        for mobj in re.finditer(r'''(?x)<div[^>]+
-												[facebook] Improve embed detection (#5701)

											
										
										
											9 years ago
+								                class=(?P<q1>[\'"])[^\'"]*\bfb-(?:video|post)\b[^\'"]*(?P=q1)[^>]+
-												[facebook] Add support for plugin video embeds and multiple embeds (closes #13493)

											
										
										
											8 years ago
+								                data-href=(?P<q2>[\'"])(?P<url>(?:https?:)?//(?:www\.)?facebook.com/.+?)(?P=q2)''', webpage):
 								            urls.append(mobj.group('url'))
 								        return urls
-												[facebook] Improve Facebook embedded detection

Related to #9938.

Another example comes from 9834872bf63b4e03b66c5e3b8f306556e735d8c5.

											
										
										
											9 years ago
-												[facebook] Fix the login process (fixes #1244)

											
										
										
											11 years ago
+								    def _login(self):
-												remove unnecessary assignment parenthesis

											
										
										
											7 years ago
+								        useremail, password = self._get_login_info()
-												Move Facebook into its own file

											
										
										
											12 years ago
+								        if useremail is None:
 								            return
-												Switch codebase to use sanitized_Request instead of
compat_urllib_request.Request

[downloader/dash] Use sanitized_Request

[downloader/http] Use sanitized_Request

[atresplayer] Use sanitized_Request

[bambuser] Use sanitized_Request

[bliptv] Use sanitized_Request

[brightcove] Use sanitized_Request

[cbs] Use sanitized_Request

[ceskatelevize] Use sanitized_Request

[collegerama] Use sanitized_Request

[extractor/common] Use sanitized_Request

[crunchyroll] Use sanitized_Request

[dailymotion] Use sanitized_Request

[dcn] Use sanitized_Request

[dramafever] Use sanitized_Request

[dumpert] Use sanitized_Request

[eitb] Use sanitized_Request

[escapist] Use sanitized_Request

[everyonesmixtape] Use sanitized_Request

[extremetube] Use sanitized_Request

[facebook] Use sanitized_Request

[fc2] Use sanitized_Request

[flickr] Use sanitized_Request

[4tube] Use sanitized_Request

[gdcvault] Use sanitized_Request

[extractor/generic] Use sanitized_Request

[hearthisat] Use sanitized_Request

[hotnewhiphop] Use sanitized_Request

[hypem] Use sanitized_Request

[iprima] Use sanitized_Request

[ivi] Use sanitized_Request

[keezmovies] Use sanitized_Request

[letv] Use sanitized_Request

[lynda] Use sanitized_Request

[metacafe] Use sanitized_Request

[minhateca] Use sanitized_Request

[miomio] Use sanitized_Request

[meovideo] Use sanitized_Request

[mofosex] Use sanitized_Request

[moniker] Use sanitized_Request

[mooshare] Use sanitized_Request

[movieclips] Use sanitized_Request

[mtv] Use sanitized_Request

[myvideo] Use sanitized_Request

[neteasemusic] Use sanitized_Request

[nfb] Use sanitized_Request

[niconico] Use sanitized_Request

[noco] Use sanitized_Request

[nosvideo] Use sanitized_Request

[novamov] Use sanitized_Request

[nowness] Use sanitized_Request

[nuvid] Use sanitized_Request

[played] Use sanitized_Request

[pluralsight] Use sanitized_Request

[pornhub] Use sanitized_Request

[pornotube] Use sanitized_Request

[primesharetv] Use sanitized_Request

[promptfile] Use sanitized_Request

[qqmusic] Use sanitized_Request

[rtve] Use sanitized_Request

[safari] Use sanitized_Request

[sandia] Use sanitized_Request

[shared] Use sanitized_Request

[sharesix] Use sanitized_Request

[sina] Use sanitized_Request

[smotri] Use sanitized_Request

[sohu] Use sanitized_Request

[spankwire] Use sanitized_Request

[sportdeutschland] Use sanitized_Request

[streamcloud] Use sanitized_Request

[streamcz] Use sanitized_Request

[tapely] Use sanitized_Request

[tube8] Use sanitized_Request

[tubitv] Use sanitized_Request

[twitch] Use sanitized_Request

[twitter] Use sanitized_Request

[udemy] Use sanitized_Request

[vbox7] Use sanitized_Request

[veoh] Use sanitized_Request

[vessel] Use sanitized_Request

[vevo] Use sanitized_Request

[viddler] Use sanitized_Request

[videomega] Use sanitized_Request

[viewvster] Use sanitized_Request

[viki] Use sanitized_Request

[vk] Use sanitized_Request

[vodlocker] Use sanitized_Request

[voicerepublic] Use sanitized_Request

[wistia] Use sanitized_Request

[xfileshare] Use sanitized_Request

[xtube] Use sanitized_Request

[xvideos] Use sanitized_Request

[yandexmusic] Use sanitized_Request

[youku] Use sanitized_Request

[youporn] Use sanitized_Request

[youtube] Use sanitized_Request

[patreon] Use sanitized_Request

[extractor/common] Remove unused import

[nfb] PEP 8

											
										
										
											9 years ago
+								        login_page_req = sanitized_Request(self._LOGIN_URL)
-												[facebook] Fix authentication

											
										
										
											9 years ago
+								        self._set_cookie('facebook.com', 'locale', 'en_US')
-												[facebook] Fix login process

It was broken and didn't work in python 3.
And use `_download_webpage` instead of `compat_urllib_request.urlopen`.

											
										
										
											11 years ago
+								        login_page = self._download_webpage(login_page_req, None,
-												PEP8: applied even more rules

											
										
										
											10 years ago
+								                                            note='Downloading login page',
 								                                            errnote='Unable to download login page')
-												[facebook] Fix login detection (#2505)

											
										
										
											11 years ago
+								        lsd = self._search_regex(
-												[facebook] Correct regexp

											
										
										
											11 years ago
+								            r'<input type="hidden" name="lsd" value="([^"]*)"',
-												[facebook] Fix login detection (#2505)

											
										
										
											11 years ago
+								            login_page, 'lsd')
-												[facebook] Modernize

											
										
										
											11 years ago
+								        lgnrnd = self._search_regex(r'name="lgnrnd" value="([^"]*?)"', login_page, 'lgnrnd')
-												[facebook] Fix the login process (fixes #1244)

											
										
										
											11 years ago
-												Move Facebook into its own file

											
										
										
											12 years ago
+								        login_form = {
 								            'email': useremail,
 								            'pass': password,
-												[facebook] Fix the login process (fixes #1244)

											
										
										
											11 years ago
+								            'lsd': lsd,
 								            'lgnrnd': lgnrnd,
 								            'next': 'http://facebook.com/home.php',
 								            'default_persistent': '0',
 								            'legacy_return': '1',
 								            'timezone': '-60',
 								            'trynum': '1',
-												Fix all PEP8 issues except E501

											
										
										
											10 years ago
+								        }
-												Switch codebase to use sanitized_Request instead of
compat_urllib_request.Request

[downloader/dash] Use sanitized_Request

[downloader/http] Use sanitized_Request

[atresplayer] Use sanitized_Request

[bambuser] Use sanitized_Request

[bliptv] Use sanitized_Request

[brightcove] Use sanitized_Request

[cbs] Use sanitized_Request

[ceskatelevize] Use sanitized_Request

[collegerama] Use sanitized_Request

[extractor/common] Use sanitized_Request

[crunchyroll] Use sanitized_Request

[dailymotion] Use sanitized_Request

[dcn] Use sanitized_Request

[dramafever] Use sanitized_Request

[dumpert] Use sanitized_Request

[eitb] Use sanitized_Request

[escapist] Use sanitized_Request

[everyonesmixtape] Use sanitized_Request

[extremetube] Use sanitized_Request

[facebook] Use sanitized_Request

[fc2] Use sanitized_Request

[flickr] Use sanitized_Request

[4tube] Use sanitized_Request

[gdcvault] Use sanitized_Request

[extractor/generic] Use sanitized_Request

[hearthisat] Use sanitized_Request

[hotnewhiphop] Use sanitized_Request

[hypem] Use sanitized_Request

[iprima] Use sanitized_Request

[ivi] Use sanitized_Request

[keezmovies] Use sanitized_Request

[letv] Use sanitized_Request

[lynda] Use sanitized_Request

[metacafe] Use sanitized_Request

[minhateca] Use sanitized_Request

[miomio] Use sanitized_Request

[meovideo] Use sanitized_Request

[mofosex] Use sanitized_Request

[moniker] Use sanitized_Request

[mooshare] Use sanitized_Request

[movieclips] Use sanitized_Request

[mtv] Use sanitized_Request

[myvideo] Use sanitized_Request

[neteasemusic] Use sanitized_Request

[nfb] Use sanitized_Request

[niconico] Use sanitized_Request

[noco] Use sanitized_Request

[nosvideo] Use sanitized_Request

[novamov] Use sanitized_Request

[nowness] Use sanitized_Request

[nuvid] Use sanitized_Request

[played] Use sanitized_Request

[pluralsight] Use sanitized_Request

[pornhub] Use sanitized_Request

[pornotube] Use sanitized_Request

[primesharetv] Use sanitized_Request

[promptfile] Use sanitized_Request

[qqmusic] Use sanitized_Request

[rtve] Use sanitized_Request

[safari] Use sanitized_Request

[sandia] Use sanitized_Request

[shared] Use sanitized_Request

[sharesix] Use sanitized_Request

[sina] Use sanitized_Request

[smotri] Use sanitized_Request

[sohu] Use sanitized_Request

[spankwire] Use sanitized_Request

[sportdeutschland] Use sanitized_Request

[streamcloud] Use sanitized_Request

[streamcz] Use sanitized_Request

[tapely] Use sanitized_Request

[tube8] Use sanitized_Request

[tubitv] Use sanitized_Request

[twitch] Use sanitized_Request

[twitter] Use sanitized_Request

[udemy] Use sanitized_Request

[vbox7] Use sanitized_Request

[veoh] Use sanitized_Request

[vessel] Use sanitized_Request

[vevo] Use sanitized_Request

[viddler] Use sanitized_Request

[videomega] Use sanitized_Request

[viewvster] Use sanitized_Request

[viki] Use sanitized_Request

[vk] Use sanitized_Request

[vodlocker] Use sanitized_Request

[voicerepublic] Use sanitized_Request

[wistia] Use sanitized_Request

[xfileshare] Use sanitized_Request

[xtube] Use sanitized_Request

[xvideos] Use sanitized_Request

[yandexmusic] Use sanitized_Request

[youku] Use sanitized_Request

[youporn] Use sanitized_Request

[youtube] Use sanitized_Request

[patreon] Use sanitized_Request

[extractor/common] Remove unused import

[nfb] PEP 8

											
										
										
											9 years ago
+								        request = sanitized_Request(self._LOGIN_URL, urlencode_postdata(login_form))
-												[facebook] Fix the login process (fixes #1244)

											
										
										
											11 years ago
+								        request.add_header('Content-Type', 'application/x-www-form-urlencoded')
-												Move Facebook into its own file

											
										
										
											12 years ago
+								        try:
-												[facebook] Fix login process

It was broken and didn't work in python 3.
And use `_download_webpage` instead of `compat_urllib_request.urlopen`.

											
										
										
											11 years ago
+								            login_results = self._download_webpage(request, None,
-												PEP8: applied even more rules

											
										
										
											10 years ago
+								                                                   note='Logging in', errnote='unable to fetch login page')
-												Move Facebook into its own file

											
										
										
											12 years ago
+								            if re.search(r'<form(.*)name="login"(.*)</form>', login_results) is not None:
-												[facebook] Extract login error

											
										
										
											9 years ago
+								                error = self._html_search_regex(
 								                    r'(?s)<div[^>]+class=(["\']).*?login_error_box.*?\1[^>]*><div[^>]*>.*?</div><div[^>]*>(?P<error>.+?)</div>',
 								                    login_results, 'login error', default=None, group='error')
 								                if error:
 								                    raise ExtractorError('Unable to login: %s' % error, expected=True)
-												Fix typos

Closes #8200.

											
										
										
											9 years ago
+								                self._downloader.report_warning('unable to log in: bad username/password, or exceeded login rate limit (~3/min). Check credentials or wait.')
-												Move Facebook into its own file

											
										
										
											12 years ago
+								                return
-												[facebook] Fix the login process (fixes #1244)

											
										
										
											11 years ago
-												[facebook] Fix authentication

											
										
										
											9 years ago
+								            fb_dtsg = self._search_regex(
 								                r'name="fb_dtsg" value="(.+?)"', login_results, 'fb_dtsg', default=None)
 								            h = self._search_regex(
 								                r'name="h"\s+(?:\w+="[^"]+"\s+)*?value="([^"]+)"', login_results, 'h', default=None)
 								            if not fb_dtsg or not h:
 								                return
-												[facebook] Fix the login process (fixes #1244)

											
										
										
											11 years ago
+								            check_form = {
-												[facebook] Fix authentication

											
										
										
											9 years ago
+								                'fb_dtsg': fb_dtsg,
 								                'h': h,
-												[facebook] Fix the login process (fixes #1244)

											
										
										
											11 years ago
+								                'name_action_selected': 'dont_save',
 								            }
-												Switch codebase to use sanitized_Request instead of
compat_urllib_request.Request

[downloader/dash] Use sanitized_Request

[downloader/http] Use sanitized_Request

[atresplayer] Use sanitized_Request

[bambuser] Use sanitized_Request

[bliptv] Use sanitized_Request

[brightcove] Use sanitized_Request

[cbs] Use sanitized_Request

[ceskatelevize] Use sanitized_Request

[collegerama] Use sanitized_Request

[extractor/common] Use sanitized_Request

[crunchyroll] Use sanitized_Request

[dailymotion] Use sanitized_Request

[dcn] Use sanitized_Request

[dramafever] Use sanitized_Request

[dumpert] Use sanitized_Request

[eitb] Use sanitized_Request

[escapist] Use sanitized_Request

[everyonesmixtape] Use sanitized_Request

[extremetube] Use sanitized_Request

[facebook] Use sanitized_Request

[fc2] Use sanitized_Request

[flickr] Use sanitized_Request

[4tube] Use sanitized_Request

[gdcvault] Use sanitized_Request

[extractor/generic] Use sanitized_Request

[hearthisat] Use sanitized_Request

[hotnewhiphop] Use sanitized_Request

[hypem] Use sanitized_Request

[iprima] Use sanitized_Request

[ivi] Use sanitized_Request

[keezmovies] Use sanitized_Request

[letv] Use sanitized_Request

[lynda] Use sanitized_Request

[metacafe] Use sanitized_Request

[minhateca] Use sanitized_Request

[miomio] Use sanitized_Request

[meovideo] Use sanitized_Request

[mofosex] Use sanitized_Request

[moniker] Use sanitized_Request

[mooshare] Use sanitized_Request

[movieclips] Use sanitized_Request

[mtv] Use sanitized_Request

[myvideo] Use sanitized_Request

[neteasemusic] Use sanitized_Request

[nfb] Use sanitized_Request

[niconico] Use sanitized_Request

[noco] Use sanitized_Request

[nosvideo] Use sanitized_Request

[novamov] Use sanitized_Request

[nowness] Use sanitized_Request

[nuvid] Use sanitized_Request

[played] Use sanitized_Request

[pluralsight] Use sanitized_Request

[pornhub] Use sanitized_Request

[pornotube] Use sanitized_Request

[primesharetv] Use sanitized_Request

[promptfile] Use sanitized_Request

[qqmusic] Use sanitized_Request

[rtve] Use sanitized_Request

[safari] Use sanitized_Request

[sandia] Use sanitized_Request

[shared] Use sanitized_Request

[sharesix] Use sanitized_Request

[sina] Use sanitized_Request

[smotri] Use sanitized_Request

[sohu] Use sanitized_Request

[spankwire] Use sanitized_Request

[sportdeutschland] Use sanitized_Request

[streamcloud] Use sanitized_Request

[streamcz] Use sanitized_Request

[tapely] Use sanitized_Request

[tube8] Use sanitized_Request

[tubitv] Use sanitized_Request

[twitch] Use sanitized_Request

[twitter] Use sanitized_Request

[udemy] Use sanitized_Request

[vbox7] Use sanitized_Request

[veoh] Use sanitized_Request

[vessel] Use sanitized_Request

[vevo] Use sanitized_Request

[viddler] Use sanitized_Request

[videomega] Use sanitized_Request

[viewvster] Use sanitized_Request

[viki] Use sanitized_Request

[vk] Use sanitized_Request

[vodlocker] Use sanitized_Request

[voicerepublic] Use sanitized_Request

[wistia] Use sanitized_Request

[xfileshare] Use sanitized_Request

[xtube] Use sanitized_Request

[xvideos] Use sanitized_Request

[yandexmusic] Use sanitized_Request

[youku] Use sanitized_Request

[youporn] Use sanitized_Request

[youtube] Use sanitized_Request

[patreon] Use sanitized_Request

[extractor/common] Remove unused import

[nfb] PEP 8

											
										
										
											9 years ago
+								            check_req = sanitized_Request(self._CHECKPOINT_URL, urlencode_postdata(check_form))
-												[facebook] Fix the login process (fixes #1244)

											
										
										
											11 years ago
+								            check_req.add_header('Content-Type', 'application/x-www-form-urlencoded')
-												[facebook] Fix login process

It was broken and didn't work in python 3.
And use `_download_webpage` instead of `compat_urllib_request.urlopen`.

											
										
										
											11 years ago
+								            check_response = self._download_webpage(check_req, None,
-												PEP8: applied even more rules

											
										
										
											10 years ago
+								                                                    note='Confirming login')
-												[facebook] Fix the login process (fixes #1244)

											
										
										
											11 years ago
+								            if re.search(r'id="checkpointSubmitButton"', check_response) is not None:
-												Fix typos

Closes #8200.

											
										
										
											9 years ago
+								                self._downloader.report_warning('Unable to confirm login, you have to login in your browser and authorize the login.')
-												Move Facebook into its own file

											
										
										
											12 years ago
+								        except (compat_urllib_error.URLError, compat_http_client.HTTPException, socket.error) as err:
-												Rename error_to_str to error_to_compat_str

											
										
										
											9 years ago
+								            self._downloader.report_warning('unable to log in: %s' % error_to_compat_str(err))
-												Move Facebook into its own file

											
										
										
											12 years ago
+								            return
-												[facebook] Fix the login process (fixes #1244)

											
										
										
											11 years ago
+								    def _real_initialize(self):
 								        self._login()
-												[facebook] add support for Relay post pages(closes #26935)

											
										
										
											4 years ago
+								    def _extract_from_url(self, url, video_id):
-												[facebook] redirect Mobile URLs to Desktop URLs

closes #24831
closes #25624

											
										
										
											4 years ago
+								        webpage = self._download_webpage(
 								            url.replace('://m.facebook.com/', '://www.facebook.com/'), video_id)
-												Move Facebook into its own file

											
										
										
											12 years ago
-												[facebook] Support alternative webpage form

Fixes #8371

											
										
										
											9 years ago
+								        video_data = None
-												[facebook] Fix extraction (closes #11926)

											
										
										
											8 years ago
+								        def extract_video_data(instances):
-												[facebook] add support for Relay post pages(closes #26935)

											
										
										
											4 years ago
+								            video_data = []
-												[facebook] Fix extraction (closes #11926)

											
										
										
											8 years ago
+								            for item in instances:
-												[facebook] fix embed page extraction

											
										
										
											4 years ago
+								                if try_get(item, lambda x: x[1][0]) == 'VideoConfig':
-												[facebook] Fix extraction (closes #11926)

											
										
										
											8 years ago
+								                    video_item = item[2][0]
-												[facebook] Relax video id matching (closes #11017, closes #12055, closes #12056)

											
										
										
											8 years ago
+								                    if video_item.get('video_id'):
-												[facebook] add support for Relay post pages(closes #26935)

											
										
										
											4 years ago
+								                        video_data.append(video_item['videoData'])
 								            return video_data
-												[facebook] Fix extraction (closes #11926)

											
										
										
											8 years ago
-												[facebook] Remove SWF params so that 1080P are detected

Closes #11073

In the provided link, SWF params give up to 720P, and VideoConfig
gives 1080P for both best and bestvideo. I guess all Facebook videos
supports HTML5 now, so I remove the old detection for SWF params

											
										
										
											8 years ago
+								        server_js_data = self._parse_json(self._search_regex(
-												[facebook] Fix extraction (closes #11926)

											
										
										
											8 years ago
+								            r'handleServerJS\(({.+})(?:\);|,")', webpage,
 								            'server js data', default='{}'), video_id, fatal=False)
 								        if server_js_data:
 								            video_data = extract_video_data(server_js_data.get('instances', []))
-												[facebook] Improve extraction (closes #16554)

											
										
										
											7 years ago
+								        def extract_from_jsmods_instances(js_data):
 								            if js_data:
 								                return extract_video_data(try_get(
 								                    js_data, lambda x: x['jsmods']['instances'], list) or [])
-												[facebook] add support for group posts with multiple videos(closes #19131)

											
										
										
											4 years ago
+								        def extract_dash_manifest(video, formats):
-												[facebook] Add support for Relay based pages(closes #26823)

											
										
										
											4 years ago
+								            dash_manifest = video.get('dash_manifest')
 								            if dash_manifest:
 								                formats.extend(self._parse_mpd_formats(
 								                    compat_etree_fromstring(compat_urllib_parse_unquote_plus(dash_manifest))))
-												[facebook] add support for Relay post pages(closes #26935)

											
										
										
											4 years ago
+								        def process_formats(formats):
 								            # Downloads with browser's User-Agent are rate limited. Working around
 								            # with non-browser User-Agent.
 								            for f in formats:
 								                f.setdefault('http_headers', {})['User-Agent'] = 'facebookexternalhit/1.1'
 								            self._sort_formats(formats)
-												[facebook] Fix extraction (closes #11926)

											
										
										
											8 years ago
+								        if not video_data:
-												[facebook] try to reduce unessessary tahoe requests

											
										
										
											4 years ago
+								            server_js_data = self._parse_json(self._search_regex([
-												[facebook] add support for Relay post pages(closes #26935)

											
										
										
											4 years ago
+								                r'bigPipe\.onPageletArrive\(({.+?})\)\s*;\s*}\s*\)\s*,\s*["\']onPageletArrive\s+' + self._SUPPORTED_PAGLETS_REGEX,
 								                r'bigPipe\.onPageletArrive\(({.*?id\s*:\s*"%s".*?})\);' % self._SUPPORTED_PAGLETS_REGEX
-												[facebook] try to reduce unessessary tahoe requests

											
										
										
											4 years ago
+								            ], webpage, 'js data', default='{}'), video_id, js_to_json, False)
-												[facebook] Improve extraction (closes #16554)

											
										
										
											7 years ago
+								            video_data = extract_from_jsmods_instances(server_js_data)
-												[facebook] Support alternative webpage form

Fixes #8371

											
										
										
											9 years ago
-												[facebook] Add support for Relay based pages(closes #26823)

											
										
										
											4 years ago
+								        if not video_data:
 								            graphql_data = self._parse_json(self._search_regex(
 								                r'handleWithCustomApplyEach\([^,]+,\s*({.*?"(?:dash_manifest|playable_url(?:_quality_hd)?)"\s*:\s*"[^"]+".*?})\);',
 								                webpage, 'graphql data', default='{}'), video_id, fatal=False) or {}
 								            for require in (graphql_data.get('require') or []):
 								                if require[0] == 'RelayPrefetchedStreamCache':
-												[facebook] add support for group posts with multiple videos(closes #19131)

											
										
										
											4 years ago
+								                    entries = []
-												[facebook] Add support for Relay based pages(closes #26823)

											
										
										
											4 years ago
+								                    def parse_graphql_video(video):
-												[facebook] add support for group posts with multiple videos(closes #19131)

											
										
										
											4 years ago
+								                        formats = []
-												[facebook] Add support for Relay based pages(closes #26823)

											
										
										
											4 years ago
+								                        q = qualities(['sd', 'hd'])
 								                        for (suffix, format_id) in [('', 'sd'), ('_quality_hd', 'hd')]:
 								                            playable_url = video.get('playable_url' + suffix)
 								                            if not playable_url:
 								                                continue
 								                            formats.append({
 								                                'format_id': format_id,
 								                                'quality': q(format_id),
 								                                'url': playable_url,
 								                            })
-												[facebook] add support for group posts with multiple videos(closes #19131)

											
										
										
											4 years ago
+								                        extract_dash_manifest(video, formats)
-												[facebook] add support for Relay post pages(closes #26935)

											
										
										
											4 years ago
+								                        process_formats(formats)
-												[facebook] Add support for Relay based pages(closes #26823)

											
										
										
											4 years ago
+								                        v_id = video.get('videoId') or video.get('id') or video_id
 								                        info = {
 								                            'id': v_id,
 								                            'formats': formats,
 								                            'thumbnail': try_get(video, lambda x: x['thumbnailImage']['uri']),
 								                            'uploader_id': try_get(video, lambda x: x['owner']['id']),
 								                            'timestamp': int_or_none(video.get('publish_time')),
 								                            'duration': float_or_none(video.get('playable_duration_in_ms'), 1000),
 								                        }
 								                        description = try_get(video, lambda x: x['savable_description']['text'])
 								                        title = video.get('name')
 								                        if title:
 								                            info.update({
 								                                'title': title,
 								                                'description': description,
 								                            })
 								                        else:
 								                            info['title'] = description or 'Facebook video #%s' % v_id
-												[facebook] add support for group posts with multiple videos(closes #19131)

											
										
										
											4 years ago
+								                        entries.append(info)
 								                    def parse_attachment(attachment, key='media'):
 								                        media = attachment.get(key) or {}
 								                        if media.get('__typename') == 'Video':
 								                            return parse_graphql_video(media)
-												[facebook] Add support for Relay based pages(closes #26823)

											
										
										
											4 years ago
 								                    data = try_get(require, lambda x: x[3][1]['__bbox']['result']['data'], dict) or {}
-												[facebook] add support for Relay post pages(closes #26935)

											
										
										
											4 years ago
+								                    nodes = data.get('nodes') or []
 								                    node = data.get('node') or {}
 								                    if not nodes and node:
 								                        nodes.append(node)
 								                    for node in nodes:
 								                        attachments = try_get(node, lambda x: x['comet_sections']['content']['story']['attachments'], list) or []
 								                        for attachment in attachments:
 								                            attachment = try_get(attachment, lambda x: x['style_type_renderer']['attachment'], dict)
 								                            ns = try_get(attachment, lambda x: x['all_subattachments']['nodes'], list) or []
 								                            for n in ns:
 								                                parse_attachment(n)
 								                            parse_attachment(attachment)
-												[facebook] Add support for Relay based pages(closes #26823)

											
										
										
											4 years ago
-												[facebook] add support for group posts with multiple videos(closes #19131)

											
										
										
											4 years ago
+								                    edges = try_get(data, lambda x: x['mediaset']['currMedia']['edges'], list) or []
 								                    for edge in edges:
 								                        parse_attachment(edge, key='node')
-												[facebook] add support for Relay post pages(closes #26935)

											
										
										
											4 years ago
+								                    video = data.get('video') or {}
 								                    if video:
 								                        attachments = try_get(video, [
 								                            lambda x: x['story']['attachments'],
 								                            lambda x: x['creation_story']['attachments']
 								                        ], list) or []
 								                        for attachment in attachments:
 								                            parse_attachment(attachment)
 								                        if not entries:
-												[facebook] add support for group posts with multiple videos(closes #19131)

											
										
										
											4 years ago
+								                            parse_graphql_video(video)
-												[facebook] add support for Relay post pages(closes #26935)

											
										
										
											4 years ago
+								                    return self.playlist_result(entries, video_id)
-												[facebook] Add support for Relay based pages(closes #26823)

											
										
										
											4 years ago
-												[facebook] Add support for tahoe player videos (closes #15441)

Specific videos appear to use a newer/different player, this requires a
second request for the video data as the initial request is missing the
specified data.

Additionally these videos have different page content for the uploader
value, which is stored in the `<meta property="og:title"...>` element of
the initial request.

											
										
										
											7 years ago
+								        if not video_data:
-												[facebook] Improve extraction (closes #16554)

											
										
										
											7 years ago
+								            m_msg = re.search(r'class="[^"]*uiInterstitialContent[^"]*"><div>(.*?)</div>', webpage)
 								            if m_msg is not None:
 								                raise ExtractorError(
 								                    'The video is not available, Facebook said: "%s"' % m_msg.group(1),
 								                    expected=True)
 								            elif '>You must log in to continue' in webpage:
 								                self.raise_login_required()
 								            # Video info not in first request, do a secondary request using
 								            # tahoe player specific URL
-												[facebook] Add support for tahoe player videos (closes #15441)

Specific videos appear to use a newer/different player, this requires a
second request for the video data as the initial request is missing the
specified data.

Additionally these videos have different page content for the uploader
value, which is stored in the `<meta property="og:title"...>` element of
the initial request.

											
										
										
											7 years ago
+								            tahoe_data = self._download_webpage(
 								                self._VIDEO_PAGE_TAHOE_TEMPLATE % video_id, video_id,
 								                data=urlencode_postdata({
 								                    '__a': 1,
-												[facebook] Improve extraction (closes #16554)

											
										
										
											7 years ago
+								                    '__pc': self._search_regex(
 								                        r'pkg_cohort["\']\s*:\s*["\'](.+?)["\']', webpage,
 								                        'pkg cohort', default='PHASED:DEFAULT'),
 								                    '__rev': self._search_regex(
 								                        r'client_revision["\']\s*:\s*(\d+),', webpage,
 								                        'client revision', default='3944515'),
-												[facebook] fix tahoe request for authenticated users(closes #16655)

											
										
										
											7 years ago
+								                    'fb_dtsg': self._search_regex(
 								                        r'"DTSGInitialData"\s*,\s*\[\]\s*,\s*{\s*"token"\s*:\s*"([^"]+)"',
 								                        webpage, 'dtsg token', default=''),
-												[facebook] Add support for tahoe player videos (closes #15441)

Specific videos appear to use a newer/different player, this requires a
second request for the video data as the initial request is missing the
specified data.

Additionally these videos have different page content for the uploader
value, which is stored in the `<meta property="og:title"...>` element of
the initial request.

											
										
										
											7 years ago
+								                }),
 								                headers={
 								                    'Content-Type': 'application/x-www-form-urlencoded',
 								                })
-												[facebook] Improve extraction (closes #16554)

											
										
										
											7 years ago
+								            tahoe_js_data = self._parse_json(
 								                self._search_regex(
 								                    r'for\s+\(\s*;\s*;\s*\)\s*;(.+)', tahoe_data,
 								                    'tahoe js data', default='{}'),
 								                video_id, fatal=False)
 								            video_data = extract_from_jsmods_instances(tahoe_js_data)
-												[facebook] Add support for tahoe player videos (closes #15441)

Specific videos appear to use a newer/different player, this requires a
second request for the video data as the initial request is missing the
specified data.

Additionally these videos have different page content for the uploader
value, which is stored in the `<meta property="og:title"...>` element of
the initial request.

											
										
										
											7 years ago
-												[facebook] Support alternative webpage form

Fixes #8371

											
										
										
											9 years ago
+								        if not video_data:
-												[facebook] Improve extraction (closes #16554)

											
										
										
											7 years ago
+								            raise ExtractorError('Cannot parse data')
-												[facebook] Extract all the formats (closes #5037)

											
										
										
											10 years ago
-												[facebook] add support for Relay post pages(closes #26935)

											
										
										
											4 years ago
+								        if len(video_data) > 1:
 								            entries = []
 								            for v in video_data:
 								                video_url = v[0].get('video_url')
 								                if not video_url:
 								                    continue
 								                entries.append(self.url_result(urljoin(
 								                    url, video_url), self.ie_key(), v[0].get('video_id')))
 								            return self.playlist_result(entries, video_id)
 								        video_data = video_data[0]
-												[facebook] add support for group posts with multiple videos(closes #19131)

											
										
										
											4 years ago
+								        formats = []
-												[facebook] extract subtitles(closes #22777)

											
										
										
											5 years ago
+								        subtitles = {}
-												[facebook] Remove SWF params so that 1080P are detected

Closes #11073

In the provided link, SWF params give up to 720P, and VideoConfig
gives 1080P for both best and bestvideo. I guess all Facebook videos
supports HTML5 now, so I remove the old detection for SWF params

											
										
										
											8 years ago
+								        for f in video_data:
 								            format_id = f['stream_type']
-												Fix issue downloading facebook videos

youtube-dl expects the format items to be returned as a list,
but when there's only one item Facebook returns a dict instead,
this wraps the dict in a list if necessary

											
										
										
											9 years ago
+								            if f and isinstance(f, dict):
 								                f = [f]
-												[facebook] Fix extraction (Closes #7252)

											
										
										
											9 years ago
+								            if not f or not isinstance(f, list):
 								                continue
 								            for quality in ('sd', 'hd'):
 								                for src_type in ('src', 'src_no_ratelimit'):
 								                    src = f[0].get('%s_%s' % (quality, src_type))
 								                    if src:
-												[facebook] Fix format sorting

'hd' formats should have higher priorities

											
										
										
											9 years ago
+								                        preference = -10 if format_id == 'progressive' else 0
 								                        if quality == 'hd':
 								                            preference += 5
-												[facebook] Fix extraction (Closes #7252)

											
										
										
											9 years ago
+								                        formats.append({
 								                            'format_id': '%s_%s_%s' % (format_id, quality, src_type),
 								                            'url': src,
-												[facebook] Fix format sorting

'hd' formats should have higher priorities

											
										
										
											9 years ago
+								                            'preference': preference,
-												[facebook] Fix extraction (Closes #7252)

											
										
										
											9 years ago
+								                        })
-												[facebook] add support for group posts with multiple videos(closes #19131)

											
										
										
											4 years ago
+								            extract_dash_manifest(f[0], formats)
-												[facebook] extract subtitles(closes #22777)

											
										
										
											5 years ago
+								            subtitles_src = f[0].get('subtitles_src')
 								            if subtitles_src:
 								                subtitles.setdefault('en', []).append({'url': subtitles_src})
-												[facebook] Extract all the formats (closes #5037)

											
										
										
											10 years ago
+								        if not formats:
 								            raise ExtractorError('Cannot find video formats')
-												Move Facebook into its own file

											
										
										
											12 years ago
-												[facebook] add support for Relay post pages(closes #26935)

											
										
										
											4 years ago
+								        process_formats(formats)
-												[facebook] Add support for DASH manifests

											
										
										
											9 years ago
-												[facebook] Allow untitled videos (Fixes #1484)

											
										
										
											11 years ago
+								        video_title = self._html_search_regex(
-												[facebook] Make title optional (closes #12443)

											
										
										
											8 years ago
+								            r'<h2\s+[^>]*class="uiHeaderTitle"[^>]*>([^<]*)</h2>', webpage,
 								            'title', default=None)
-												[facebook] Fix and caption if title is empty

											
										
										
											10 years ago
+								        if not video_title:
 								            video_title = self._html_search_regex(
 								                r'(?s)<span class="fbPhotosPhotoCaption".*?id="fbPhotoPageCaption"><span class="hasCaption">(.*?)</span>',
-												[facebook] Make alternative title optional (Closes #7700)

											
										
										
											9 years ago
+								                webpage, 'alternative title', default=None)
-												[facebook] Fix and caption if title is empty

											
										
										
											10 years ago
+								        if not video_title:
-												[facebook] Fix title extraction (closes #11941)

											
										
										
											8 years ago
+								            video_title = self._html_search_meta(
-												[facebook] Make title optional (closes #12443)

											
										
										
											8 years ago
+								                'description', webpage, 'title', default=None)
-												[facebook] Fix title extraction (closes #11941)

											
										
										
											8 years ago
+								        if video_title:
 								            video_title = limit_length(video_title, 80)
 								        else:
-												[facebook] Fix and caption if title is empty

											
										
										
											10 years ago
+								            video_title = 'Facebook video #%s' % video_id
-												[facebook] Improve extraction (closes #16554)

											
										
										
											7 years ago
+								        uploader = clean_html(get_element_by_id(
 								            'fbPhotoPageAuthorName', webpage)) or self._search_regex(
 								            r'ownerName\s*:\s*"([^"]+)"', webpage, 'uploader',
-												[facebook] Improve uploader extraction (closes #20250)

											
										
										
											6 years ago
+								            default=None) or self._og_search_title(webpage, fatal=False)
-												[facebook] Extract timestamp (Closes #10508)

											
										
										
											8 years ago
+								        timestamp = int_or_none(self._search_regex(
 								            r'<abbr[^>]+data-utime=["\'](\d+)', webpage,
 								            'timestamp', default=None))
-												[facebook] fallback to twitter:image meta for thumbnail extraction(closes #21224)

											
										
										
											6 years ago
+								        thumbnail = self._html_search_meta(['og:image', 'twitter:image'], webpage)
-												Move Facebook into its own file

											
										
										
											12 years ago
-												[facebook] Extract view count and update tests (closes #16942)

											
										
										
											7 years ago
+								        view_count = parse_count(self._search_regex(
 								            r'\bviewCount\s*:\s*["\']([\d,.]+)', webpage, 'view count',
 								            default=None))
-												[facebook] Merge FacebookPostIE into FacebookIE

Fixes #8713

											
										
										
											9 years ago
+								        info_dict = {
-												Move Facebook into its own file

											
										
										
											12 years ago
+								            'id': video_id,
 								            'title': video_title,
-												[facebook] Extract all the formats (closes #5037)

											
										
										
											10 years ago
+								            'formats': formats,
-												[facebook] extract uploader

											
										
										
											10 years ago
+								            'uploader': uploader,
-												[facebook] Extract timestamp (Closes #10508)

											
										
										
											8 years ago
+								            'timestamp': timestamp,
-												[facebook] Support thumbnails (closes #14416)

											
										
										
											7 years ago
+								            'thumbnail': thumbnail,
-												[facebook] Extract view count and update tests (closes #16942)

											
										
										
											7 years ago
+								            'view_count': view_count,
-												[facebook] extract subtitles(closes #22777)

											
										
										
											5 years ago
+								            'subtitles': subtitles,
-												Move Facebook into its own file

											
										
										
											12 years ago
+								        }
-												[facebook:post] Add extractor (Closes #8321)

											
										
										
											9 years ago
-												[facebook] add support for Relay post pages(closes #26935)

											
										
										
											4 years ago
+								        return info_dict
-												[facebook:post] Add extractor (Closes #8321)

											
										
										
											9 years ago
 								    def _real_extract(self, url):
-												[facebook] Merge FacebookPostIE into FacebookIE

Fixes #8713

											
										
										
											9 years ago
+								        video_id = self._match_id(url)
 								        real_url = self._VIDEO_PAGE_TEMPLATE % video_id if url.startswith('facebook:') else url
-												[facebook] add support for Relay post pages(closes #26935)

											
										
										
											4 years ago
+								        return self._extract_from_url(real_url, video_id)
-												[facebook:plugins:video] Add extractor (Closes #10530)

											
										
										
											8 years ago
 								class FacebookPluginsVideoIE(InfoExtractor):
 								    _VALID_URL = r'https?://(?:[\w-]+\.)?facebook\.com/plugins/video\.php\?.*?\bhref=(?P<id>https.+)'
 								    _TESTS = [{
 								        'url': 'https://www.facebook.com/plugins/video.php?href=https%3A%2F%2Fwww.facebook.com%2Fgov.sg%2Fvideos%2F10154383743583686%2F&show_text=0&width=560',
 								        'md5': '5954e92cdfe51fe5782ae9bda7058a07',
 								        'info_dict': {
 								            'id': '10154383743583686',
 								            'ext': 'mp4',
 								            'title': 'What to do during the haze?',
 								            'uploader': 'Gov.sg',
 								            'upload_date': '20160826',
 								            'timestamp': 1472184808,
 								        },
 								        'add_ie': [FacebookIE.ie_key()],
 								    }, {
 								        'url': 'https://www.facebook.com/plugins/video.php?href=https%3A%2F%2Fwww.facebook.com%2Fvideo.php%3Fv%3D10204634152394104',
 								        'only_matching': True,
 								    }, {
 								        'url': 'https://www.facebook.com/plugins/video.php?href=https://www.facebook.com/gov.sg/videos/10154383743583686/&show_text=0&width=560',
 								        'only_matching': True,
 								    }]
 								    def _real_extract(self, url):
 								        return self.url_result(
 								            compat_urllib_parse_unquote(self._match_id(url)),
 								            FacebookIE.ie_key())