feat(scrapers): total refactor

2025-09-22 22:00:20 -04:00 · 2025-09-22 22:00:20 -04:00 · db391da52c
commit db391da52c
parent eb3f7762de
9 changed files with 559 additions and 307 deletions
--- a/scrapers/atcoder.py
+++ b/scrapers/atcoder.py
@ -1,5 +1,6 @@
 #!/usr/bin/env python3

+import concurrent.futures
 import json
 import re
 import sys
@ -9,6 +10,7 @@ import backoff
 import requests
 from bs4 import BeautifulSoup, Tag

+from .base import BaseScraper
 from .models import (
    ContestListResult,
    ContestSummary,
@ -167,8 +169,6 @@ def scrape(url: str) -> list[TestCase]:


 def scrape_contests() -> list[ContestSummary]:
-    import concurrent.futures
-
    def get_max_pages() -> int:
        try:
            headers = {
@ -296,6 +296,101 @@ def scrape_contests() -> list[ContestSummary]:
    return all_contests


+class AtCoderScraper(BaseScraper):
+    @property
+    def platform_name(self) -> str:
+        return "atcoder"
+
+    def scrape_contest_metadata(self, contest_id: str) -> MetadataResult:
+        return self._safe_execute("metadata", self._scrape_metadata_impl, contest_id)
+
+    def scrape_problem_tests(self, contest_id: str, problem_id: str) -> TestsResult:
+        return self._safe_execute(
+            "tests", self._scrape_tests_impl, contest_id, problem_id
+        )
+
+    def scrape_contest_list(self) -> ContestListResult:
+        return self._safe_execute("contests", self._scrape_contests_impl)
+
+    def _safe_execute(self, operation: str, func, *args):
+        try:
+            return func(*args)
+        except Exception as e:
+            error_msg = f"{self.platform_name}: {str(e)}"
+
+            if operation == "metadata":
+                return MetadataResult(success=False, error=error_msg)
+            elif operation == "tests":
+                return TestsResult(
+                    success=False,
+                    error=error_msg,
+                    problem_id="",
+                    url="",
+                    tests=[],
+                    timeout_ms=0,
+                    memory_mb=0,
+                )
+            elif operation == "contests":
+                return ContestListResult(success=False, error=error_msg)
+
+    def _scrape_metadata_impl(self, contest_id: str) -> MetadataResult:
+        problems = scrape_contest_problems(contest_id)
+        if not problems:
+            return MetadataResult(
+                success=False,
+                error=f"{self.platform_name}: No problems found for contest {contest_id}",
+            )
+        return MetadataResult(
+            success=True, error="", contest_id=contest_id, problems=problems
+        )
+
+    def _scrape_tests_impl(self, contest_id: str, problem_id: str) -> TestsResult:
+        problem_letter = problem_id.upper()
+        url = parse_problem_url(contest_id, problem_letter)
+        tests = scrape(url)
+
+        response = requests.get(
+            url,
+            headers={
+                "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
+            },
+            timeout=10,
+        )
+        response.raise_for_status()
+
+        soup = BeautifulSoup(response.text, "html.parser")
+        timeout_ms, memory_mb = extract_problem_limits(soup)
+
+        if not tests:
+            return TestsResult(
+                success=False,
+                error=f"{self.platform_name}: No tests found for {contest_id} {problem_letter}",
+                problem_id=f"{contest_id}_{problem_id.lower()}",
+                url=url,
+                tests=[],
+                timeout_ms=timeout_ms,
+                memory_mb=memory_mb,
+            )
+
+        return TestsResult(
+            success=True,
+            error="",
+            problem_id=f"{contest_id}_{problem_id.lower()}",
+            url=url,
+            tests=tests,
+            timeout_ms=timeout_ms,
+            memory_mb=memory_mb,
+        )
+
+    def _scrape_contests_impl(self) -> ContestListResult:
+        contests = scrape_contests()
+        if not contests:
+            return ContestListResult(
+                success=False, error=f"{self.platform_name}: No contests found"
+            )
+        return ContestListResult(success=True, error="", contests=contests)
+
+
 def main() -> None:
    if len(sys.argv) < 2:
        result = MetadataResult(
@ -306,6 +401,7 @@ def main() -> None:
        sys.exit(1)

    mode: str = sys.argv[1]
+    scraper = AtCoderScraper()

    if mode == "metadata":
        if len(sys.argv) != 3:
@ -317,23 +413,10 @@ def main() -> None:
            sys.exit(1)

        contest_id: str = sys.argv[2]
-        problems: list[ProblemSummary] = scrape_contest_problems(contest_id)
-
-        if not problems:
-            result = MetadataResult(
-                success=False,
-                error=f"No problems found for contest {contest_id}",
-            )
-            print(json.dumps(asdict(result)))
-            sys.exit(1)
-
-        result = MetadataResult(
-            success=True,
-            error="",
-            contest_id=contest_id,
-            problems=problems,
-        )
+        result = scraper.scrape_contest_metadata(contest_id)
        print(json.dumps(asdict(result)))
+        if not result.success:
+            sys.exit(1)

    elif mode == "tests":
        if len(sys.argv) != 4:
@ -351,55 +434,10 @@ def main() -> None:

        test_contest_id: str = sys.argv[2]
        problem_letter: str = sys.argv[3]
-        problem_id: str = f"{test_contest_id}_{problem_letter.lower()}"
-
-        url: str = parse_problem_url(test_contest_id, problem_letter)
-        tests: list[TestCase] = scrape(url)
-
-        try:
-            headers = {
-                "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
-            }
-            response = requests.get(url, headers=headers, timeout=10)
-            response.raise_for_status()
-            soup = BeautifulSoup(response.text, "html.parser")
-            timeout_ms, memory_mb = extract_problem_limits(soup)
-        except Exception as e:
-            tests_result = TestsResult(
-                success=False,
-                error=f"Failed to extract constraints: {e}",
-                problem_id=problem_id,
-                url=url,
-                tests=[],
-                timeout_ms=0,
-                memory_mb=0,
-            )
-            print(json.dumps(asdict(tests_result)))
-            sys.exit(1)
-
-        if not tests:
-            tests_result = TestsResult(
-                success=False,
-                error=f"No tests found for {test_contest_id} {problem_letter}",
-                problem_id=problem_id,
-                url=url,
-                tests=[],
-                timeout_ms=timeout_ms,
-                memory_mb=memory_mb,
-            )
-            print(json.dumps(asdict(tests_result)))
-            sys.exit(1)
-
-        tests_result = TestsResult(
-            success=True,
-            error="",
-            problem_id=problem_id,
-            url=url,
-            tests=tests,
-            timeout_ms=timeout_ms,
-            memory_mb=memory_mb,
-        )
+        tests_result = scraper.scrape_problem_tests(test_contest_id, problem_letter)
        print(json.dumps(asdict(tests_result)))
+        if not tests_result.success:
+            sys.exit(1)

    elif mode == "contests":
        if len(sys.argv) != 2:
@ -409,14 +447,10 @@ def main() -> None:
            print(json.dumps(asdict(contest_result)))
            sys.exit(1)

-        contests = scrape_contests()
-        if not contests:
-            contest_result = ContestListResult(success=False, error="No contests found")
-            print(json.dumps(asdict(contest_result)))
-            sys.exit(1)
-
-        contest_result = ContestListResult(success=True, error="", contests=contests)
+        contest_result = scraper.scrape_contest_list()
        print(json.dumps(asdict(contest_result)))
+        if not contest_result.success:
+            sys.exit(1)

    else:
        result = MetadataResult(