HEGS Scrapper - RSS Content Scraper API

HEGS Scrapper, Anadolu Ajansı ve diğer haber kaynaklarından haber içeriklerini çekmek için tasarlanmış web scraping API'sidir. BeautifulSoup ve akıllı container seçimi ile haber metinlerini temiz ve yapılandırılmış şekilde çıkarır.

🎯 Özellikler

Ana Özellikler

Akıllı Content Extraction: Otomatik haber container tespiti
Meta Data Parsing: Başlık, tarih, yazar bilgileri
Error Handling: Retry mekanizması ve graceful degradation
RSS Feed Support: Anadolu Ajansı RSS entegrasyonu
Clean Text Output: Gereksiz HTML ve whitespace temizleme
Multiple Selectors: 12+ farklı haber container selector
Turkish Support: Türkçe özel karakter desteği

API Endpoints

POST /scrape - URL'den haber içeriği çekme
GET / - API sağlık kontrolü

🔧 Teknolojiler

Framework: FastAPI 0.104.1
Parser: BeautifulSoup4 4.12.2
HTTP Client: Requests 2.31.0
HTML Parser: lxml 4.9.3
Python: 3.8+

🚀 Kurulum

Bu servis HEGS mikroservis ekosisteminin bir parçasıdır ve HEGS-SETUP reposu üzerinden Docker Compose ile çalıştırılır.

Kurulum Adımları

Tüm HEGS sistemini kurmak ve çalıştırmak için:

HEGS-SETUP reposuna gidin: HEGS-SETUP Repository
HEGS-SETUP README'sindeki adımları takip edin
Tüm mikroservisler otomatik olarak başlatılacaktır

Not: Bu servisi tek başına çalıştırmak için Docker Compose yerine manuel kurulum yapabilirsiniz, ancak tam fonksiyonellik için HEGS-SETUP kullanılması önerilir.

📡 API Kullanımı

Haber Scraping

curl -X POST "http://localhost:9932/scrape" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://www.aa.com.tr/tr/guncel/istanbul-buyuksehir-belediyesi-2024-yili-butcesi-uygulamaya-konuldu/3070000"
  }'

Success Response:

{
  "success": true,
  "title": "İstanbul Büyükşehir Belediyesi 2024 yılı bütçesi uygulamaya konuldu",
  "published": "2024-01-15T14:30:00",
  "content": "İstanbul Büyükşehir Belediyesi'nin 2024 yılı bütçesi Meclis'te kabul edildi.\n\nBelediye Başkanı Ekrem İmamoğlu, bütçe görüşmelerinde yaptığı konuşmada...",
  "error": null
}

Error Response:

{
  "success": false,
  "title": null,
  "published": null,
  "content": null,
  "error": "İçerik bulunamadı - uygun makale konteyneri bulunamadı"
}

Health Check

curl -X GET "http://localhost:9932/"

Response:

{
  "message": "RSS Content Scraper API is running"
}

🏗️ Proje Yapısı

HEGS-SCRAPPER/
├── api.py              # FastAPI uygulaması & scraping mantığı
├── main.py            # RSS feed reader (Anadolu Ajansı)
├── aa_inspect.py      # Test ve debug script
├── test_api.py        # API test script
├── requirements.txt   # Python bağımlılıkları
└── README.md         # Bu dosya

🔍 Scraping Mantığı

1. Container Tespiti

Sistem şu sırayla container arar:

KNOWN_SELECTORS = [
    "article",
    "div[itemprop='articleBody']",
    "section[itemprop='articleBody']",
    "div[class*='article']",
    "section[class*='article']",
    "div[class*='content']",
    "section[class*='content']",
    "div[class*='detail']",
    "section[class*='detail']",
    "div[class*='haber']",
    "section[class*='haber']",
    "div[class*='icerik']",
    "section[class*='icerik']",
]

2. Scoring Algoritması

Her container şu kriterlere göre puanlanır:

def score_container(tag) -> int:
    # Paragraph sayısı ve uzunluğu
    text_length = len(all_text)
    
    # Header sayısı (h2, h3) - pozitif
    headers_score = 100 * len(headers)
    
    # Link sayısı - negatif (navigation içeriği olabilir)
    links_penalty = -10 * len(links)
    
    # Minimum eşik: 300 karakter, 2+ paragraf
    if text_length < 300 or paragraph_count < 2:
        return 0
    
    return text_length + headers_score + links_penalty

3. Meta Data Extraction

Başlık (Title)

# Sırasıyla dener:
1. <meta property="og:title">
2. <meta property="twitter:title">
3. <meta name="title">
4. <h1> tag
5. <title> tag

Yayın Tarihi (Published)

# Sırasıyla dener:
1. <meta property="article:published_time">
2. <meta property="og:updated_time">
3. <meta name="pubdate">
4. <time datetime="...">
5. Regex pattern match (DD.MM.YYYY veya YYYY-MM-DD)

4. Text Cleaning

def clean_text(s: str) -> str:
    # Birden fazla whitespace'i tek space'e
    s = re.sub(r"\s+", " ", s)
    # Başındaki ve sonundaki boşlukları temizle
    return s.strip()

📊 RSS Feed Reader

main.py - Anadolu Ajansı RSS

def fetch_rss_category(category: str):
    """
    Kategoriler:
    - guncel, dunya, ekonomi, spor, teknoloji
    - saglik, kultur, egitim, cevre, yasam
    """
    url = f"https://www.aa.com.tr/tr/rss/default?cat={category}"
    # RSS parse ve haber listesi döndür

Kullanım

python main.py

# Output: RSS feed'den haberler

🔐 Güvenlik

Rate Limiting

REQUEST_TIMEOUT = 12      # Saniye
RETRY = 2                 # Retry count
SLEEP_BETWEEN_REQ = 1.0   # İstekler arası bekleme

User Agent

UA = "HegsHaberScraper/1.0"  # Custom user agent

Input Validation

URL format kontrolü (Pydantic HttpUrl)
Timeout mekanizması
Exception handling
CORS restrictions

CORS Ayarları

allow_origins=[
    "http://localhost:5173",  # frontend
    "http://localhost:3000"   # frontend fallback
]

🔗 Entegrasyon

Frontend (HEGS-HABER-frontend)

ArticlePage.tsx

const response = await axios.post(
  "http://localhost:9932/scrape",
  { url: articleUrl }
);

NewsCard.tsx

// Quiz oluşturma için haber içeriği
const scrapingResponse = await axios.post(
  "http://localhost:9932/scrape",
  { url: newsUrl }
);

// Sonra AI'a gönder
const quizResponse = await axios.post(
  "http://localhost:8000/quiz",
  { news_text: scrapingResponse.data.content }
);

Backend (HEGS-HABER-backend)

// NewsService.java
String scrapperUrl = "http://localhost:9932/scrape";
RestTemplate restTemplate = new RestTemplate();

ScrapeRequest request = new ScrapeRequest(newsUrl);
ScrapeResponse response = restTemplate.postForObject(
    scrapperUrl, 
    request, 
    ScrapeResponse.class
);

📈 Performans

Ortalama Scraping Süresi: 2-4 saniye
Retry ile: max 10 saniye
Success Rate: ~85% (desteklenen siteler)
Memory Usage: ~80MB (base)
Concurrent Requests: 20+ (asyncio ile artırılabilir)

🐛 Hata Ayıklama

Test Script

# API test
python test_api.py

# Çıktı: Scraping başarılı/başarısız

Debug Logging

import logging
logging.basicConfig(level=logging.DEBUG)

# api.py içinde
logger = logging.getLogger(__name__)
logger.debug(f"Scraping URL: {url}")

Yaygın Hatalar

"Sayfa alınamadı" Hatası

Çözüm: 
- URL'i kontrol edin
- Site erişilebilir mi kontrol edin
- Timeout süresini artırın

"İçerik bulunamadı" Hatası

Çözüm:
- Site yapısı desteklenmiyor olabilir
- KNOWN_SELECTORS listesine yeni selector ekleyin
- Scoring algoritmasını ayarlayın

Encoding Hataları

Çözüm:
- lxml parser kullanılıyor
- UTF-8 encoding zorunlu

🧪 Test

Manual Test

# Python REPL
from api import scrape_article

result = scrape_article("https://www.aa.com.tr/tr/guncel/test-haber/123456")
print(result)

cURL Test

# Başarılı case
curl -X POST http://localhost:9932/scrape \
  -H "Content-Type: application/json" \
  -d '{"url": "https://www.aa.com.tr/tr/guncel/valid-news-url"}'

# Geçersiz URL
curl -X POST http://localhost:9932/scrape \
  -H "Content-Type: application/json" \
  -d '{"url": "invalid-url"}'

📊 Desteklenen Siteler

Tam Destek

✅ Anadolu Ajansı (aa.com.tr)
✅ Genel haber siteleri (article tag'li)
✅ Schema.org microdata kullanan siteler

Kısmi Destek

⚠️ Dinamik JavaScript içerikli siteler (gelecekte)
⚠️ Login gerektiren siteler (gelecekte)

Desteklenmeyen

❌ SPA (Single Page Application) siteleri
❌ Captcha korumalı siteler
❌ Paywall arkasındaki içerikler

🛠️ Özelleştirme

Yeni Selector Ekleme

# api.py içinde
KNOWN_SELECTORS = [
    # Mevcut selector'lar
    "your-custom-selector",
    "div[class*='your-class']"
]

Scoring Algoritması Ayarlama

def score_container(tag) -> int:
    # Minimum karakter sayısını değiştir
    MIN_TEXT_LENGTH = 200  # varsayılan: 300
    MIN_PARAGRAPHS = 1     # varsayılan: 2
    
    # Ağırlıkları ayarla
    HEADER_WEIGHT = 150    # varsayılan: 100
    LINK_PENALTY = -5      # varsayılan: -10

Not: Bu servis localhost üzerinde çalışacak şekilde yapılandırılmıştır. Docker ile çalıştırmak için root dizindeki docker-compose.yml dosyasını kullanın.

⚠️ Uyarı: Web scraping yaparken hedef sitenin robots.txt ve kullanım şartlarına uygun hareket edin.

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.dockerignore		.dockerignore
Dockerfile		Dockerfile
README.md		README.md
aa_inspect.py		aa_inspect.py
api.py		api.py
main.py		main.py
requirements.txt		requirements.txt
test_api.py		test_api.py

Folders and files

Latest commit

History

Repository files navigation

HEGS Scrapper - RSS Content Scraper API

🎯 Özellikler

Ana Özellikler

API Endpoints

🔧 Teknolojiler

🚀 Kurulum

Kurulum Adımları

📡 API Kullanımı

Haber Scraping

Health Check

🏗️ Proje Yapısı

🔍 Scraping Mantığı

1. Container Tespiti

2. Scoring Algoritması

3. Meta Data Extraction

Başlık (Title)

Yayın Tarihi (Published)

4. Text Cleaning

📊 RSS Feed Reader

main.py - Anadolu Ajansı RSS

Kullanım

🔐 Güvenlik

Rate Limiting

User Agent

Input Validation

CORS Ayarları

🔗 Entegrasyon

Frontend (HEGS-HABER-frontend)

Backend (HEGS-HABER-backend)

📈 Performans

🐛 Hata Ayıklama

Test Script

Debug Logging

Yaygın Hatalar

🧪 Test

Manual Test

cURL Test

📊 Desteklenen Siteler

Tam Destek

Kısmi Destek

Desteklenmeyen

🛠️ Özelleştirme

Yeni Selector Ekleme

Scoring Algoritması Ayarlama

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages