This commit is contained in:
20
main.py
20
main.py
@@ -250,20 +250,20 @@ def check_url(url):
|
|||||||
response = wp.check_url_exists(url) #get('http://45.129.78.228:8002/check_url_exists', params={'url': url})
|
response = wp.check_url_exists(url) #get('http://45.129.78.228:8002/check_url_exists', params={'url': url})
|
||||||
if response.status_code == 200:
|
if response.status_code == 200:
|
||||||
result = response.json()
|
result = response.json()
|
||||||
print(result["exists"])
|
# print(result["exists"])
|
||||||
return result["exists"]
|
return result["exists"]
|
||||||
else:
|
else:
|
||||||
print(f"Ошибка: {response.status_code}")
|
# print(f"Ошибка: {response.status_code}")
|
||||||
# Если сервис недоступен — считаем, что URL новый (пропускаем)
|
# Если сервис недоступен — считаем, что URL новый (пропускаем)
|
||||||
return False
|
return False
|
||||||
except requests.exceptions.Timeout:
|
except requests.exceptions.Timeout:
|
||||||
print(f"Timeout при проверке URL: {url}")
|
# print(f"Timeout при проверке URL: {url}")
|
||||||
logger.warning(f"check_url timeout: {url}")
|
# logger.warning(f"check_url timeout: {url}")
|
||||||
# Если таймаут — считаем, что URL новый (пропускаем)
|
# Если таймаут — считаем, что URL новый (пропускаем)
|
||||||
return False
|
return False
|
||||||
except Exception as e:
|
except Exception as e:
|
||||||
print(f"Ошибка при проверке URL: {e}")
|
# print(f"Ошибка при проверке URL: {e}")
|
||||||
logger.error(f"check_url error: {e}")
|
# logger.error(f"check_url error: {e}")
|
||||||
# Если ошибка — считаем, что URL новый (пропускаем)
|
# Если ошибка — считаем, что URL новый (пропускаем)
|
||||||
return False
|
return False
|
||||||
|
|
||||||
@@ -429,7 +429,7 @@ def start_pars_all_istochnik(url:str, promt:str):
|
|||||||
# Фильтрация по ключевым словам (пример для новостных сайтов)
|
# Фильтрация по ключевым словам (пример для новостных сайтов)
|
||||||
# path_lower = parsed.path.lower()
|
# path_lower = parsed.path.lower()
|
||||||
# if any(keyword in path_lower for keyword in ['/news/', 'article', '2026', '2027', '/blog/', '/post/']):
|
# if any(keyword in path_lower for keyword in ['/news/', 'article', '2026', '2027', '/blog/', '/post/']):
|
||||||
print(f"Парсинг {abs_url}")
|
# print(f"Парсинг {abs_url}")
|
||||||
if check_url(abs_url) == False and wp.check_error_url(abs_url):
|
if check_url(abs_url) == False and wp.check_error_url(abs_url):
|
||||||
try:
|
try:
|
||||||
article = Article(abs_url)
|
article = Article(abs_url)
|
||||||
@@ -439,9 +439,9 @@ def start_pars_all_istochnik(url:str, promt:str):
|
|||||||
if len(article.text) > 200 and article.publish_date:
|
if len(article.text) > 200 and article.publish_date:
|
||||||
time_text = article.publish_date.strftime("%Y/%m/%d %H:%M:%S")
|
time_text = article.publish_date.strftime("%Y/%m/%d %H:%M:%S")
|
||||||
print("URL:", abs_url)
|
print("URL:", abs_url)
|
||||||
print("Заголовок:", article.title)
|
# print("Заголовок:", article.title)
|
||||||
print("Дата публикации:", time_text)
|
# print("Дата публикации:", time_text)
|
||||||
print("Текст статьи:", article.text)
|
# print("Текст статьи:", article.text)
|
||||||
response_text = gpt_response_message(str(article.text), promt)
|
response_text = gpt_response_message(str(article.text), promt)
|
||||||
print(response_text)
|
print(response_text)
|
||||||
if response_text:
|
if response_text:
|
||||||
|
|||||||
Reference in New Issue
Block a user