👀 Бизнес-аналитик, зовем на Публичное собеседование на Хабр Карьере! Для участия нужно → оставить заявку

Корректное проксирование 20 сайтов (парсинг, прокси)

Зарплата

от 20 000 ₽

Требования

ФронтендJavaScriptПарсингPhantom.js

Местоположение и тип занятости

Неполный рабочий деньМожно удаленно

Компания

Сервис по доставке вещей из США

Описание вакансии

Условия работы

Всем, привет!

Есть бизнес задача - уметь открывать любой сайт в iFrame., фактички, нужно сделать проксирвоание. Например, Amazon, Google, как это умеет делать, например, Cloudflare: https://www.youtube.com/watch?v=HZacP2IG-lc

Или, например, похожая задача описана здесь: https://habr.com/company/mailru/blog/210050/

Решать задачу можно разными путями:

  • можно пытаться сделать через php, ajax, HTTP на уровне заголовков. Возможно, что задачу можно решить другим путем, на уровне знания уже существующих
  • можно решать как описано на Хабре: https://habr.com/company/mailru/blog/210050/
  • Есть еще такие механизмы как balancer - балансировщик нагрузки. Может его как-то можно использовать для нашей задачи. Типа reverse proxy https://ru.wikipedia.org/wiki/%D0%9E%D0%B1%D1%80%D... (https://github.com/containous/traefik)
  • Ещё, возможно, можно использовать phantom js. Он позволяет делать parser на уровне JS встроенный в phantom.js но тоже нужно будет как-то снимать результат и перенаправлять в обычный выход

В общем задача сводится, к тому чтобы пропускать через сервер странички и JavaScript страничек. Находить все возможные ссылки и возможные переходы в JS (знать HTML, JavaScript) менять их на свои. Знать заголовки HTTP их тоже находить и менять. То есть уметь писать парсеры.

Что важно:
Есть список примерно из 20 нужных нам сайтов, которые должны открываться во фрейме. Необходимо оттюнить тулзу, которую вы сделаете, чтобы она проксировала эти 20 сайтов. 

Если общего решения нет, то нужно будет проработать каждый из 20 нужных нам сайтов.