Вам может потребоваться извлечь ссылки (URL-адреса) на веб-странице для различных целей - например, для интернет-исследований, веб-разработки, оценки безопасности или тестирования веб-страницы. В этой статье рассказывается, как извлекать ссылки с веб-страницы или HTML-документа в Windows.
Как извлечь ссылки с веб-страницы в Windows
Существует несколько методов извлечения URL-адресов с веб-страницы. Начнем с нативного способа - с помощью раздела инструментов разработчика вашего браузера.
Использование инструментов разработчика вашего веб-браузера
- Откройте Chrome для Firefox и сначала посетите веб-сайт или веб-страницу.
- Нажмите F12, чтобы открыть окно инструментов разработчика.
- Щелкните вкладку «Консоль» в инструментах разработчика.
- Очистите вывод консоли, нажав на Очистить консоль (в Chrome) или Очистить вывод веб-консоли (в Firefox) кнопку.
- Введите следующий код в командной строке консоли:
Array.prototype.slice.call (document.querySelectorAll ('a'), 0) .forEach ((a, i) => console.log (`# $ {i + 1} - $ {a.innerText} - $ {a.href} `))
Это выводит упорядоченный список ссылок на этой веб-странице вместе с заголовком в окне консоли.
Если вы хотите получить только URL-адреса без серийного номера или текста заголовка, используйте эту команду:
urls = $$ ('a') для (url в url) console.log (urls [url] .href)
Скопируйте результат в Блокнот и сохраните его.
Использование PowerShell
Запустите PowerShell и используйте следующий синтаксис командной строки:
(Invoke-WebRequest -Uri 'https://www.winhelponline.com/blog').Links.Href | Сортировка-объект | Get-Unique | вне сетки
Это получает список ссылок на указанной веб-странице и выводит список в элемент управления представлением сетки.
Еще одно преимущество этой команды PowerShell заключается в том, что она сортирует записи, а также удаляет повторяющиеся URL-адреса из коллекции.
Элемент управления представлением сетки позволяет фильтровать URL-адреса для поиска по ключевым словам, а также копировать списки в буфер обмена с помощью Ctrl + C
Получите заголовок и URL
Чтобы просмотреть innerText в дополнение к соответствующим ссылкам или URL-адресам, выполните:
(Invoke-WebRequest -Uri 'https://www.winhelponline.com'). Ссылки | sort-object href -Unique | Формат-список innerText, href
Вы получите такой результат:
Повторяющиеся URL-адреса автоматически удаляются из вывода.
Вы даже можете автоматически скопировать вывод в буфер обмена, используя | зажим
параметр:
(Invoke-WebRequest -Uri 'https://www.winhelponline.com'). Ссылки | sort-object href -Unique | Список форматов innerText, href | зажим
Только URL-адреса изображений
Чтобы извлечь список URL-адресов изображений, используйте этот синтаксис:
(Invoke-WebRequest -Uri 'https://www.winhelponline.com') .Images | Выбрать объект src
Использование AddrView от Nirsoft
Nirsoft’s AddrView Инструмент автоматически извлекает ссылки (включая ссылки на изображения) с заданной веб-страницы или локального HTML-файла и отображает их в виде сетки.
Вы даже можете отсортировать результаты по Тип и скопируйте только URL-адреса изображений в буфер обмена или сохраните в файл.
Если вы хотите получать только ссылки на изображения, вы можете использовать встроенный в Firefox Просмотр информации о странице вариант. В Firefox щелкните правой кнопкой мыши текущую веб-страницу, выберите Просмотр информации о странице → СМИ. Вкладка Медиа перечисляет все URL-адреса изображений, включаяданные: изображение
ссылки. Вы можете скопировать выбранные элементы или все элементы в буфер обмена или сохранить записи в файл.
Помимо вышеуказанных методов, для таких браузеров, как Chrome или Firefox, существует множество расширений или надстроек, которые будут захватывать URL-адреса или ссылки на изображения с текущей активной веб-страницы в вашем браузере.
Одна небольшая просьба: если вам понравился этот пост, поделитесь им?
Одна «крошечная» публикация от вас серьезно помогла бы росту этого блога. Несколько отличных предложений:- Приколи это!
- Поделитесь этим в своем любимом блоге + Facebook, Reddit
- Твитнуть!