Как найти человека?
Поисковый робот, поиск по имени — программа, являющаяся комбинированный частью поисковой системы и предуготовленная для перебора страниц Интернета с целью занесения информации о них в базу данных поисковика. По тезису действия паук напоминает обыкновенный браузер. Он анализирует содержимое страницы, сберегает его в некотором особом виде на сервере поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Обладатели поисковых машин зачастую ограничивают глубину проникновения паука вовнутрь сайта и наивысший размер сканируемого текста, следственно чрезмерно огромные сайты могут оказаться не всецело проиндексированными поисковой машиной. Помимо обыкновенных пауков, существуют так называемые «дятлы» — роботы, которые «простукивают» проиндексированный сайт, дабы определить, что он доступен.
Порядок обхода страниц, частота визитов, охрана от зацикливания, а также критерии выделения важной информации определяются алгорифмами информационного поиска.
В большинстве случаев переход от одной страницы к иной осуществляется по ссылкам, содержащимся на первой и последующих страницах.
Также многие поисковые системы предоставляют пользователю вероятность независимо добавить сайт в очередь для индексирования.
Поисковый индекс — конструкция данных, которая содержит информацию о документах и применяется в поисковых системах. Индексирование, делаемое поисковой машиной, — процесс сбора, сортировки и хранения данных с целью обеспечить стремительный и точный поиск информации. Создание индекса включает междисциплинарные представления из лингвистики, когнитивной психологии, математики, информатики и физики. Веб-индексированием называют процесс индексирования в контексте поисковых машин, разработанных, дабы искать веб-страницы в Интернете.
Популярные поисковые машины сосредотачиваются на полнотекстовой индексации документов, написанных на обычных языках. Мультимедийные документы, такие как видео и аудио и графика, также могут участвовать в поиске.
Метапоисковые машины применяют индексы других поисковых сервисов и не хранят локальный индекс, в то время как поисковые машины, основанные на кешированных страницах, длинно хранят как индекс, так и текстовые корпусы. В различие от полнотекстовых индексов, отчасти-текстовые сервисы ограничивают глубину индексации, дабы уменьшить размер индекса. Огромные сервисы, как правило, исполняют индексацию в заданном временном промежутке из-за нужного времени и расходов на обработку, в то время как поисковые машины, основанные на агентах, строят индекс в масштабе реального времени.
Цель применения индекса — возрастание скорости поиска релевантных документов по поисковому запросу. Без индекса поисковая машина должна была бы сканировать всякий документ в корпусе, что затребовало бы большого числа времени и вычислительной мощности. Скажем, в то время, как индекс 10 000 документов может быть опрошен в пределах миллисекунд, ступенчатый просмотр всякого слова в 10 000 крупных документов мог бы занять часы. Добавочная память, выделяемая для хранения индекса, и увеличение времени, требуемое для обновления индекса, компенсируется уменьшением времени на поиск информации.
Факторы, влияющие на проектирование поисковых систем
При разработке поисковой системы нужно рассматривать следующие факторы:
Факторы слияния
Как данные входят в индекс? Как слова и подчиненные функции добавляются в индекс во время текстового корпусного обхода? И могут ли несколько поисковых роботов трудиться асинхронно? Поисковый робот должен вначале проверить, обновляет он ветхое оглавление либо добавляет новое. Слияние индекса поисковой системы аналогично SQL Merge и иным алгорифмам слияния.
Методы хранения
Как беречь индексируемые данные? То есть определяют вид хранимой информации: сжатый либо отфильтрованный.
Размер индекса
Сколько памяти компьютера нужно, дабы поддерживать индекс.
Скорость поиска
Как стремительно дозволено обнаружить слово в инвертированном индексе. Значимым для информатики является сопоставление скорости нахождения записи в структуре данных и скорости обновления/удаления индекса.
Хранение
Как хранится индекс в течение долгого времени.
Отказоустойчивость
Для поисковой службы значимо быть верной. Вопросы отказоустойчивости включают задачу повреждения индекса, определяя, дозволено ли отдельно рассматривать некорректные данные, связанные с дрянными аппаратными средствами, секционированием и схемами на основе хеш-функций и композитного секционирования, а также репликации.