|
Какие требования к таким программам: Программа должна уметь посылать последовательно поисковые запросы юзверя из некоторого заданного юзверем списка последовательно на несколько ЗАДАННЫХ ЮЗВЕРЕМ поисковиков 2.Какие поисковики использовать должно задаваться юзверем. И чтобы юзверь мог добавить в список любой понравившийся ему интернет-поисковик 3.Глубина поиска (сколько страниц выдачи и какие конкретно номера страниц принимать во внимание) должно для каждого поисковика задаваться юзверем 4.Программа должна уметь объединять результаты выдачи с разных поисковиков в одну результирующую выдачу 5.Программа должна уметь не показывать в результирующей выдаче сниппеты-клоны. Правила, по которым сниппеты считаются клонами, должны задаваться юзверем 6.Программа должна уметь объединять сниппеты, имеющие одну и ту же главную ссылку, но разный текст, в один сниппет. 7.Программа должна уметь не показывать в результирующей выдаче сниппеты, которые удовлетворяют какой-нибудь строке (или правилу) "черного списка" 8.Все сниппеты должны сохраняться в специальную базу данных из которой в любой момент можно сгенерировать выдачу по следующим атрибутам (причём можно выбирать сниппеты задействуя сразу несколько атрибутов строя из них логические выражения): 8.а) Порядковый номер поискового задания (например "выдать все сниппеты" полученные в 234...321 заданиях, или "выдать сниппеты последних 5-ти поисковых заданий") 8.б) Все сниппеты URL главной ссылки которых удовлетворяет спец файлу "URL-s.txt" 8.в) Все сниппеты найденные в поиске, в поисковом запросе которого содержалась/не содержалась заданная цепочка символов (цепочка определяется списком REGEXP-ов) 8.г) Все сниппеты, найденные поисковым запросом, помеченным заданными иерархическим тегами 8.д) Все сниппеты, найденные заданным поисковиком (например показывать сниппеты, найденные только яндексом и гуглом) или только УНИКАЛЬНЫЕ сниппеты (т.е. которые нашёл только этот поисковик и не нашли другие) 8.е) Новые сниппеты (которых не было в базе данных), добавленные в базу данных в указанный промежуток времени 9.Чтобы можно (использую базу данных) смотреть разного рода статистику 9.а) Для каждой ссылки посмотреть список поисковых запросов при которых был найдена данная ссылка и какими поисковиками 9.б) Для каждого поисковика посмотреть ЭФФЕКТИВНОСТЬ поисковика, т.е. сколько уникальных ссылок он выдал в поисковых заданиях с заданными номерами или в поисковых заданиях, обновленных в заданный промежуток времени Теперь о терминах 1) Под "сниппетом" я понимаю информацию о ссылке, которую выдаёт поисковик. Т.е. это как бы минимальный кубик информации, который будет сохранятся в базу данных. При этом при сохранении в базу данных к нему будут добавлены другие поля (типа, каким поисковиком был найден, каким поисковым заданием, когда и т.п.) 2) Под "поисковым заданием" я понимаю некий блок данных (возможно хранимый как отдельный файл) в котором юзверь определяет список поисковых запросов и то на какие поисковики их посылать и на какую глубину искать. Т.е. типа что-то в таком духе: ***************************************************************
1.Искать: мама папа я спортивная семья 1.1 в гугле на страницах: 1,2,4, 45, 56 1.2 в яндексе на страницах:1,2,...,7,12 + Добавлять в результирующую выдачу только сниппеты, удовлетворяющие списку правил E:\Белые списки\Здоровье.txt - Исключить из результирующей выдачи сниппеты, удовлетворяющие списку правил E:\Черные списки\Всякий рекламный мусор.txt ----------------------------------------------- 2.Искать: я /+1 ("у мамы") /(+1 +2) (дурачок | простачок) 2.1.в яндексе на страницах 1,...,4 + Добавлять в результирующую выдачу только сниппеты, удовлетворяющие списку правил E:\Белые списки\Про психов.txt - Исключить из результирующей выдачи сниппеты, удовлетворяющие списку правил E:\Черные списки\Это я уже читал.txt
********************************************************** Т.е. поисковое задание это как бы план работ по поиску и отбору нужной информации:"Найди это там, потом найди то здесь и ...." Таким образом можно дать проге задание и пойти пить чай пока она ищет, сортирует, выделяет, удаляет. Вместо того, чтобы вручную набивать поисковые запросы в разные поисковики, вручную определять дубли.А потом, поисковое задание сохраняется. И всегда можно его запустить по новой и посмотреть "а не появилось ли чего нового по данной тематике?" Т.е. посмотреть только новые сниппеты, которых ещё не было в базе данных я знаю только одну программу, которую хоть в какой-то степени удовлетворяет описанным выше требованиям. Это FileForFiles (бывш. SiteSpunik). Если Вы знаете ещё программы с подобным функционалом - подскажите. Буду премного благодарен |
|
|
Флуд убран. Господа, не нравится тема, просто проходим мимо. Это тематический раздел, за флуд тут будут предупреждения и баны! Хотите высказаться не по теме, есть раздел Не про радио, там можете обсудить всё то что тут понаписали не по теме. Без внимания тема и сама загнётся или превратится в монолог, если она никому не интересна. |
|
|
Тема, как она озаглавлена, слишком объёмна для простого пользователя. Ответ в лоб - "пользуюсь Гуглом и Яндексом" - автор явно не имел ввиду. Скорее всего, речь идёт о софте, автоматизирующем работу с языком поисковых запросов, т.е. буквально переводящем его построения на простой человеческий язык. Лично я таким софтом не пользовался, мне хватало простейших средств поискового языка: кавычки (для нераздельного словосочетания), & (для раздельного) - ну и всё... А полностью язык описан здесь (ежели кому надо для изучения). А теперь подождём - удалят или нет? |
|
|
Кто-то из топ-блоггеров, для которых просеивание инфы - основной источник дохода (то ли Антон Носик, то ли Алекс Экслер, то ли Голубицкий в Компьютерре, а может, на Хабре видел статью) писали что-то про такой софт. Но им, емнип, больше требовалось структурировать добытое, чем собственно искать. UPD: Да, действительно Голубицкий (его на форумах так и называют - "монстр датамайнинга"). Вот некоторые ссылки: http://old.computerra.ru/sgolub/461149/ http://old.computerra.ru/sgolub/461130/ И это лишь малая часть. |
|
|
Спец: Кто-то из топ-блоггеров, для которых просеивание инфы - основной источник дохода (то ли Антон Носик, то ли Алекс Экслер, то ли Голубицкий в Компьютерре Спасибо за ссылки. Я с автором знаком (виртуально) уже давно. Его стиль мне не нравится: хрен разберёшь где полезная информация, а где просто демагогия, словоблудие и гон чистой воды. Ну да ладно. Попробую поискать алмазы в море дерьма |
|