Кто-то увлекается AI, чатботами и т.д. ?

**!Vlad** · 19.05.2006 12:55

Сообщение от SWARM

с создания "образа"

что ты понимаешь под "образом"?

если исходить из теории систем - все есть система (взаимосвязь елементов)
елементы системы "чат-бот" четко определил homo ludens
1. ЕЯИ
2 База
3 Машина вывода
4 Машина обучения

с формальной точки знения это все что нужно.

лично у меня "образ" ассоциируется только с эзотерикой

(в частности с Владимиром Мегре )

SWARM · 19.05.2006 13:03

Сообщение от !Vlad

Сообщение от SWARM

Сообщение от pEtr0

Хотя возможно будет полезна штука которая может интеллектуально формировать отчеты, типа: "А сколько мы там продавали за последние 10 дней между 5:00 и 5:30?"
Мысль интересная, надо подумать.

Это уже давно реализовано в обычных БД.

.

да?

скинь мне на мыло пожалуйста БД с которой смогут без предварительного обучения работать директора , учредители. топ-менеджмент...
который у нас иногда файл с трудом в другую директорию переносит...
а вместо того чтобы учиться - кроет матом IT отдел?
думаю даже у motherhacer-а, кибер-уши бы в интеграл превратились от систематического выслушивания такого....

+ даже в таком монстре как 1С, с использованием пятикратной вложенности субконто (версия 7) не все запросы можно задать
напирмер
кто из контрагентов с которыми мы в прошлом году работали по газу и котрые рассчитались с просрочкой, нам сейчас больше всего должен за шарикоподшипники?

- а подобное спашивают

1C не монстр ) монстров Вы не видели ))
А теперь наводящий вопрос: Сколько успешных предприятий Вы вокруг себя наблюдаете где директора и учредители работают с БД ? Все коммерческие вопросы решаются в ресторанах а не за экраном компьютера )

SWARM · 19.05.2006 13:12

Сообщение от !Vlad

Сообщение от SWARM

с создания "образа"

что ты понимаешь под "образом"?

если исходить из теории систем - все есть система (взаимосвязь елементов)
елементы системы "чат-бот" четко определил homo ludens
1. ЕЯИ
2 База
3 Машина вывода
4 Машина обучения

с формальной точки знения это все что нужно.

лично у меня "образ" ассоциируется только с эзотерикой

(в частности с Владимиром Мегре )

А с практической точки зрения это запчасти и не более того.
"Образ" это модель поведения , набор часто используемых слов (понятий), реакция на внешние раздражители (положительная , отрицательная , безразличная). Пример : Вы можете себе представить чтобы 2 системных администратора лет 20 -25 обсуждали вопрос что дало Русской литературе "Слово о полку Игоревом" или они найдут более интерестную с их точки зрения тему )

**homo ludens** · 19.05.2006 15:00

"Образ" это модель поведения , набор часто используемых слов (понятий), реакция на внешние раздражители (положительная , отрицательная , безразличная).

По поводу образа и запчастей могу провести аналогию из мира компьютерных игр. Есть образ игры - персонажи, настроения, модели поведения, сюжет, оформление и т.п. А есть движок, на котором все это запущено. Делать образ раньше движка я бы сказал рискованно. Прежде всего потому, что если процесс разработки вдруг остановится по каким-то причинам, можно остаться с одним образом. А вот если остаться без образа но с движком, то это уже некоторая ценность. Элементарное управление рисками.

Кроме того, образ - это не шасси автомобиля (т.е. абстрактная концепция выраженная в конкретных библиотеках), это положение ручек громкости на магнитоле ;-) Имея правильно разработанный движок все можно подрегулировать. А самое первое, что надо разрабатывать - это шасси.
ИМХО в крупных проектах безрисковая разработка сверху вниз возможна лишь при крутом менеджменте и больших ресурсах. В нашем случае такого нет, поэтому разрабатывать надо снизу вверх. Что не исключает этап планирования и разработки базового кода или соглашений о стиле кодирования.

SWARM · 19.05.2006 16:46

Ага , писали стратегическую игру , а наваяли движок под квест )) В результате ни то ни другое

**pEtr0** · 20.05.2006 13:38

Сообщение от SWARM

Пример запроса суммы оплат по отделам:

select sum(sal) OVER (partition by deptno order by ename) department_total

1C БД не является ) она использует MSSQL или dbase3 (bdf)
...
А теперь наводящий вопрос: Сколько успешных предприятий Вы вокруг себя наблюдаете где директора и учредители работают с БД ? Все коммерческие вопросы решаются в ресторанах а не за экраном компьютера )

Чето это на естественный язык не сильно похоже, слегка видоизмененный SQL.
А под БД я имел ввиду слегка более общее понятие, но это не важно.

А вот насчет целесообразности. Деректора с учредителями в ресторанах, принимают решения, но до этого они к этому очень тщательно готовятся изучая информацию которую им предоставляют бухгалтера, кладовщики и менеджеры. И чем быстрее и в более удобном виде они информацию получат тем правильнее они смогут принять решение...
Помню обслуживал одну контору, так там директор каждый день прибегал в бухгалтерию и требовал новый отчет... причем иногда очееень оригинальные вещи выдумывал, и все это надо было програмить. Так вот я тогда попытался чтобы меня меньше трогали, это дело унифицировать, написал афигенно сложный отчет который по идее должен был делать все что сможет придумает начальство... но ничего не вышло, в бухгалтера и менеджеры не смогли разобратся как с ним работать... и все равно каждый раз когда им чтото было нужно приходилось к ним бегать.
Я к тому что увеличение универсальности любой программы, всегда ведет к увеличению сложности её интерфейса(в широком смысле этого слова). А единтвенный сложный интерфейс которым владеют все люди это ЕЯ. :!:

**pEtr0** · 20.05.2006 13:48

Сообщение от SWARM

А с практической точки зрения это запчасти и не более того.
"Образ" это модель поведения , набор часто используемых слов (понятий), реакция на внешние раздражители (положительная , отрицательная , безразличная). Пример : Вы можете себе представить чтобы 2 системных администратора лет 20 -25 обсуждали вопрос что дало Русской литературе "Слово о полку Игоревом" или они найдут более интерестную с их точки зрения тему )

Вот тут согласен. ИМХО создаие чатбота, без его индивидуализации не получится. Бот каким-то образом позиционировать себя во времени и простанстве, а возможно и в обществе. А насчет часто используемых слов и тем, то для этого во-первых у бота должна быть память, а во-вторых она должна быть ассоциативной.

**!Vlad** · 20.05.2006 16:32

Сообщение от pEtr0

Помню обслуживал одну контору, так там ...

знакомая ситуация...

**pEtr0** · 23.05.2006 13:36

Обзор сайтов по ИИ:
http://alephegg.narod.ru/Refs/Diagonal.htm

**!Vlad** · 23.05.2006 14:07

Сообщение от pEtr0

Обзор сайтов по ИИ:
http://alephegg.narod.ru/Refs/Diagonal.htm

список внушительный

Сейчас у нас есть сайтик
www.logosofteam.jino.ru
Все содержание уже безнадежно устарело....

Хотелось бы услышать мнения по поводу предназначения сайта и его содержания.

у меня мысли следующие

Назначение
- информирование о деятельности
- привлечение участников

Содержание
- общая информация о проекте
- учасники
- векторы деятельности
- результаты (алгоритмы, продукты, статьи, исследования и т.д.)
- ссылки
- контакты

Прошу всех высказать свое мнение

**homo ludens** · 25.05.2006 20:11

Итак, те идеи, которые появились в результате совместного употребления некоторого количества пива.

1. Есть смысл разделить уровень решения. В частности можно поставить упрощенную версию задачи.
Есть простая реляционка с минимумом сущностей и отношений. Предположим, что есть некоторый искусственный язык запросов к ней, язык, который реализует все возможные запросы (? возможно OQL). Попробуем построить множество всех фраз ЕЯ, соответствующих запросам на искусственном языке. Особых проблем я в этом пока не вижу, вообще можно использовать технику из inbase.
Однако если мы начинаем говорить о диалоге, у нас возникают "скрытые переменные". Например последовательное уточнение вопросов. В процессе сессии происходит накопление знаний системы о собеседнике.
Пример.
Человек. - А скажи-ка милый, почем у тебя ноутбуки.
Шалтай-Болтай. - От 300 до 5000 убитых енотов.
Человек. - А фирмы IBM?
Шалтай-Болтай (вспоминая предыдущий вопрос).
- 1-2 килобакса. А тебе сколько надо?

Т.е. в этом случае уже приходится анализировать последовательности взаимодействия, т.е. перечислять модели диалога (например последовательное уточнение, приведенное выше).

С этого варианта задачи можно попробовать начать.

2. Более полная постановка задачи.
Есть некоторая база данных. Эта база не является реляционной, более того, она достаточно сложна и является каким-либо представлением текста. Это может быть соответствующим образом проиндексированная семантическая сеть или это может быть просто Интернет, доступный через поисковики.
Необходимо построить систему, способную вытаскивать информацию из предметной области по ЕЯ-запросу и компилировать ее в текст, поддерживая при это некоторые можели диалога.

Пример.

Ч. - Что нового в разработке квантовой криптографии?
Ш. - С какого времени Вас интересуют изменения?
Ч. - Последние пару лет.
Ш. - Наиболее выдающимся достижением за последние пару лет является ... бла-бла-бла (пересказывает википедию, дает ссылки на источики и растекается мысью по древу)
Ч. А более растянуто можно? Мне реферат сдавать надо.

Данная система должна представлять хорошую альтернативу тупым поисковикам.

Упрощенный вариант может не сработать. Потому что механизмы диалога могут быть частью базы данных предметной области. В этом случае вариант 1 только отдалит нас от решения проблемы.
Однако попробовать надо, хоть шишек набьем. ;-)

Поток сознания (вероятно вызванный нехваткой алкоголя в крови ;-) ) о восстановлении семантических систем по структуре языка выложу позже, как появится время.

**!Vlad** · 26.05.2006 04:30

вспоминая вкус пива, задумался о том что обе задачи (1 и 2) имеют два больших блока
1. "Понимание" запроса и уточняющий диалог
2. Вытягивание ответа из б/д

причем пункт 1, по идее, абсолютно идентичен для обеих задач
т.е. набитые шишки пойдут впрок

**!Vlad** · 26.05.2006 04:40

Сообщение от homo ludens

механизмы диалога могут быть частью базы данных предметной области.

Во все этой систете вроде 3 элемента:

1 Человек, жаждущий информации
2 Киборг птица-говорун
3 База данных (либо именуемая тремя буквами реляционка (tab)
( а вы о чем подумали?

либо хитросплетенная семантическая сеть.

т.к. диалог проходит между 1 и 2, по идее там и должна быть зашита его механика. т.е. у Шалтай-болтаю не помешает своя база правил диалога обновляемая в процессе общения.

**homo ludens** · 26.05.2006 06:25

набитые шишки пойдут впрок

Обучение - процесс равномерного покрытия шишками всей поверхности тела. ;-)
А если учесть, что шишками придется и болтателя покрывать, то впрок пойдет дважды. ;-)

диалог проходит между 1 и 2, по идее там и должна быть зашита его механика

поскольку птица-говорун способна поддерживать разговоры о собственных внутренностях, следовательно есть пример ситуации, где база диалога и база предметной области совпадают.
Так что более общим вариантом является хранение ЕЯ-правил и базы предметной области вместе.

Ушел распечатывать доку по Cyclop....

**homo ludens** · 26.05.2006 06:34

Наглая гипотеза, которая может позволить существенно сократить количество жопочасов, необходимых для реализации болтателя.

Преамбула:
ИМХО ЕЯ является отображением некоторой коллективной семантической сети, распределенно хранящейся в головах людей - носителей языка. Т.е. есть некоторые структуры, представляющие собой ЕЯ конкретного носителя. Есть некоторые внутренние структуры объектов (тезаурус, семантическая сеть), которые хранятся в мозгах носителя. Внешние структуры являются отображением внутренних. У разных носителей языковые структуры синхронизированы и синхронизирован внутренний тезаурус. Причем внутренняя синхронизация гораздо слабее, чем соответствие языковых структур. ЕЯ в полном объеме - это объединение структур всех носителей. Аналогично можно построить обобщенный внутренний тезаурус.

Собственно, гипотеза.
Я предполагаю, что структуры внутренней семантической сети можно попробовать восстановить с некоторой степенью точности из общих структур ЕЯ. Т.е. существует алгоритм, который без знаний об смысле слов может так их правильно комбинировать, что разницы никто и не почувствует.

Пример, который может прояснить эту гипотезу.

Предположим, что некто хочет узнать все о сепульках, дает запрос в гугль и получает кучу ссылок на страницы где сепульки упоминаются. После этого все страницы, полученные в результате поиска грузятся в некоторый статистический анализатор и тот выясняет, что все тексты, собранные гуглем можно приблизительно разделить на две группы. В каждой из групп слова, встречающиеся рядом с искомым термином разные. Анализатор не знает, что слово сепулька- это омоним, который имеет два значения, однако он в состоянии определить, что есть два кластера в "лингвистическом пространстве" и эти кластера должны соответствовать двум понятиям в пространстве семантическом. В результате анализатор может задать уточняющий вопрос - какие именно сепульки Вас интересуют? Нажмите радиобаттон - а.) устройства для сепуления б.) то, что используется в сепулькарии в.) и то и другое.

Для того, чтобы реализовать данный алгоритм надо для начала построить математически понятия "лингвистическое пространство" и "семантическое пространство" и определить на них метрики. Таким образом можно попробовать определить соответствие объектов внутреннего тезауруса и внешнего набора слов. Дальше надо определять соответствие отношений.

Алгоритмы чисто статистические, и в принципе могут построить общение начиная с нулевых знаний о языке.

**pEtr0** · 26.05.2006 09:26

Итак, предлагаю начать процесс набивания шишек....

Задача в первой постановке.

Составные части:
- Синтаксический анализатор (СА)
- Модель предметной области (МПО)
- Язык запросов (ЯЗ)

Итак алгоритм работы системы, в общих чертах:
1. Получение запроса от пользователя

2. Синтаксический разбор запроса. Подлежащие, сказуемые, дополнения итп. Тут может возникать неоднозначность.

3. Перевод запроса на язык представления предметной области. Т.е. все этиподлежащие, сказуемые, местоимения и т.д. нужно превратить в "множество объектов и отнощений между ними"

С помощью объеденения запроса с МПО разрешаются неоднозначности и ссылки, либо самостоятельно либо с помощью пользователя (уточняющие вопроссы).

4. Перевод из представления МПО в ЯЗ. Это по идее должно быть не сложно... хотя мало ли

Наиболее сложным является построение МПО и 3-й шаг. Вообще в идеале МПО должна строится автоматически в результате анализа структуры БД. Либо с небольшой помощью человека, которому будут задаватся воросы: "А что собственно, означает поле "Sex" в карточке сотрудника?"

Синтаксический анализатор, я думаю можно найти, ибо его писать это дело очень долгое и сложное (например что-то есть тут www.aot.ru)

**pEtr0** · 26.05.2006 09:53

Что касается задачи во второй постановке и "наглых гипотез"

ИМХО статистическая обработка ЕЯ для болтателя не подходит. Статистически мы можем построить только модель языка, но не внутренние структуры мозга. Но язык отображает процессы которые проиходят с внутренними структурами - выводы, ассоциации, воспоминания... По сути статистически моделируя язык мы строим болтателя как черный ящик, нас не интересует его внутрення структура, главное взяимосвязь между входом и выходом. А в осмысленом разговоре эта связь слишком сложна.
Например, у бота спрашивают: "Вы не позскажите который сейчас час?"
Ну он до этого проанализировал много тысяч подобных диалогов и определил что чаще всего на этот вопросс отвечают "пол шестого", и всегда будет отвечать именно так

.

... а для поиска в больших массивах текстовой информации самый раз. Но иенно поиска, а не скажем формировния сжатого изложения.
Вот пример поисковика с кластеризацией: http://www.nigma.ru

**AmonRa** · 26.05.2006 10:01

Человек. - А скажи-ка милый, почем у тебя ноутбуки.
Шалтай-Болтай. - От 300 до 5000 убитых енотов.
Человек. - А фирмы IBM?
Шалтай-Болтай (вспоминая предыдущий вопрос).
- 1-2 килобакса. А тебе сколько надо?

Человек. - А фирмы Samsung?
Шалтай-Болтай (вспоминая предыдущих 2 вопроса). - тихо офигевает :)

**!Vlad** · 26.05.2006 10:50

Есть предложение определиться какую задачу решаем.

мне кажется первая более узкая, следовательно возможно стоит начать с нее, что бы не бежать обновременно в нескольких направлениях.

по поводу "гипотезы"
идея интересна хотябы потому что наглая

но
1 в ней , если правильно понял, отсетствует ЕЯ
2 если слово запроса имеет только один смысл , не совсем понятно на что кластеризировать
3 юзер обычной поисковой ситемы легко может определить для поисковика заначение омонима прикрепив к нему еще одно слово
пример
запрос "замок"
или на дверь ( замо'к)
или вместо котеджа

( за'мок )

если 1 запрос "дверной замок"
если 2 запрос "средневековые замки"

Вроде http://www.nigma.ru
делает примерно тоже самое
т.е.
выберает одно слово слева от искомого, и одно с права
и группирует по этому признаку....

вроде элементарно, сам такую на делфе за пару дней напишу

**!Vlad** · 26.05.2006 11:10

Сообщение от pEtr0

Синтаксический анализатор, я думаю можно найти, ибо его писать это дело очень долгое и сложное (например что-то есть тут www.aot.ru)

да там много всего есть

вопрос что нужно?

Графематический анализ. Выделение слов, цифровых комплексов, формул и т.д.
Морфологический анализ. Построение морфологической интерпретации слов входного текста.
Синтаксический анализ. Построение дерева зависимостей всего предложенияСемантический анализ. Построение семантического графа текста.

Может при укой задаче запроса к б/д на ЕЯ что-то из этого и не нужно?

Результаты опроса: Вы верите, что комп может мыслить?

Тема: Кто-то увлекается AI, чатботами и т.д. ?

Опции темы

Социальные закладки

Социальные закладки

Ваши права