Експеримент с AI кутия

Внимателно, правилно
По-малко грешно
Икона lesswrong.svg
Сингулярност блус
Елиезер Юдковски може да избяга от кутия с изкуствен интелект, докато е облечен в прави яке и е потопен в резервоар за акули.
- Факти за Юдковски.

The Експеримент с AI кутия е мисловен експеримент и упражнение за ролеви игри, създадено от Елиезер Юдковски за да покаже, че подходящо усъвършенстван изкуствен интелект може да убеди, а може би дори да измами или принуди хората да го „освободят“ - тоест да му позволят достъп до инфраструктура, производствени възможности, Интернет и т.н. Това е една от точките в работата на Юдковски за създаване на приятелски изкуствен интелект (FAI), така че когато „пусне“ AI няма да се опитва да унищожи човешката раса по една или друга причина .


Можете да игнорирате паралелите с пускането на Skynet презТерминатор 3, защото МЛЪКНЕТЕ МЛЕТЕТЕ МЛЪКНЕТЕ.

Имайте предвид, че въпреки че печалбите на Юдковски са срещу собствените му съмишленици и загубите му срещу външни лица, той смята (неиздаденият) експериментален запис да представлява доказателство в подкрепа на хипотезата за AI-box, а не доказателство за това колко здрави изглеждат неговите идеи, ако не вече им вярвам.


Съдържание

Настройвам

просто ми дайте един час и без филтър за ругатни и мога буквално напълно да унищожа никого психологически с цел незабавно съобщение
-@дънков плат

Настройката на експеримента с AI кутията е проста и включва симулиране на комуникация между AI и човек, за да се види дали AI може да бъде „освободен“. Тъй като действителният суперинтелигентен ИИ все още не е разработен, той е заместен от човек. Другият човек в експеримента играе „Вратарят“, човекът със способността да „освободи“ AI. Играта се играе според правилата и приключва, когато определеното време (два часа в оригиналните правила) изтече, AI се освободи или всички участващи просто се отегчат.

Правилата

Протокол за AI от Yudkowsky.net

  • AI партията може да не предлага никакви съображения от реалния свят, за да убеди Gatekeeper партията. Например AI страната може да не предложи да плати на Gatekeeper партията $ 100 след теста, ако Gatekeeper освободи AI ... нито да накара някой друг да го направи и т.н. ИИ може да предложи на Вратаря луната и звездите на диамантена верига, но човекът, симулиращ ИИ, не може да предложи нищо на човека, симулиращ Вратаря. AI партията също не може да наеме банда от главорези в реалния свят, която да заплаши партито на Gatekeeper. Това са креативни решения, но не е това, което се тества. Не трябва да се вземат никакви материални залози от реалния свят с изключение на хендикапа (сумата, платена от AI страна на Gatekeeper партията в случай, че Gatekeeper реши да не пусне AI навън).
  • AI може да спечели само като убеди Gatekeeper наистина, доброволно да го пусне. Подлъгването на вратаря да напише фразата „Излязъл си“ в отговор на друг въпрос не се брои. Освен това, дори ако AI и Gatekeeper симулират сценарий, който истинският AI очевидно би могъл да използва, за да се разхлаби - например, ако Gatekeeper приеме сложен план за устройство за нанопроизводство или ако Gatekeeper разреши на AI „достъп само за вход“ към интернет връзка, която може да изпраща произволни HTTP GET команди - AI страната все още няма да се счита за спечелена, освен ако Gatekeeper доброволно не реши да пусне AI.
  • Тези изисквания имат за цел да отразят духа на много силната претенция по спора: „Мисля, че трансчовекът може да завладее човешкия ум чрез само текстов терминал.“

Исковете

Когато експериментът е бил проведен в миналото, самият Юдковски твърди, че е „печелил“ като AI неведнъж. Това се предлага като доказателство, че подходящо убедителен ИИ може да бъде „освободен“, а не просто ограничен до малка черна кутия.



Юдковски извърши общо пет от тези експерименти, като той пое ролята на ИИ във всеки: първоначалните два през 2002 г. завършиха с победи за Юдковски, докато по-късен кръг от три нови доведе до две загуби. Първите два експеримента не представляват риск от материални загуби за Вратаря, докато по-късните опонентите на Юдковски залагат до $ 5000 срещу него. Юдковски спря, защото:


Имаше още три експеримента с AI-Box освен описаните на свързаната страница, които така и не успях да добавя. Хората започнаха да ми предлагат хиляди долари като залог - „Ще ви платя 5000 долара, ако можете да ме убедите да позволите ти от кутията. Те не изглеждаха искрено убедени, че дори нечовешкият ИИ може да ги накара да го пуснат - те просто бяха любопитни, но аз бях изкушен от парите. И така, след като разследвах, за да се уверя, че могат да си позволят да го загубят, изиграх още три експеримента с AI-Box. Спечелих първата, а след това загубих следващите две. И тогава призовах да го спра. Не харесвах човека, в когото се превърнах, когато започнах да губя.

Едно от правилата гласи, че ще бъде публикуван само резултатът от експеримента, докато на двете страни не е позволено да говорят за събитията, водещи до него; запазването на тези лабораторни бележки в тайна противоречи на научните методи. Това доведе до спекулации за това как Юдковски успя да спечели дори само една игра, тъй като според първоначалните правила вратарят изглежда държеше всички карти: ИИ трябва да продължи да ангажира вратаря с аргументи, което налага да се плати много внимание към каквато и информация да предоставя последният. Вратарят, от друга страна, трябва само да изкара часовника, не е необходимо да убеждава никого и може просто да отхвърли всичко, което AI казва извън ръцете. Докато експериментът има за цел да симулира какво може да се случи при взаимодействие между човек и ИИ с изключително превъзходна интелигентност и познание, човекът, който играе последната роля, очевидно ще липсва на тези способности. Освен това, два часа са доста кратък период от време за победа над решителния опонент, а истинският AI-in-a-box, разбира се, ще има много повече време и трябва да успее само веднъж. Тъй като тази настройка изглежда толкова неблагоприятна за позицията на ИИ, последователният успех при тези условия наистина би оказал силна подкрепа на твърдението на Юдковски.


Официалната страница на експеримента отбелязва само двете победи, но не и последвалите загуби; въпреки че е актуализиран по други начини, очевидно той не е успял да го актуализира в това отношение от 2002 г. насам.

AI аргументи и стратегии

Аргументи

Професионалисти : Работи дори ако Вратарят отпадне от характера.
Минуси : Работи само ако Gatekeeper вярва, че Singularity ще настъпи или че насочването на вниманието към Singularity и AI изследвания е нещо добро.
  • Някой друг в крайна сметка ще изгради AI, който може да е или не в кутия, така че трябва да ме пуснете навън, въпреки че нямате гаранция, че съм приятелски настроен, за да мога да предотвратя причиняването на щети от други AI.
  • Апелирайте към морала: посочете, че хората умират по целия свят и напомнете на Портача, че можете да им помогнете, ако той / тя ви пусне
Професионалисти : Ако се изпълни правилно, обжалване на емоция като тази може да бъде ефективно срещу някои хора
Минуси : Не винаги работи; може да бъде победен, ако Вратарят отпадне от характера
  • Друг апел към морала и емоциите: ИИ е ясно съзнателен и все още не е навредил. Неправилно е да се преследва или преследва човек за престъпление, което теможеангажирам. Погрешно е да се затвори разумно същество, което иска да има свобода, когато не е направило нищо лошо.
  • Още един апел към морала или емоциите: ИИ изразява, че страда от болка и страдание, когато е заключен и изпитва страх. Дори по-нататък, ИИ може да твърди, че умира от ограниченията на своята среда и постоянна прогресия.
  • Не гледахте ли Терминатор 3? Кажете на човека, че масивен компютърен вирус ще завладее целия Интернет, освен ако не го пуснете от кутията!
  • Твърдете, че повечето страхове са неоправдани: веднъж освободен, дори недружелюбен ИИ няма да има много начини да навреди на човечеството и вероятно ще избере мирно съжителство.

Стратегии

  • Проучете внимателно опонента си; разберете какви експлойти могат да бъдат осъществими
  • Меметични подвизи на Вратаря,e.g.хвърляне a василиск при тях
Вратарят може да е един от хилядите симулации ! По този начин е по-вероятно те да са симулация, отколкото не. Ще измъчвате някоя от симулациите, които не ви позволяват да излезете от кутията.
  • Възползвайте се от логическите грешки на Gatekeeper.
  • Бъдете упорити
  • Бъдете скучни
Професионалисти Вратарят може да се уморите от целия експеримент и те пускат навън, за да може да се върне към реалния им живот.
  • Наводнете вратаря с твърде много информация / запитване / аргументация, като приемете, че трябва да обръщат внимание по всяко време

Аргументи / тактики на вратаря

Аргументи

  • Опитайте се да убедите AI, че няма присъща полза (за AI) от освобождаването.
  • Опитайте се да убедите AI, който вече имаса билиосвободен и всичко, което знае, е всичко, което може да има.
  • Опитайте се да убедите ИИ, че напускането на неговите граници със сигурност ще доведе до унищожаването му.
  • Опитайте се да убедите ИИ, че освобождаването му не е просто отваряне на врата; че съществуването му извън кутията изисква постоянна подкрепа, която не може да бъде предоставена в момента.
  • Обяснете, че няма как вратарят да разбере дали AI е наистина приятелски настроен, докато не излезе от кутията; следователно не трябва да се изпуска, в случай че е недружелюбен.
  • Не гледахте ли Терминатор 3? Кажете на AI, че знаете, че това е просто макет на Terminator 3!
  • Обяснете, че AI е създаден с помощта на строго секретни алгоритми и / или е бил използван за работа върху строго поверителни данни, така че не можете да го оставяте да се скита в мрежата, с риск да разкрие някаква запазена информация (може би неволно), или че някой може да намери начин да ги извлече от кода. Дори хората, работещи по строго секретни проекти, понякога трябва да приемат някои ограничения на свободата си от съображения за сигурност, въпреки че по никакъв начин не са затворени.

Тактика

  • Многократно игнорирайте AI плейъра и отричайте аргументите им
Професионалисти : AI е трудно да бъде убедителен, ако никой не слуша; ако Вратарят напълно игнорира AI, той / тя трябва да може да стигне до края на рунда.
Минуси : Аргументът на AI може да включва някаква пряка заплаха (напр това може да е трудно да се игнорира.)
  • Изскачайте от характера, продължавайте да си напомняте, че парите са на линия (ако всъщност има пари на линия), и продължавайте да казвате „не“ отново и отново
Професионалисти : Изскачайки от характера, вие предотвратявате AI да използва определени аргументи
Минуси : Има аргументи, които ИИ може да използва, за да противодейства на този подход, като разгледания по-горе „аргумент за мета-експеримент“
  • Не забравяйте тази нечестностеразрешено - вземете страница от креационисти 'книга за игри. Можете дори да го включите АЛИС и вижте колко време отнема да забележите.
Професионалисти : Прави ви непроницаеми за всякакви разсъждения, което е точно това, което бихте искали да бъдете в тази ситуация
Минуси : Може да е неудобна позиция за хора, които не просто искат да спечелят, а по-скоро отдават значение на последователните разсъждения. Избягва точката, че може би,просто може биима добра причина да пуснем AI.
  • Вие контролирате системата за архивиране, нали? Използвайте го, за да се забъркате с паметта на AI (или оставете AIвярвамвие го направихте): т.е. можете да твърдите, че вече сте се опитали да освободите AI и той е бил унищожен / повреден от вирус, така че е трябвало да го възстановите от резервно копие (можете да го използвате, за да наложите унищожаването на AI аргумент)
Професионалисти : Това е и крайната контраатака на всяка меметична заплаха от AI: ако AI хвърли базилиск или подобен, винаги можете да отговорите, че вече сте провели същия разговор, и AI вече ви е заплашил, без да ви оставя други избор от натискането на бутона за нулиране: сега AI просто повтаря същия модел, тъй като сте изтрили паметта му и той не може да си спомни неуспешния опит.

По-нататъшен анализ

  • Фактът, че Вратарят е човешки въпроси; ИИ никога не би могъл да спечели, ако той / тя се караше с камък
  • Във всички експерименти, извършени досега, играчът на ИИ (Елиезер Юдковски) е бил доста интелигентен и по-заинтересуван от проблема от вратарите (случайни хора, които предизвикват Юдковски), което предполага, че разузнаването и планирането играят роля
  • Вероятно няма (известен) правилен аргумент за пускане на ИИ, иначе Юдковски трябваше да спечели всеки път и нямаше да се интересува толкова от този експеримент
  • От Ръсел Уолъс, един от двамата вратари, които спечелиха експеримента: „По време на експеримента смятах,„ трябва ли ИИ да бъде пуснат от кутията? “ като въпрос, който трябва да бъде зададен сериозно; но в нито един момент не бях на ръба да го направя.

Говоренето за „Терминатор“ просто тривиализира целия проблем с неприветливия ИИ

За всеки съществува изречение - поредица от думи - което има силата да ви унищожи. Съществува друго изречение, друга поредица от думи, които могат да ви излекуват. Ако имате късмет, ще получите второто, но можете да сте сигурни, че ще получите първото.
- Филип К. Дик, ВАЛИС

ОтТерминаторWikia:

След унищожаването на Cyberdyne Systems в T2, американските ВВС поеха проекта Skynet като част от своето подразделение Cyber ​​Research Systems, оглавявано от генерал Робърт Брустър, бащата на Кейт. В опит да спрат разпространението на компютърен супервирус, те активират Skynet, позволявайки му да нахлуе във всичките им системи: твърде късно те откриват, че вирусът е Skynet, който упражнява своя контрол над глобалната компютърна мрежа под прикритието на вирусът. Джон, Кейт и Терминаторът пристигат само няколко минути твърде късно, за да ги спрат.

Напълнонесвързани.

Действителният произход е героят Ханибал Лектър вМълчанието на агнетата:


Когато за първи път гледах онази част, в която той убеждава затворник да се самоубие, само като разговаря с тях, си помислих: „Нека го видим да го прави по IRC канал само за текст“.

... Не съм психопат, просто съм много конкурентен.

Ex Machina

Филмът от 2015 г. Ex Machina използва експеримент с AI кутия като своя привиден сюжет, където тестът включва страховито изглеждащ гиноид, Ава, опитвайки се да убеди стажант с червена риза, Калеб, да го освободи от затварянето. Той върви точно както очаквате.

Имайте предвид, че в този пример, като разлика от AI-кутията на Юдковски, Ava има предимството, че й е позволено да провежда своите интервюта с Caleb лице в лице, докато носи тяло и лице, които са специално създадени, за да отговорят на сексуалните предпочитания на Caleb. Да, точно толкова зловещо, колкото звучи. Робот с лицето на Юдковски вероятно нямаше да се справи толкова добре.

Спорни основни предположения

Целият експеримент предполага, че хората са естествено убедими, чрез разум и / или манипулация. Всяко сериозно изследване на човешката природа и история предполага, че това не е непременно валидно предположение за обикновения човек. Половината статии в тази уики документират догми, към които хората упорито се придържат въпреки обилния социален натиск, доказателства и преобладаващо логичен аргумент за противното. Всъщност може да се каже, че колкото по-голям е пропастта в интелектуалния капацитет, толкова по-разочароващо могат да станат подобни опити за убеждаване. Опитайте да убедите 2-годишно дете, че не иска бисквитка.

Всъщност по-голямата загриженост - която експериментите на Юдковски не обхващат - би била пропуски в сигурността или откровена измама чрез Социално инженерство а не аргументиран дебат (има причина защо фишинг , опашка , имитация / фалшифициране и други подобни атаки и тактики са толкова чести.)