算法及编程语言 - 声振论坛 - 振动,动力学,声学,信号处理,故障诊断

Qsttow 发表于 2007-6-26 09:46

【转帖】慵懒的密码学专家们是如何做人工智能的

演讲全文：慵懒的密码学专家们是如何做人工智能的

　　演讲者：Lenore＆manuel Blum博士(1999年图灵奖获得者)

　　Lenore：

　　非常感谢，我不知道他在说了一些，大家都笑作一团，我知道他介绍了我的家庭，包括我的孩子，但是我还没有曾孙辈的孩子，我要感谢组织者，请我到中国来，尤其是能够来
到北京，能够见到各位。我想告诉各位，在79年第一次到中国来的时候，我当时想，也许那个时候你们还年纪非常小，但是我今天看到你们，可能那个时候还是孩子，甚至还没有出生，所以1979年是很有意思的一年，当时大学重新开始招生了，好像是在79年，之后我们在97年又来到了北京，那一年也非常有意思，因为正好是在97年，香港从英国移交到了中国手中，接着是2002年，我想也是很有意思的一年。

　　所以，我们今天话题就是高可信度的计算技术，以及包括硬件软件的透明度的问题。计算机的科学历史表明，要想防止硬件软件或者其它方面出现问题，最好实现的方式就是保持这个体系的公开、透明度。我们在这里要表示这尤其涉及到有关隐私安全和加密这三个问题。我们都是要进一步地促进透明度的提高，大家也知道，姚博士前面也介绍了，有关公共密钥的加密就很好地显示了过去我们在推进公开和透明度技术方面所取得的成功，我们在今天我想说的就是，给大家再进一步介绍一下公开而不是封闭的，私有技术的发展所取得的一些成就的范例，介绍一下在卡奈基梅隆大学所取得的进展，包括在北京卡奈基大学也有一些合作。我想向大家介绍一下阿拉丁中心。实际上阿拉丁听上去没有什么技术性，实际上技术性很强，主要是指有关的自制应和分散的一体化的系统，它是美国自然基金所赞助的一个项目，我们这个中心主要是促进技术的转让，当然我们也进行数学理论研究，通常这方面会有一些实质，我们要出版一些文章，要做一些工作，也许在五年二十年以后才能运用有关的技术，我们希望加快这一进程，使得技术更快地发展，现实中的问题如何应该研究的理论。我们都是理论的研究者，所以我们要在很多不同的领域进行研究，包括生物学的领域，咱们看看二十一世纪所要研究的问题，包括机器、学习、计算机的安全，这只是举一些例子，包括数据库、物理等。包括网络检索等等，我们研究设计所有这些领域，这是我们的网站，也就是通过查WWW.阿拉丁的网址就可以查我们的情况，这是我们的几个主任之一。我们希望能有这样一个所谓的仓储的堆建，我不知道在中国是不是有这样的体系，你们是不是有一些各种各样的后勤资源，有各种各样的协调人来联系，我们也希望有这样一个资源库，这样的话我们就可以为整个社区提供资源，所以也应该是开放和透明度的体系。那么现在仅仅是在测试的阶段，它还是非常原形的阶段。

　　今天我想向大家介绍有关透明度方面三个案例，也是从一些项目当中提取出来的。我想把他们称为针对问题的一些实验。我们把它叫做Probes，有关蘑菇的一个研究。你们可以看这两个人，GuyBlelloch和GaryMiller，他们都是这个项目当中精灵，主要为血液行动建模。我们是在计算机科学以外引入的一个问题，首先就是一个有关的机械设施设备，主要是用来检查人体的身体健康的，大学医疗中心在运用这个设备，像一个小的泵，来控制血液的流量，大家可以看到这个小的图片，它很小，而且很可靠，能耗很低，比其它以前的设备具有更少的伤害性。当然有一个挑战，设计当中碰到的挑战就是我们希望能够克服以前的趋势，就是有可能损害同血细胞，这是一个技术问题，计算科学和它有什么关系呢？我们来看看，第二个问题也是和第一个问题有点类似，也是跟血液病有关的，一些流动不足或者微循环出现问题，比如说糖尿病、癌症、贫血等等。我们有的时候发现血液流动不足，如果我们能帮助解决这个问题，也可以更好。

　　作为计算机科学家，我们就要能够建立有关的软件和公式，能够来精密测量这方面动态的变化，这样我们就可以对血液流量进行建模，当然建模在这方面很困难，因为所有的这些细胞还有流量都是在持续不断进行的。我们要不断地研究血流的情况。所以我们大体的方向就是要了解如何进行测量，并且模拟流量，了解背后的数学和物理机制，建立各种等式，如何在计算机上找到一些等同的因子，所以就是要创造很好计算数学的工具和整合的工具，每一次在更新数据的时候，在计算机上也能实现这一点，这就是我们所说的“M”系统这一部分是如何完成的。这是我们通常使用的一种办法，当然并不是非常常见的办法。我们必须要建立相关的数学关系，来满足这方面的需要，这也是GuyBlelloch一直研究的项目，他同时也在，研究其它的一些重要的项目，而且这两个方法之间是有很大相关性的，他在研究这两个方面的问题，只是向大家介绍一下透明度很高课题的研究。我们还有很多不同的人在项目上的共同合作，你在这里可以看到GaryMiller。我们的分享成果，分享编码、数据库，我们希望我们社区有一些数据库和共同的界面，而且能把研究成果的信息传达到社区以外。这是比较传统的例子。

　　还有一点就是不是特别传统意义上的问题，也是另外一项实验，我们称之为数据私密性的问题，主要是Smli教授进行研究。比如有关生物恐怖主义的袭击问题，我们也希望能够监视有关的情况。如果我们在这方面有足够的信息苦，我们就可以帮助我们极早地发现可能潜在的威胁，也可能侵犯到个人的隐私，使用一种目的的信息也很可能在未经许可的情况用于其他目的，这可以解决我们在这方面遇到的问题，社区也能够持续不断地监视一些症状和行为，来观察了解判断这些症状是正常的机率发生的，还是超出常规发生的，包括一些情况和健康状况等等，有的时候一些机械的决定使得我们数据毫无用处。另一方面，如果我们的信息是非常清楚可以得到的，有的时候有关法律或者其他的规定根本不能使用这样的数据，有的时候可能数据搜集就是重复的，无用的，而有的时候数据可能是不署名的，是匿名的数据，因此这方面需要有某种平衡，这方面需要建立某种数据关系，这里很有意思一点，也是他们提出的，就是包括年龄、性别和其它因素共同组成的图表，实际上通过生日、性别、邮政编码就可以准确地判断美国人口状况，差不多准确率达到87.1%。比如说这个社区到底有年轻的家庭生活在这里，另外，这里是一个社区，这是一个大学城，大多数的年龄都像你们这个年龄段，我认识到如果我住在上面这些社区中一个的话，我想关于我的信息很难，因为我是一个女的。因此，现在的问题是我们现在要分析一下这些数据，同时还能够维护隐私权，这么几个字节的信息、数据，比如说性别、出生年月日等等，就可以辨别出大多数人身份，甚至还可以出租我的投票的记录，这就是我们所关心从事的问题，这是一个新的领域，就是来研究一下世纪数据，那些实际有用的数据，虽然这个数据的题目我们并不知道，我们面对的问题和挑战，我们搜集和共享大量的数据，可是我们不需要变名更新这些数据，这里我们就要知道我们怎样得到我们需要的信息，这里涉及到量子加密，就是我们需要得到信息，但是我不需要信息从哪里来的，我们现在有开放的实验室，我们需要把这个领域工作的所有人，比如说公共卫生、公共健康、加密领域的人把他们带到一起研究这个问题，另外就是我们看一看，我们想能够使用公开的手段解决各自面临的问题。最后我想谈谈PROBlem，识别人类和电脑的图领测试，因为最好的科学上讲，最好的解决办法应该是公开的解决办法，我讲一讲PROB，我们怎么做的，我们开一个会，这个桌子围着桌子坐的，这都是天才、教授学生，他们在一起坐在一起讨论，他们关心的问题，召开研讨会的目的，找到网络行业和其它行业有关的专家拿起话筒给我们的朋友打电话，我们给Manber打电话，他来自加利福尼亚，他是雅虎的首席科学家，我们告诉他我们现在大家都坐在这里，我们很想了解一下你解决研究什么样的问题，我们觉得由你讨论这个问题是最合适的了。实际他确实也是在这个领域很有建树的，而且也是雅虎首席执行家，他思索一下，那好我们的问题是交谈室交谈室，在座有人上过雅虎的交谈室吗？最大的问题之一就是交谈室，这就是电子商的地方，你们可以交谈，有人想买便携式电脑，跟人交谈，我想买便携式电脑我到交谈室找一人问一问，了解这方面的情况，马上有人告诉我，我刚买一个便携式电脑，我也了解有关这方面的情况，我很喜欢这个电脑，他告诉我一个网址我上网址去。结果这个人还不是一个推销员，我们在交谈时面临很多问题，一大问题就是交谈时有很多蠕虫，我们的E—mail电子邮件有很多的蠕虫，我们要把他们清除掉，我们要防止这些蠕虫进入我们的交谈室和帐户，我们需要门口有一个卫兵，在交谈室门口有一个卫兵，如果是人的话才允许进入，如果是一个电脑蠕虫的就不允许进来，我们要测试把人和电脑分开，我们可以把这种测试放在电脑里，即使电脑不能通过这种测试，如果能上雅虎网的话，建立这么一个帐户的话，你就要应用Collaboration这种程序。下面我想请我的先生来谈一谈这个问题。

Qsttow 发表于 2007-6-26 09:47

　　Manuel：

　　我很执着，所以我们也许是朋友，我不会说普通话，所以我不能说普通话。

　　今天我想介绍一下CAPTCHA项目。很重要的一个原因就是路易斯，他是我一个研究生，非常聪明，他是来自维格.马拉非常出色的学生。

　　在做准备这段时间，我可以向你们介绍一下CAPTCHA全自动计算区分人与计算机系统，也就是图灵测试，就是抓住你了，CAPTCHA从英语说法来的，抓住你了，CAPTCHA这个项目主要是区分计算机和人类，它的有关一个程序告诉什么是计算机，什么是人，而且是全自动的，可以把它看成是一个卫兵，它站在门口，如果要是一个人的话，那就是请进，要是电脑的话，那就对不起了，别想进来，因此，我们想搞这么一个程序，它可以允许人进来，但是把电脑排除在外。这里边有一点自相矛盾的地方。很奇怪的这么一点，因为电脑必须要决定一个人它是人还是电脑呢？我们必须要搞这么一个程序，它能够进行这种测试，还要给它评级评分，给测试，给表现人评分，可是这个方案却通不过这个测试，多亏我多年在大学任教，所以我知道考试有多难，我知道当学生考试很难，去考学生很容易。所以它是有可能编这么一个程序的，它可以去把人和计算机区别开来，可是这个程序却自己通不过这种测试，这是可能的，而且编制这么一个CAPTCHA也是可能的，解决比较难的问题，姚教授刚才提到量子加密的问题，根据分解的问题，分解大数是一个非常困难的复杂的问题，我们CAPTCHA也想在比较复杂的问题上进行程序编码，我们面临的复杂问题就是人工智能，简称AI。我们想根据以下来见证CAPTCHA，如果方案程序为一个电脑编制这样一个程序，使他们通过CAPTCHA程序的话，这样这个电脑就解决人工智能的问题了。我们现在尤其一些黑客经常编写程序，他们想电脑通过卫兵，我们希望黑客和我们一起来解决所涉及到的人工智能的问题，今天我要讲的题目是50%布朗要讲的，另外一半是我学生要讲的，这些是他们做的研究，CAPTCHA的程序，我只是介绍几种可能性，CAPTCHA可能的运行方式，它有一个一千字的词汇表，这一千字的词汇表就是包括英语一千个字眼，我挑选额一千个字眼，因为五岁的孙子可以认识这一千个字，对我来说五岁的孙子能够通过CAPTCHA程序是很重要的一件事，因此识别从5岁一直到80到85岁的人，因为我的妈妈是84岁，因为我们的妈妈也能够通过CAPTCHA。它们工作的道理从一千个词汇量挑出七个字，随意的挑选，一旦挑出来之后，对这些字做了修改，把这些字打乱了图形，一旦有打乱了图形之后，你会看到测试是怎么进行的，现在测试就是你看到这样一个很混乱的图形，看一看你是不是能够把混乱的图形变回到最初的那七个字，这里可以看到这是打乱的图形，这里面有七个字，包括图形里，所以看到这里有一个门槛，你可以把它定为七个字，你可以改变这个门槛，我们从字典挑出七个字，把七个字打乱了，变成这样一个图形。孩子们是很敏锐的，你知道吗，非常小的孩子，眼光非常敏锐的，不同图形的字，有的在树上，各种鸟的动作，他们观察力非常敏锐，比如说你可以把字放在瓶子里，孩子都能识别出来，这是很令人惊奇的事。所以我们现在的识别设备却做不到这一点，他对混杂的图形他可以识别出来，这是很难的，这是人工智能的问题，如果有一个黑客，能够编写一个程序，能够识别出这个字的话，那就更好了，这比CAPTCHA更要好，我们有一个更好字的识别系统，这样我们就可以阅读美国国会的图书馆里的图书了。

　　这就是我们的测试，我还想谈一谈它的用途。

　　你记得刚才向我们讲述了交谈间谈话间的问题，怎样把蠕虫赶出交谈间，另外他还想一个办法，把我们的垃圾邮件从电子邮件清除出去，完全把这些赶出去，或者完全阻止他们，但是完全可以打消他们的速度，因此许多用途用于电子邮件，可以用于浏览和采购，这是又一个用途，这是很可怕的一个用途。美国有投票站了，在美国最好的销售电脑的研究生院是哪里，康耐尔大学肯定是康耐尔大学，各个学校的学生投自己的票，卡奈基梅隆突然找了，你知道为什么吗？有一个蠕虫，投票，我们要人去投票，让蠕虫去做吧，他做得更好，他的票很多，几千人，麻省理工学院又比他多了几票，麻省理工学院比我们多了一票，不管IMT总是比我们多几票，这都是蠕虫搞的。因此，确定之一票是人，而不是蠕虫，如果把蠕虫排除出去我们就可以知道，我们确保每一个投票的人首先要通过卫兵，什么是CAPTCHA呢，CAPTCHA是一个程序，可以区别用户是计算机还是人，我们现在把计算机和人区别开来，电脑想把人和计算机区别来，因此CAPTCHA可以做这样的测试，大多数可以通过这个测试，但是现在目前的电脑通不过这个测试。而且我想计算机绝对不可能比我们人类所有的事情都比我们做得好，这就是我们对计算机的总结，实际上它有点像这种系统，是自动化，是一种程序，而且是公开的程序，我们把它所有的程序共同上我们的网站来看一看我们的CAPTCHA是怎么工作的，完完全全是变化的，图灵测试通过一种测试把人和计算机区分开来，而且我们大家应该记住，是如何上网站，因为它P拼写稍微有点怪。P是原代码，说明我们的原代码应该是公开的。为什么要把它公开呢？下面有一些原因。首先把它公开以后，把CAPTCHA设计师能够加以关注，当你通过测试的时候，你可以看一看某些单词是单词的程序，有欺诈倾向的人民才能够看一看CAPTCHA程序是怎么样工作的，因此最好的办法是把它公开，所以我们所有的数据都是公开的。还有其它的原因。

　　我们希望我们CAPTCHA能有所突破，黑客能找到新的办法，把打乱顺序的单词能够重新加以整理，的确这个想法是很好的，而且我想要创造出比CAPTCHA更好的系统是更好的，而且我想一旦让黑客对我们攻击，这是更好的，一旦把CAPTCHA公开的话，公开CAPTCHA公开原理，我们进行公开人工智能的挑战，我们说这是一个程序，你是不是能够写一个更好的程序，能够超越我们的程序，我想这是对人工智能学界是公开的挑战。

　　我再举另外一个例子。这是一个很有意思的例子，这些图画是什么呢？大象，这是单一的大象还是一群大象，我想我们这个程序工作可以找到50万张照片，可以随机选择，可以随机选择基本的单词，叫做数学的名词，它可以从视觉中随机选择，然后看一看这个单词的图形，然后把六个图形能够随机选择出来，然后把它放到屏幕上去。下一次我想我在打大象这个单词的时候，它的景象可能不太一样了，的确这里边有一个问题，这个问题是一个相当根本的问题，实际上很好的可以在网上做这些图形，而且可以看到这个单词所有的共性，你可以发现它只是一个大象，那么我想更重要的一点，他们可以把这个东西进行重新的组合，比如说颜色的组合，比如红色的大象，你应该做一些歪曲和程序的打乱，大家都知道，人类对有歪曲性、打乱顺序图象有很好的识别能力。但是十分重要的一个，我们挑战的领域，也就是我们在网上……我们有一个图象，然后把他们找到，我们也希望CAPTCHA能做到这点，通过一个图象能够在网上找到。为什么要超越CAPTCHA呢？实际上它是超级的程序员，而且对编码系统完全的了解，而且是对原代码有所了解。我想大家都知道，刚才我谈到了它应该是超级的黑客，而且它完全可以上网，而且它有很多的自由时间，而且有一个超级的电脑帮助它，对CAPTCHA来说它很难设计所设计的程序。对CAPTCHA很难一个程序来通过它的测试，如果能超越CAPTCHA就解决很难人工智能的问题。因此我把人工智能的难题的任务交给了CAPTCHA，任何通过CAPTCHA生成程序的测试，它可以说超越了CAPTCHA，而且解决人工智能这方面的难题。

　　这就是我的学生路易斯的一个想法，可以从人类中挑选一些相关的循环，黑客通过CAPTCHA测试的时候，把CAPTCHA比作成一个人，比如说电脑，出现什么问题就可以把它交给人来解决，他的想法从人类获得一些循环。比如说人民在电脑上玩游戏，玩游戏他可能会很高兴解决测试的问题，以便继续玩他的游戏，我们希望让人类来帮助电脑解决问题。

　　大家知道不知道HOTORNOT.COM，这是卡奈基大学学生们他们往往上这个网站，而且他们照什么照片可以直接搁在网上，这些照片只是一种游戏，这绝对是不可抵御的诱惑，这些学生要求你们提供这方面的照片，而且做分类和分级，而且他们也通过这些照片解决CAPTCHA的问题。

　　从人类收取的信息，可以说是恶意的，但是却是相当智慧的，希望它能够超越CAPTCHA，如果大家想看我们的信息可以上WWW.CAPTCHA.COM，这个网站，大家可以看到很多新的消息。

　　我们希望把CAPTCHA作为一个挑战给学界。Manuel和他的研究生GaryMiller接受这个挑战，他说他们会努力工作，这个图里跟刚才图要稍微简单一点，他们分六个时间把图利难题解决了，所以说它是很少的几个例子可以工作，但是还不是特别完美，大家可以看到其它几个单词，FRONT做成但是FRONT读成FREE，他们向我展示这个图片，他们的工作如何工作的，而且他的程序图例83%的用途，可以说他们的最好的光学单词识别系统现在来讲只能解决10%问题。我们向大家举一个例子，他们向未来的学习挑战，而且现在我们的技术要好得多，这是上个星期刚刚取得的成果。

　　我向大家公开说的，我们像一个系统，如何把人类和电脑分开来，电脑编程员如何能够像AI学界提出挑战，这是我们提出的难题。

页: [1]

声振论坛's Archiver

【转帖】慵懒的密码学专家们是如何做人工智能的