CoSQL数据集
2020.3∼2020.62020.3 \sim 2020.62020.3∼2020.6 上了赵洲教授《机器学习》这门课,大作业是选择一个深度学习的排行榜去刷 rank。
本文介绍 Text-to-SQL 领域的 CoSQL 数据集,并应用一些相关的深度学习方法测试准确率。
什么是 CoSQL
CoSQL 全称 Conversational text-to-SQL,是耶鲁大学在 EMNLP2019 提出的 NLP 领域的数据集。
官方网站 。与经典的 text-to-SQL 任务(如 Spider)相比,CoSQL 的难度增加了不少:
为了模拟现实场景,用户的询问可能有多轮,要求系统有整合信息的能力。
系统生成 SQL 语句并得到查询结果后,要用自然语言反馈给用户。
用户与系统的多轮对话之间,可能需要 clarify ambiguous questions(如下图 Q3Q3Q3 和 R3R3R3)。
CoSQL 包含到 3k+ 组对话(216421642164 Train,292292292 Dev,551551551 Test),共计 10k+ 标注过的 SQL 询问 ...
算法的设计和分析
在此分享一下我在 2020.4∼2020.62020.4 \sim 2020.62020.4∼2020.6 在浙江大学上的《算法设计与分析》这门课的内容。
这门课介绍了很多有趣的算法,我会挑一些新奇有趣的、以前没见过的 topic 分享。
可以把这篇文章和 趣题摘记 系列结合起来看。
Undecidable Problems
罗素悖论(Russell’s Paradox)是一个很著名的悖论:设集合 SSS 是由一切不属于自身的集合所组成(即 S={x∣x∉x}S=\{x|x \notin x\}S={x∣x∈/x}),那 SSS 属于 SSS 吗?
我们通常用理发师悖论(The Barber paradox)去解释罗素悖论。假设城里只有一个理发师,且任何一个不能自己理发的人会由理发师帮他理发。定义 S(x)S(x)S(x) 为所有被 xxx 理发的人的集合,则 S(barber)={x∣x∉S(x)}S(barber)=\{x|x \notin S(x)\}S(barber)={x∣x∈/S(x)} 。但是 barber∈S(barber)barber \in S(barber)ba ...
Django 学习笔记
2020.3∼2020.62020.3 \sim 2020.62020.3∼2020.6 上了《BS体系软件设计》这门课,但我对 web 一无所知。最终决定用 Django + Vue 的架构完成课程设计,所以这篇文章是对 Django 做一个初步的学习和总结。
命令行操作
12345django-admin startproject mysite # 创建叫做 mysite 的 projectpython manage.py startapp learn # 创建叫做 learn 的应用python manage.py makemigrations # 生成迁移文件python manage.py migrate # 将结构变化应用到数据库python manage.py runserver <ip:port> # 运行 urls.py 里指定的网页
简单的网页请求处理 views.py & urls. ...
朝花夕拾·漫谈初中
记录了 初中 的记忆片段。由于初中有写日记的习惯,这篇文章总能慢慢地更新。
缘定绍初
我的初中原名是绍兴一中初中部,最初由绍兴市北海中学、府山中学合并而成。后来为了落实九年制义务教育,强调初高中的分离,就改名为 绍兴市第一初级中学教育集团龙山校区。教育集团还有一个镜湖校区。
绍初位于越城区市中心,城市广场的对面,紧挨着原市府大楼,周围建筑密集,门口的车道常年堵车。附近有一条护城河,观赏性还是很强的——可惜那会儿满脑子都是赶路和学习。
如果按照小升初考试的常规途径,我当时只能去上虞市内(当时上虞市还没有改成区)的初中。上虞市里最厉害的中学是春晖中学,有俗语 北有南开,南有春晖,是一个十分不错的选择(升入大学的时候我特意问了一个来自南开中学的同学,他坦言并没有听说过这个俗语哈哈哈)。
不过我最终是通过了绍初龙山的借读生考试,以 借读生 的身份进入绍初龙山。小学到初中为什么跨区读书呢?这中间还有段机缘巧合。小学五六年级信息学比较强势(其实那会儿就是学学选择、循环、分支结构,算法设计主要依靠数学功底),我不希望这个特长从此失去了。春晖虽是上虞人的不二选择,但是春晖有关信息学竞赛的培训寥寥无 ...
应用运筹学-线性规划的基本理论
我在大三春夏学期上了张国川老师的《应用运筹学基础》这门课。
张国川老师坚持板书讲解,课上干货满满,是不可多得的好老师。
我本来是在 TSR 学长的博客 的基础上补充知识点的。张老师在期末时把“上课笔记整理”也作为了考核方式之一,于是我把 TSR 学长的部分内容也结合进来了。
这篇文章是系列之一,还有两个系列分别是:
线性规划应用
近似算法选讲
凸集、凸函数、凸优化
凸集:任取 x,y∈Sx, y \in Sx,y∈S 和 ∀θ∈[0,1]\forall \theta \in [0,1]∀θ∈[0,1] 满足 θx+(1−θ)y∈S\theta x + (1-\theta)y \in Sθx+(1−θ)y∈S,称集合 SSS 凸集(Convex Set)。
凸集的交仍然是凸集。
如果没有 ∀θ∈[0,1]\forall \theta \in [0,1]∀θ∈[0,1] 的条件,称集合 SSS 仿射集(Affine set)。
凸函数:对于定义在凸集 SSS 上的函数 f(x)f(x)f(x),若对于 ∀θ∈[0,1]\forall \theta \in [0,1]∀θ ...
应用运筹学-近似算法选讲
我在大三春夏学期上了张国川老师的《应用运筹学基础》这门课。
张国川老师坚持板书讲解,课上干货满满,是不可多得的好老师。
我本来是在 TSR 学长的博客 的基础上补充知识点的。张老师在期末时把“上课笔记整理”也作为了考核方式之一,于是我把 TSR 学长的部分内容也结合进来了。
这篇文章是系列之三,还有两个系列分别是:
线性规划理论
线性规划应用
稳定婚姻问题(stable marriage problem)
问题描述
有 NNN 位男生和 NNN 位女生,每个男生都对 NNN 个女生的喜欢程度做了排序,每个女生都对 NNN 个男生的喜欢程度做了排序,现在需要确定一个稳定的约会状态(匹配)。
若存在两对匹配 A=(u,v)A=(u,v)A=(u,v),B=(p,q)B=(p,q)B=(p,q) ,满足男生 uuu 比起女生 vvv 更喜欢女生 qqq,且女生 qqq 比起男生 ppp 更喜欢男生 uuu,那么我们称这组方案是不稳定的。
Gale–Shapley 算法
首先选择一个单身男生,他会按照他的喜欢程度对一个还没有表白过的女生表白。
如果女生此时处于单身状态,则他们 ...
应用运筹学-线性规划应用
我在大三春夏学期上了张国川老师的《应用运筹学基础》这门课。
张国川老师坚持板书讲解,课上干货满满,是不可多得的好老师。
我本来是在 TSR 学长的博客 的基础上补充知识点的。张老师在期末时把“上课笔记整理”也作为了考核方式之一,于是我把 TSR 学长的部分内容也结合进来了。
这篇文章是系列之二,还有两个系列分别是:
线性规划理论
近似算法选讲
原始对偶方法
基本思想:
灵活运用了互补松弛条件 (y∗TA−cT)x∗=0(y^{\ast {\rm T}}A-c^{\rm T})x^\ast=0(y∗TA−cT)x∗=0 且 y∗T(Ax∗−b)=0y^{\ast {\rm T}}(Ax^\ast-b) = 0y∗T(Ax∗−b)=0.
给出一组对偶的解,强行去满足互补松弛条件。每次观察 xxx 是否满足原问题的约束,若不满足就不断地修正 yyy。
原始对偶算法 流程
我们先列出原问题(P)的对偶问题(DP),并找到 yyy 的一组可行解。
如果 c≥0c \ge 0c≥0,直接取 y=0y=\pmb{0}y=00 即可。
否则我们给原问题增加一个变量与一条约 ...
《编译原理》知识整理
在此记录一下我在 2020.3∼2020.62020.3 \sim 2020.62020.3∼2020.6 在浙江大学上的《编译原理》这门课的知识点。
整一个编译的流程包括如下两个阶段:
front end: scanner →\to→ parser →\to→ semantic analyzer →\to→ source code optimizer
back end: code generator →\to→ target code optimizer
编译原理就是围绕这两个阶段展开的知识点。
词法分析 lexical analysis
Regular Expression
Rules
R* zero or more strings from L®: R(R*)
R+ one or more strings from L®: R(R*)
R? optional R: (R|ε)
[abce] one of the listed characters: (a|b|c|e)
[a-z] one character from this range: (a|b|c|d|e|… ...
《计算机网络》知识整理
在此记录一下我在 2020.3∼2020.62020.3 \sim 2020.62020.3∼2020.6 在浙江大学上的《计算机网络》这门课的知识点。
计算机网络概述
A protocol is an agreement between the communicating parties on how communication is to proceed.
A protocol is a set of rules governing the format and meaning of the packets, or messages that are exchanged by the peer entities within a layer.
A service is a set of primitives (operations) that a layer provides to the layer above it.
Service interface defines which primitive operations and services the lowe ...
朝花夕拾·童年
记录了 幼儿园 和 小学 的记忆片段。
第一段幼儿园:新建庄幼儿园
我在生活上单纯傻笨。有一次去亲戚家吃饭,四爷爷突然疑惑地对我说:“咦,你的碗怎么漏了?”于是我翻过碗查看,饭全都洒在桌上了。雨天我也不会躲水坑,我妈就干脆给我买了双靴子,让我尽情地在水中踏步(直到现在我都一直很喜欢靴子)。
刚上幼儿园的时候年纪小。大家都欺负我、排挤我,总是抓我脸,可我不敢和老师说。我没有朋友,只喜欢一个人静静地在幼儿园的“毛毛虫”(里面可以钻人)里玩。不过我那会儿真是慷慨大方。
外婆常常笑着和我提起,以前接送我上学时会路过一个叫做 “城市花园” 的别墅群。我会指着别墅对她说“长大后也给你买一幢”。现在看来有心无力啊(哭哭)。
我妈经常给我买玩具,巅峰时候整整装了一麻袋。如果有小朋友来我家玩并且看上了我的玩具,我就会送给他们。最终送的送、丢的丢,整个麻袋都没了。
去别人家玩的时候我却不会拿任何东西。有一次去同村的一个男孩子家里玩,我对一辆拇指大的小车爱不释手,那户人家就送给我了——这件事让我高兴了好几天。
隔壁的一个亲戚(比我大三岁)送了我很多神奇宝贝卡片,我一直很感激他。后来妈妈才告诉我,他来我家 ...